En revolusjon innen datagrafikk bringer 3D Reality Capture til massene

En revolusjon innen datagrafikk bringer 3D Reality Capture til massene

A Revolution in Computer Graphics Is Bringing 3D Reality Capture to the Masses PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Som et krigsvåpen er ødeleggelse av kulturminner en vanlig metode av væpnede inntrengere for å frata et fellesskap deres distinkte identitet. Det var ingen overraskelse da, i februar 2022, da russiske tropper feide inn i Ukraina, at historikere og kulturarvspesialister forberedte den kommende ødeleggelsen. Så langt i Russland-Ukraina-krigen har UNESCO bekreftet skade på hundrevis av religiøse og historiske bygninger og dusinvis av offentlige monumenter, biblioteker og museer.

Mens nye teknologier som rimelige droner, 3D utskriftog privat satellitt internett kan skape en utpreget slagmark fra det 21. århundre som er ukjent for konvensjonelle hærer, og et annet sett med teknologier skaper nye muligheter for borgerarkivarer utenfor frontlinjen for å bevare ukrainske kulturarvsteder.

Sikkerhetskopier Ukraina, et samarbeidsprosjekt mellom den danske UNESCO National Commission og Polycam, et 3D-opprettingsverktøy, gjør det mulig for alle som er utstyrt med bare en telefon å skanne og fange høykvalitets, detaljerte og fotorealistiske 3D-modeller av kulturarvsteder, noe som bare er mulig med dyrt og tyngende utstyr for bare noen år siden.

Backup Ukraine er et bemerkelsesverdig uttrykk for den forbløffende hastigheten som 3D-opptak og grafikkteknologier utvikler seg med, ifølge Bilawal Sidhu, en teknolog, engelinvestor og tidligere Google-produktsjef som jobbet med 3D-kart og AR/VR.

"Reality capture-teknologier er på en svimlende eksponentiell demokratiseringskurve," forklarte han til meg i et intervju for Singularity Hub.

I følge Sidhu hadde det vært mulig å generere 3D-ressurser, men bare med dyre verktøy som DSLR-kameraer, lidar-skannere og kostbare programvarelisenser. Som eksempel nevnte han arbeidet med CyArk, en ideell organisasjon grunnlagt for to tiår siden med mål om å bruke profesjonell 3D-fangstteknologi for å bevare kulturarven rundt om i verden.

"Det som er galskap, og det som har endret seg, er at jeg i dag kan gjøre alt dette med iPhone i lommen," sier han.

I diskusjonen vår la Sidhu frem tre distinkte, men likevel sammenhengende teknologitrender som driver denne fremgangen. For det første et fall i kostnadene for den typen kameraer og sensorer som kan fange et objekt eller et rom. For det andre er en kaskade av nye teknikker som gjør bruk av kunstig intelligens for å konstruere ferdige 3D-ressurser. Og for det tredje er spredningen av datakraft, hovedsakelig drevet av GPUer, som er i stand til å gjengi grafikkintensive objekter på enheter som er allment tilgjengelige for forbrukere.

Lidar-skannere er et eksempel på pris-ytelsesforbedringen i sensorer. Først popularisert som de klumpete spinnende sensorene på toppen av autonome kjøretøy, og priset i titusenvis av dollar, gjorde lidar sin forbrukerteknologiske debut på iPhone 12 Pro og Pro Max i 2020. Muligheten til å skanne en plass på samme måte som førerløse biler ser verden, gjorde at alle plutselig kunne raskt og billig generere detaljerte 3D-ressurser. Dette var imidlertid fortsatt bare tilgjengelig for de rikeste Apple-kundene.

Et av bransjens mest konsekvente vendepunkter skjedde samme år da forskere ved Google introdusert nevrale utstrålingsfelt, ofte referert til som NeRF-er.

Denne tilnærmingen bruker maskinlæring for å konstruere en troverdig 3D-modell av et objekt eller rom fra 2D-bilder eller video. Det nevrale nettverket "hallusinerer" hvordan en full 3D-scene vil se ut, ifølge Sidhu. Det er en løsning for å "se syntese", en datagrafikkutfordring som søker å la noen se et rom fra ethvert synspunkt fra bare noen få kildebilder.

"Så den tingen kom ut og alle skjønte at vi nå har state-of-the-art visningssyntese som fungerer glimrende for alle de tingene fotogrammetri har hatt en vanskelig tid med som gjennomsiktighet, gjennomsiktighet og reflektivitet. Dette er litt sprøtt, legger han til.

Datasynssamfunnet kanaliserte sin begeistring til kommersielle applikasjoner. Hos Google utforsket Sidhu og teamet hans å bruke teknologien til oppslukende utsikt, en 3D-versjon av Google Maps. For den gjennomsnittlige brukeren, spredningen av forbrukervennlige applikasjoner som Luma AI og andre mente at alle med bare et smarttelefonkamera kunne lage fotorealistiske 3D-elementer. Opprettelsen av 3D-innhold av høy kvalitet var ikke lenger begrenset til Apples lidar-elite.

En annen potensielt enda mer lovende metode for å løse visningssyntese får nå oppmerksomhet som konkurrerer med den tidlige NeRF-spenningen. Gaussisk sprut er en gjengivelsesteknikk som etterligner måten trekanter brukes til tradisjonelle 3D-ressurser, men i stedet for trekanter, er det en "splat" av farge uttrykt gjennom en matematisk funksjon kjent som en gaussian. Etter hvert som flere gaussere legges sammen, blir et svært detaljert og strukturert 3D-element synlig. Hastigheten til bruk for splatting er fantastisk å se på.

Det er bare noen måneder siden, men demoer oversvømmer X, og både Luma AI og Polycam tilbyr verktøy for å generere gaussiske indikatorer. Andre utviklere jobber allerede med måter å integrere dem i tradisjonelle spillmotorer som Unity og Unreal. Splats får også oppmerksomhet fra den tradisjonelle datagrafikkindustrien siden gjengivelseshastigheten deres er raskere enn NeRF-er, og de kan redigeres på måter som allerede er kjent for 3D-artister. (NeRF-er tillater ikke dette gitt de er generert av et uleselig nevralt nett.)

For en god forklaring på hvordan gaussisk sprut fungerer og hvorfor det genererer buzz, se denne videoen fra Sidhu.

[Innebygd innhold]

Uavhengig av detaljene, for forbrukere, er vi definitivt i et øyeblikk hvor en telefon kan generere Hollywood-kaliber 3D-ressurser som for ikke lenge siden bare velutstyrte produksjonsteam kunne produsere.

Men hvorfor betyr 3D-skaping i det hele tatt?

For å sette pris på skiftet mot 3D-innhold, er det verdt å merke seg at teknologilandskapet retter seg mot en fremtid med «romlig databehandling». Mens overbrukte termer som metaverset kan trekke øynene, er den underliggende ånden en erkjennelse av at 3D-miljøer, som de som brukes i videospill, virtuelle verdener og digitale tvillinger har en stor rolle å spille i fremtiden vår. 3D-ressurser som de som produseres av NeRFs og splatting er klar til å bli innholdet vi vil engasjere oss med i fremtiden.

Innenfor denne sammenhengen er en storstilt ambisjon håpet om en sanntid 3D kart over verden. Selv om verktøy for å generere statiske 3D-kart har vært tilgjengelig, er utfordringen fortsatt å finne måter å holde disse kartene oppdatert med en verden i stadig endring.

"Det er byggingen av verdensmodellen, og så er det å opprettholde den modellen av verden. Med disse metodene vi snakker om, tror jeg at vi endelig kan ha teknologien til å løse "vedlikeholde modellen"-problemet gjennom crowdsourcing, sier Sidhu.

Prosjekter som Googles Immersive View er gode tidlige eksempler på forbrukerimplikasjonene av dette. Selv om han ikke ville spekulere i når det til slutt kan være mulig, var Sidhu enig i at på et tidspunkt vil teknologien eksistere som vil tillate en bruker i VR å gå rundt hvor som helst på jorden med en sanntids, oppslukende opplevelse av hva som skjer der . Denne typen teknologi vil også spille inn i innsatsen avatarbasert "teleportering,” fjernmøter og andre sosiale sammenkomster.

En annen grunn til å være begeistret, sier Sidhu, er 3D-minnefangst. Apple, for eksempel, lener seg tungt inn 3D-foto og video for deres Vision Pro mixed reality-headset. Som et eksempel fortalte Sidhu meg at han nylig laget en kopi av høy kvalitet av foreldrenes hus før de flyttet ut. Han kunne deretter gi dem opplevelsen av å gå inn i den ved hjelp av virtuell virkelighet.

"Å ha den viscerale følelsen av å være tilbake der er så kraftig. Dette er grunnen til at jeg er så bullish på Apple, for hvis de klarer dette 3D-medieformatet, er det der ting kan bli spennende for vanlige folk.»

Fra hulekunst til oljemalerier, impulsen til å bevare aspekter av vår sanseopplevelse er dypt menneskelig. Akkurat som fotografering en gang satte inn stilleben som et middel for bevaring, ser 3D-skapingsverktøy ut til å fortrenge vår mangeårige affære med 2D-bilder og -video.

Likevel kan ikke 3D-modeller erstatte forholdet vårt til den fysiske verden, akkurat som fotografering bare noen gang kan håpe å fange en brøkdel av et øyeblikk i tid. Likevel, for de som opplever krigens gru i Ukraina, er kanskje dette en velkommen utvikling som tilbyr en mer oppslukende måte å bevare det som aldri virkelig kan erstattes.

Bilde Credit: Wim Torbeyns / Unsplash 

Tidstempel:

Mer fra Singularity Hub