Una revolución en los gráficos por computadora está llevando la captura de la realidad 3D a las masas

Una revolución en los gráficos por computadora está llevando la captura de la realidad 3D a las masas

Una revolución en los gráficos por computadora está llevando la captura de la realidad 3D a las masas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Como arma de guerra, la destrucción de sitios del patrimonio cultural es una método común por invasores armados para privar a una comunidad de su identidad distintiva. No fue una sorpresa entonces que, en febrero de 2022, cuando las tropas rusas irrumpieron en Ucrania, los historiadores y especialistas en patrimonio cultural se prepararan para la destrucción que se avecinaba. Hasta ahora, en la guerra entre Rusia y Ucrania, la UNESCO ha confirmado daños a cientos de edificios religiosos e históricos y docenas de monumentos públicos, bibliotecas y museos.

Mientras que las nuevas tecnologías como drones de bajo costo, impresión 3Dy internet satelital privado Puede que esté creando un campo de batalla claramente del siglo XXI desconocido para los ejércitos convencionales, otro conjunto de tecnologías está creando nuevas posibilidades para que los archiveros ciudadanos fuera de primera línea preserven los sitios patrimoniales ucranianos.

Copia de seguridad de Ucrania, un proyecto de colaboración entre la Comisión Nacional Danesa de la UNESCO y Polycam, una herramienta de creación 3D, permite a cualquier persona equipada con solo un teléfono escanear y capturar modelos 3D fotorrealistas, detallados y de alta calidad de sitios patrimoniales, algo que sólo es posible con costosas y engorrosas equipo hace apenas unos años.

Backup Ukraine es una expresión notable de la asombrosa velocidad con la que progresan las tecnologías de captura y gráficos 3D, según Bilawal Sidhu, tecnólogo, inversor ángel y ex gerente de producto de Google que trabajó en mapas 3D y AR/VR.

“Las tecnologías de captura de la realidad están en una asombrosa curva exponencial de democratización”, me explicó en una entrevista para Centro de Singularidad.

Según Sidhu, generar activos 3D había sido posible, pero sólo con herramientas costosas como cámaras DSLR, escáneres lidar y costosas licencias de software. Como ejemplo citó el trabajo de CyArk, una organización sin fines de lucro fundada hace dos décadas con el objetivo de utilizar tecnología de captura 3D de nivel profesional para preservar el patrimonio cultural en todo el mundo.

"Lo que es una locura, y lo que ha cambiado, es que hoy puedo hacer todo eso con el iPhone en el bolsillo", dice.

En nuestra discusión, Sidhu expuso tres tendencias tecnológicas distintas pero interrelacionadas que están impulsando este progreso. El primero es una caída en el costo de los tipos de cámaras y sensores que pueden capturar un objeto o espacio. En segundo lugar está una cascada de nuevas técnicas que utilizan inteligencia artificial para construir activos 3D terminados. Y en tercer lugar está la proliferación de la potencia informática, impulsada en gran medida por las GPU, capaces de representar objetos con uso intensivo de gráficos en dispositivos ampliamente disponibles para los consumidores.

Los escáneres Lidar son un ejemplo de la mejora de la relación calidad-precio en los sensores. Popularizados por primera vez como los voluminosos sensores giratorios encima de los vehículos autónomos, y con un precio del decenas de miles de dólares, lidar hizo su debut en tecnología de consumo en el iPhone 12 Pro y Pro Max en 2020. La capacidad de escanear un espacio de la misma manera que los autos sin conductor ven el mundo significó que de repente cualquiera podía hacerlo de manera rápida y económica. generar activos 3D detallados. Sin embargo, esto todavía sólo estaba disponible para los clientes más ricos de Apple.

Uno de los puntos de inflexión más trascendentales de la industria ocurrió ese mismo año cuando investigadores de Google Introducido campos de radiación neuronal, comúnmente conocidos como NeRF.

Este enfoque utiliza el aprendizaje automático para construir un modelo 3D creíble de un objeto o espacio a partir de imágenes o vídeos 2D. Según Sidhu, la red neuronal "alucina" cómo se vería una escena completa en 3D. Es una solución para la “síntesis de visualización”, un desafío de gráficos por computadora que busca permitir que alguien vea un espacio desde cualquier punto de vista a partir de unas pocas imágenes originales.

“Entonces surgió eso y todos se dieron cuenta de que ahora tenemos una síntesis de vista de última generación que funciona de manera brillante para todas las cosas con las que la fotogrametría ha tenido dificultades, como la transparencia, la translucidez y la reflectividad. Esto es un poco loco”, añade.

La comunidad de visión por computadora canalizó su entusiasmo hacia las aplicaciones comerciales. En Google, Sidhu y su equipo exploraron el uso de la tecnología para Vista envolvente, una versión 3D de Google Maps. Para el usuario medio, la proliferación de aplicaciones fáciles de usar como Luma IA y otros significaron que cualquiera con solo la cámara de un teléfono inteligente podría crear recursos 3D fotorrealistas. La creación de contenido 3D de alta calidad ya no se limitaba a la élite lidar de Apple.

Ahora, otro método potencialmente aún más prometedor para resolver la síntesis de vistas está ganando una atención que rivaliza con el entusiasmo inicial de NeRF. salpicaduras gaussianas es una técnica de renderizado que imita la forma Los triángulos se utilizan para activos 3D tradicionales., pero en lugar de triángulos, es una “salpicadura” de color expresada mediante una función matemática conocida como gaussiana. A medida que se superponen más gaussianos, se hace visible un activo 3D texturizado y muy detallado. Es sorprendente observar la velocidad de adopción del splatting.

Sólo han pasado unos meses pero demos están inundando X, y tanto Luma AI como Polycam ofrecen herramientas para generar símbolos gaussianos. Otros desarrolladores ya están trabajando en formas de integrarlos en motores de juegos tradicionales como Unity y Unreal. Los símbolos también están atrayendo la atención de la industria tradicional de gráficos por computadora, ya que su velocidad de renderizado es más rápida que la de los NeRF y pueden editarse de maneras que ya son familiares para los artistas 3D. (Los NeRF no permiten esto dado que son generados por una red neuronal indescifrable).

Para obtener una excelente explicación de cómo funciona la dispersión gaussiana y por qué genera tanta expectación, vea este video de Sidhu.

[Contenido incrustado]

Independientemente de los detalles, para los consumidores, estamos decididamente en un momento en el que un teléfono puede generar recursos 3D del calibre de Hollywood que no hace mucho sólo podían producir equipos de producción bien equipados.

Pero, ¿por qué importa la creación 3D?

Para apreciar el cambio hacia el contenido 3D, vale la pena señalar que el panorama tecnológico se está orientando hacia un futuro de "computación espacial". Si bien términos usados ​​en exceso como el metaverso pueden hacer que los ojos se pongan en blanco, el espíritu subyacente es el reconocimiento de que los entornos 3D, como los utilizados en los videojuegos, los mundos virtuales y los gemelos digitales, tienen un papel importante que desempeñar en nuestro futuro. Los recursos 3D como los producidos por NeRF y splatting están preparados para convertirse en el contenido con el que nos involucraremos en el futuro.

En este contexto, una ambición a gran escala es la esperanza de una respuesta en tiempo real. mapa 3D del mundo. Si bien existen herramientas para generar mapas estáticos en 3D, el desafío sigue siendo encontrar formas de mantener esos mapas actualizados en un mundo en constante cambio.

“Está la construcción del modelo del mundo y luego está el mantenimiento de ese modelo del mundo. Con estos métodos de los que estamos hablando, creo que finalmente podríamos tener la tecnología para resolver el problema de 'mantener el modelo' a través del crowdsourcing”, afirma Sidhu.

Proyectos como Immersive View de Google son buenos ejemplos tempranos de las implicaciones de esto para el consumidor. Si bien no especuló sobre cuándo podría ser posible, Sidhu estuvo de acuerdo en que en algún momento existirá la tecnología que permitirá a un usuario de realidad virtual caminar por cualquier lugar de la Tierra con una experiencia inmersiva en tiempo real de lo que está sucediendo allí. . Este tipo de tecnología también se extenderá a los esfuerzos en “teletransportación” basada en avatar”, reuniones remotas y otras reuniones sociales.

Otra razón para estar emocionado, dice Sidhu, es la captura de memoria 3D. Apple, por ejemplo, se está inclinando fuertemente hacia foto y vídeo 3D por sus auriculares de realidad mixta Vision Pro. Como ejemplo, Sidhu me dijo que recientemente creó una réplica de alta calidad de la casa de sus padres antes de que se mudaran. Luego podría brindarles la experiencia de caminar dentro de él usando realidad virtual.

“Tener esa sensación visceral de estar de vuelta allí es muy poderoso. Por eso soy tan optimista con respecto a Apple, porque si logran lograr este formato de medios 3D, ahí es donde las cosas pueden volverse emocionantes para la gente común”.

Desde el arte rupestre hasta las pinturas al óleo, el impulso de preservar aspectos de nuestra experiencia sensorial es profundamente humano. Así como la fotografía alguna vez se incorporó a las naturalezas muertas como medio de preservación, las herramientas de creación 3D parecen estar a punto de desplazar nuestro antiguo romance con las imágenes y videos 2D.

Sin embargo, así como la fotografía sólo puede capturar una fracción de un momento en el tiempo, los modelos 3D no pueden reemplazar completamente nuestra relación con el mundo físico. Aún así, para quienes experimentan los horrores de la guerra en Ucrania, tal vez estos sean avances bienvenidos que ofrecen una forma más inmersiva de preservar lo que nunca podrá ser reemplazado.

Crédito de la imagen: Wim Torbeyns / Unsplash 

Sello de tiempo:

Mas de Centro de Singularidad