Investigadores de Intel han desarrollado una tecnología de visión artificial que mejora notablemente las ya existentes. Permite recrear en vídeo de alta calidad, y con bastante fidelidad, una escena 3D a partir de unas cuantas fotografías. Esta forma de «adivinar» qué información visual encaja mejor resulta muy realista y tiene multitud de aplicaciones prácticas interesantes, por lo que hay muchas compañías trabajando en ello actualmente.

Lo más interesante de este método, llamado FSV (Free View Synthesis, «Síntesis de Visión Libre»), es que el material de partida puede ser una simple serie de unas pocas fotografías tomadas con cualquier cámara, a mano, alrededor de un objeto. No hace falta equipamiento especial, ni hacer tomas desde puntos exactos o intentando conseguir una cobertura completa. Además, tampoco hace falta calibrar ni «entrenar» el sistema para distintos tipos de fotos: puede ser una escena en la que aparezcan coches, árboles o la Sagrada Familia de Barcelona, que aparece como uno de los ejemplos en la explicación técnica del trabajo.

El sistema comienza creando un «mapa de profundidad», que es el equivalente a una maqueta en 3D de la escena que se está viendo. Algo así como «ver el mundo con un sónar»: cada objeto y sus detalles geométricos están a una distancia exacta de la cámara y todo eso se reconstruye en 3D. Esto se hace teniendo en cuenta la geometría de los objetos y es bastante fiable. A partir de ahí, el algoritmo de IA, la red neuronal entrenada mediante aprendizaje automático (machine learning), calcula cómo deberían verse esos mismos puntos de la escena al mirar desde otro ángulo. Para «adivinarlo» combina toda la información de cada punto de las distintas tomas, cuando estas aparecen. En caso de que no aparezcan, lo extrapola en función de lo que hay alrededor, empleando un filtro que busca la coherencia entre la información de las diversas tomas.

mapa de profundidad 3D

Utilizando las mismas imágenes de prueba, el nuevo algoritmo FSV recrea escenas en vídeo mucho de forma mucho más realista que otros ya conocidos, como el NeRF (Neural Radiance Fields) y el NPBG (Neural PointBased Graphics). En vez de crear imágenes desenfocadas y borrosas, o con evidentes repeticiones por la falta de información, el FSV proporciona nitidez y suavidad en los movimientos, casi como en los videojuegos. Lo mismo sucede con escenas de otro tipo en las que se da por supuesto que la toma de imágenes se ha hecho sobre un objeto plano (caso del LLFF), o que aprovechan el efecto «estéreo» de dos tomas cercanas para calcular las distancias (como el EVS). La diferencia de resultados es clara y bastante espectacular.

Otras empresas como Google también están trabajando en sus laboratorios en técnicas similares y en machine learning, como la llamada DeepView, que describen como la «sintetización de escenas» y de la que pueden verse demostraciones en su web. También hay un vídeo que muestra su funcionamiento. En este caso, el método es un poco diferente y se concentra en conseguir la máxima calidad, al igual que efectos tales como los reflejos y transparencias, aunque por su funcionamiento las escenas tienen poco movimiento; son algo así como «fotos ligeramente animadas en 3D».

En el contexto de la fotografía y los efectos 3D generados artificialmente hay muchos más desarrollos al respecto, como el LDI (Layered Depth Image) que necesita una única imagen para producir un efecto de escena tridimensional con ligero movimiento. Es algo muy llamativo y que se ha utilizado en muchos documentales y con fotos tanto actuales como históricas, que «cobran vida» como por arte de magia. De hecho, los algoritmos empleados no son muy diferentes a las «herramientas mágicas» de Photoshop y otros programas de edición de imágenes que borran errores o restauran zonas que no existen, aprovechando la información similar que hay en los patrones y objetos de la escena.

Con aplicaciones que van desde el entretenimiento al análisis en detalle de escenas de todo tipo, parece claro que la tecnología está proporcionando posibilidades nunca vistas a quienes trabajan con fotografías, vídeo y necesitan de más información de la que la cámara normalmente se ve.

alvaro microsiervos

Álvaro Ibánez

Microsiervos

Álvaro es editor de Microsiervos, uno de los más conocidos blogs de divulgación sobre ciencia, tecnología e Internet en castellano. Participó en el nacimiento de proyectos españoles de internet como Ya.com/Jazztel y Terra/Telefónica y anteriormente trabajó en el mundo editorial de revistas técnicas.