stringtranslate.com

Campo de radiancia neuronal

Un campo de radiancia neuronal ( NeRF ) es un método basado en el aprendizaje profundo para reconstruir una representación tridimensional de una escena a partir de imágenes bidimensionales. El modelo NeRF permite aplicaciones posteriores de síntesis de vistas novedosas, reconstrucción de la geometría de la escena y obtención de las propiedades de reflectancia de la escena. También se pueden aprender conjuntamente propiedades de escena adicionales, como las poses de la cámara. Presentado por primera vez en 2020 [1] , desde entonces ha ganado una atención significativa por sus posibles aplicaciones en gráficos de computadora y creación de contenido. [2]

Algoritmo

El algoritmo NeRF representa una escena como un campo de radiancia parametrizado por una red neuronal profunda (DNN). La red predice una densidad de volumen y una radiancia emitida dependiente de la vista dada la ubicación espacial ( x, y, z ) y la dirección de visualización en ángulos de Euler ( θ, Φ ) de la cámara. Al muestrear muchos puntos a lo largo de los rayos de la cámara, las técnicas tradicionales de renderización de volumen pueden producir una imagen. [1]

Recopilación de datos

Es necesario volver a entrenar un NeRF para cada escena única. El primer paso es recopilar imágenes de la escena desde diferentes ángulos y su respectiva posición de cámara. Estas imágenes son imágenes 2D estándar y no requieren una cámara o software especializado. Cualquier cámara puede generar conjuntos de datos, siempre que la configuración y el método de captura cumplan con los requisitos de SfM ( Estructura a partir del movimiento ).

Esto requiere el seguimiento de la posición y orientación de la cámara, a menudo mediante una combinación de SLAM , GPS o estimación inercial . Los investigadores suelen utilizar datos sintéticos para evaluar NeRF y técnicas relacionadas. Para dichos datos, las imágenes ( renderizadas mediante métodos tradicionales no aprendidos ) y las respectivas poses de la cámara son reproducibles y libres de errores. [3]

Capacitación

Para cada punto de vista esparcido (imagen y posición de la cámara) proporcionado, los rayos de la cámara recorren la escena, generando un conjunto de puntos 3D con una dirección de radiancia dada (hacia la cámara). Para estos puntos, se predicen la densidad de volumen y la radiancia emitida utilizando el perceptrón multicapa (MLP). Luego se genera una imagen a través de la representación clásica del volumen. Debido a que este proceso es completamente diferenciable, el error entre la imagen predicha y la imagen original se puede minimizar con el descenso de gradiente sobre múltiples puntos de vista, lo que alienta al MLP a desarrollar un modelo coherente de la escena. [1]

Variaciones y mejoras

Las primeras versiones de NeRF tardaban en optimizarse y requerían que todas las vistas de entrada se tomaran con la misma cámara en las mismas condiciones de iluminación. Funcionaban mejor cuando se limitaban a orbitar alrededor de objetos individuales, como una batería, plantas o juguetes pequeños. [2] Desde el artículo original de 2020, se han realizado muchas mejoras en el algoritmo NeRF, con variaciones para casos de uso especiales.

Mapeo de características de Fourier

En 2020, poco después del lanzamiento de NeRF, la incorporación del mapeo de características de Fourier mejoró la velocidad de entrenamiento y la precisión de las imágenes. Las redes neuronales profundas tienen dificultades para aprender funciones de alta frecuencia en dominios de baja dimensión, un fenómeno conocido como sesgo espectral. Para superar esta deficiencia, los puntos se asignan a un espacio de características de mayor dimensión antes de introducirlos en el MLP.

Donde es el punto de entrada, son los vectores de frecuencia y son coeficientes.

Esto permite una convergencia rápida a funciones de alta frecuencia, como píxeles en una imagen detallada. [4]

Campos de radiación neuronal que ajustan los haces

Una limitación de las NeRF es el requisito de conocer las poses precisas de la cámara para entrenar el modelo. A menudo, los métodos de estimación de pose no son completamente precisos, ni siquiera es posible conocer la pose de la cámara. Estas imperfecciones dan como resultado artefactos y una convergencia subóptima. Por lo tanto, se desarrolló un método para optimizar la pose de la cámara junto con la propia función volumétrica. La técnica, denominada Bundle-Adjusting Neural Radiance Field (BARF), utiliza un filtro de paso bajo dinámico para pasar de un ajuste grueso a uno fino, minimizando el error al encontrar la transformación geométrica de la imagen deseada. Esto corrige las poses imperfectas de la cámara y mejora en gran medida la calidad de las representaciones NeRF. [5]

Representación multiescala

Las NeRF convencionales tienen dificultades para representar los detalles en todas las distancias de visualización, lo que produce imágenes borrosas de cerca e imágenes demasiado distorsionadas en vistas lejanas. En 2021, los investigadores introdujeron una técnica para mejorar la nitidez de los detalles en diferentes escalas de visualización conocida como mip-NeRF (que proviene de mipmap ). En lugar de muestrear un solo rayo por píxel, la técnica ajusta una gaussiana al tronco cónico proyectado por la cámara. Esta mejora suaviza eficazmente las imágenes en todas las escalas de visualización. mip-NeRF también reduce el error general de la imagen y es más rápido de converger a aproximadamente la mitad del tamaño de la NeRF basada en rayos. [6]

Inicializaciones aprendidas

En 2021, los investigadores aplicaron metaaprendizaje para asignar pesos iniciales al MLP. Esto acelera rápidamente la convergencia al darle a la red una ventaja en el descenso del gradiente. El metaaprendizaje también permitió que el MLP aprendiera una representación subyacente de ciertos tipos de escenas. Por ejemplo, dado un conjunto de datos de lugares turísticos famosos, un NeRF inicializado podría reconstruir parcialmente una escena dada una imagen. [7]

NeRF en la naturaleza

Las redes neuronales neuronales convencionales son vulnerables a pequeñas variaciones en las imágenes de entrada (objetos, iluminación), lo que a menudo da como resultado imágenes superpuestas y artefactos. Como resultado, las redes neuronales neuronales tienen dificultades para representar escenas dinámicas, como calles de una ciudad bulliciosa con cambios en la iluminación y objetos dinámicos. En 2021, los investigadores de Google [2] desarrollaron un nuevo método para tener en cuenta estas variaciones, llamado NeRF in the Wild (NeRF-W). Este método divide la red neuronal (MLP) en tres modelos separados. El MLP principal se conserva para codificar la radiancia volumétrica estática. Sin embargo, funciona en secuencia con un MLP separado para la incrustación de apariencia (cambios en la iluminación, propiedades de la cámara) y un MLP para la incrustación transitoria (cambios en los objetos de la escena). Esto permite entrenar a las redes neuronales neuronales neuronales en diversas colecciones de fotografías, como las tomadas con teléfonos móviles en diferentes momentos del día. [8]

Reencendido

En 2021, los investigadores agregaron más salidas al MLP en el corazón de NeRF. La salida ahora incluía: densidad de volumen, normal de la superficie, parámetros del material, distancia a la primera intersección de la superficie (en cualquier dirección) y visibilidad del entorno externo en cualquier dirección. La inclusión de estos nuevos parámetros permite que el MLP aprenda las propiedades del material, en lugar de valores de radiancia puros. Esto facilita una secuencia de renderizado más compleja, calculando la iluminación directa y global , los reflejos especulares y las sombras. Como resultado, NeRF puede renderizar la escena bajo cualquier condición de iluminación sin necesidad de volver a entrenar. [9]

Plenoctárboles

Aunque los NeRF habían alcanzado altos niveles de fidelidad, su costoso tiempo de cómputo los hacía inútiles para muchas aplicaciones que requieren renderización en tiempo real, como VR / AR y contenido interactivo. Introducidos en 2021, los Plenoctrees ( octrees plenópticos ) permitieron la renderización en tiempo real de NeRF preentrenados a través de la división de la función de radiancia volumétrica en un octree. En lugar de asignar una dirección de radiancia a la cámara, la dirección de visualización se saca de la entrada de red y se predice la radiancia esférica para cada región. Esto hace que la renderización sea más de 3000 veces más rápida que los NeRF convencionales. [10]

Red de radiancia neuronal dispersa

De manera similar a Plenoctrees, este método permitió la representación en tiempo real de NeRF entrenados previamente. Para evitar consultar el MLP grande para cada punto, este método hornea los NeRF en cuadrículas de radiancia neuronal dispersa (SNeRG). Una SNeRG es una cuadrícula de vóxeles dispersa que contiene opacidad y color, con vectores de características aprendidos para codificar información dependiente de la vista. Luego se utiliza un MLP liviano y más eficiente para producir residuos dependientes de la vista para modificar el color y la opacidad. Para permitir este horneado compresivo, se realizaron pequeños cambios en la arquitectura NeRF, como ejecutar el MLP una vez por píxel en lugar de para cada punto a lo largo del rayo. Estas mejoras hacen que SNeRG sea extremadamente eficiente y supere a Plenoctrees. [11]

NeRFs instantáneos

En 2022, los investigadores de Nvidia habilitaron el entrenamiento en tiempo real de NeRF a través de una técnica conocida como Instant Neural Graphics Primitives. Una codificación de entrada innovadora reduce el cálculo, lo que permite el entrenamiento en tiempo real de un NeRF, una mejora de órdenes de magnitud con respecto a los métodos anteriores. La aceleración se debe al uso de funciones hash espaciales , que tienen tiempos de acceso, y arquitecturas paralelizadas que se ejecutan rápidamente en las GPU modernas . [12]

Técnicas relacionadas

Plenoxeles

Plenoxel (elemento de volumen plenóptico) utiliza una representación de vóxeles dispersos en lugar de un enfoque volumétrico como el que se observa en los NeRF. Plenoxel también elimina por completo el MLP y, en su lugar, realiza directamente un descenso de gradiente sobre los coeficientes de vóxel. Plenoxel puede igualar la fidelidad de un NeRF convencional en órdenes de magnitud menos de tiempo de entrenamiento. Publicado en 2022, este método refutó la importancia del MLP, demostrando que el flujo de procesamiento de renderizado diferenciable es el componente crítico. [13]

Salpicadura gaussiana

El splatting gaussiano es un método más nuevo que puede superar a NeRF en tiempo de renderizado y fidelidad. En lugar de representar la escena como una función volumétrica, utiliza una nube dispersa de gaussianas 3D . Primero, se genera una nube de puntos (a través de la estructura del movimiento ) y se convierte en gaussianas de covarianza inicial, color y opacidad. Las gaussianas se optimizan directamente a través del descenso de gradiente estocástico para que coincidan con la imagen de entrada. Esto ahorra cálculos al eliminar el espacio vacío y renunciar a la necesidad de consultar una red neuronal para cada punto. En cambio, simplemente "salpica" todas las gaussianas en la pantalla y se superponen para producir la imagen deseada. [14]

Fotogrametría

La fotogrametría tradicional no es neuronal, sino que utiliza ecuaciones geométricas robustas para obtener mediciones 3D. Las NeRF, a diferencia de los métodos fotogramétricos, no producen inherentemente una geometría 3D dimensionalmente precisa. Si bien sus resultados suelen ser suficientes para extraer una geometría precisa (por ejemplo, mediante la marcha de cubos [1] ), el proceso es difuso , como ocurre con la mayoría de los métodos neuronales. Esto limita la NeRF a los casos en los que se valora la imagen de salida, en lugar de la geometría de la escena en bruto. Sin embargo, las NeRF se destacan en situaciones con iluminación desfavorable. Por ejemplo, los métodos fotogramétricos fallan por completo al intentar reconstruir objetos reflectantes o transparentes en una escena, mientras que una NeRF puede inferir la geometría. [15]

Aplicaciones

Los NeRF tienen una amplia gama de aplicaciones y están empezando a crecer en popularidad a medida que se integran en aplicaciones fáciles de usar. [3]

Creación de contenido

Vídeo generado a partir de un campo de radiancia neuronal

Los NeRF tienen un potencial enorme en la creación de contenido, donde las vistas fotorrealistas a pedido son extremadamente valiosas. [16] La tecnología democratiza un espacio al que anteriormente solo podían acceder equipos de artistas de efectos visuales con activos costosos. Los campos de radiancia neuronal ahora permiten que cualquier persona con una cámara cree entornos 3D atractivos. [3] NeRF se ha combinado con IA generativa , lo que permite a los usuarios sin experiencia en modelado instruir cambios en escenas 3D fotorrealistas. [17] Los NeRF tienen usos potenciales en la producción de video, gráficos de computadora y diseño de productos.

Contenido interactivo

El fotorrealismo de los NeRF los hace atractivos para aplicaciones donde la inmersión es importante, como la realidad virtual o los videojuegos. Los NeRF se pueden combinar con técnicas de renderizado clásicas para insertar objetos sintéticos y crear experiencias virtuales creíbles. [18]

Imágenes médicas

Se han utilizado NeRF para reconstruir tomografías computarizadas tridimensionales a partir de imágenes de rayos X dispersas o incluso únicas. El modelo demostró representaciones de alta fidelidad de datos de tórax y rodilla. Si se adopta, este método puede evitar que los pacientes reciban dosis excesivas de radiación ionizante, lo que permite un diagnóstico más seguro. [19]

Robótica y autonomía

La capacidad única de los NeRF para comprender objetos transparentes y reflectantes los hace útiles para los robots que interactúan en dichos entornos. El uso de NeRF permitió que un brazo robótico manipulara con precisión una copa de vino transparente, una tarea para la que la visión artificial tradicional tendría dificultades. [20]

Los NeRF también pueden generar rostros humanos fotorrealistas, lo que los convierte en herramientas valiosas para la interacción entre humanos y computadoras. Los rostros renderizados tradicionalmente pueden ser asombrosos , mientras que otros métodos neuronales son demasiado lentos para ejecutarse en tiempo real. [21]

Referencias

  1. ^ abcd Mildenhall, Ben; Srinivasan, Pratul P.; Tancik, Matthew; Barron, Jonathan T.; Ramamoorthi, Ravi; Ng, Ren (2020). "NeRF: Representación de escenas como campos de radiancia neuronal para la síntesis de vistas". En Vedaldi, Andrea; Bischof, Horst; Brox, Thomas; Frahm, Jan-Michael (eds.). Visión artificial – ECCV 2020. Apuntes de clase en informática. Vol. 12346. Cham: Springer International Publishing. págs. 405–421. arXiv : 2003.08934 . doi :10.1007/978-3-030-58452-8_24. ISBN 978-3-030-58452-8.S2CID213175590  .​
  2. ^ abc "¿Qué es un campo de radiancia neuronal (NeRF)? | Definición de TechTarget". Inteligencia artificial empresarial . Consultado el 24 de octubre de 2023 .
  3. ^ abc Tancik, Matthew; Weber, Ethan; Ng, Evonne; Li, Ruilong; Yi, Brent; Kerr, Justin; Wang, Terrance; Kristoffersen, Alexander; Austin, Jake; Salahi, Kamyar; Ahuja, Abhik; McAllister, David; Kanazawa, Angjoo (23 de julio de 2023). "Nerfstudio: un marco modular para el desarrollo del campo de radiancia neuronal". Actas de la conferencia del grupo de interés especial sobre gráficos por computadora y técnicas interactivas . págs. 1–12. arXiv : 2302.04264 . doi :10.1145/3588432.3591516. ISBN 9798400701597.S2CID256662551  .​
  4. ^ Tancik, Mateo; Srinivasan, Pratul P.; Mildenhall, Ben; Fridovich-Keil, Sara; Raghavan, Nithin; Singhal, Utkarsh; Ramamoorthi, Ravi; Barrón, Jonathan T.; Ng, Ren (18 de junio de 2020). "Las funciones de Fourier permiten a las redes aprender funciones de alta frecuencia en dominios de baja dimensión". arXiv : 2006.10739 [cs.CV].
  5. ^ Lin, Chen-Hsuan; Ma, Wei-Chiu; Torralba, Antonio; Lucey, Simon (2021). "BARF: Campos de radiancia neuronal de ajuste de paquetes". arXiv : 2104.06405 [cs.CV].
  6. ^ Barron, Jonathan T.; Mildenhall, Ben; Tancik, Matthew; Hedman, Peter; Martin-Brualla, Ricardo; Srinivasan, Pratul P. (7 de abril de 2021). "Mip-NeRF: {A} Representación multiescala para campos de radiancia neuronal anti-aliasing". arXiv : 2103.13415 [cs.CV].
  7. ^ Tancik, Matthew; Mildenhall, Ben; Wang, Terrance; Schmidt, Divi; Srinivasan, Pratul (2021). "Inicializaciones aprendidas para optimizar representaciones neuronales basadas en coordenadas". arXiv : 2012.02189 [cs.CV].
  8. ^ Martin-Brualla, Ricardo; Radwan, Noha; Sajjadi, Mehdi SM; Barron, Jonathan T.; Dosovitskiy, Alexey; Duckworth, Daniel (2020). "NeRF en la naturaleza: campos de radiancia neuronal para colecciones de fotografías sin restricciones". arXiv : 2008.02268 [cs.CV].
  9. ^ Srinivasan, Pratul P.; Deng, Boyang; Zhang, Xiuming; Tancik, Matthew; Mildenhall, Ben; Barron, Jonathan T. (2020). "NeRV: campos de reflectancia y visibilidad neuronales para reiluminación y síntesis de vistas". arXiv : 2012.03927 [cs.CV].
  10. ^ Yu, Alex; Li, Ruilong; Tancik, Matthew; Li, Hao; Ng, Ren; Kanazawa, Angjoo (2021). "PlenOctrees para la representación en tiempo real de campos de radiancia neuronal". arXiv : 2103.14024 [cs.CV].
  11. ^ Hedman, Peter; Srinivasan, Pratul P.; Mildenhall, Ben; Barron, Jonathan T.; Debevec, Paul (2021). "Hornear campos de radiancia neuronal para la síntesis de vistas en tiempo real". arXiv : 2103.14645 [cs.CV].
  12. ^ Müller, Thomas; Evans, Alex; Schied, Christoph; Keller, Alexander (4 de julio de 2022). "Primitivas de gráficos neuronales instantáneos con una codificación hash multiresolución". ACM Transactions on Graphics . 41 (4): 1–15. arXiv : 2201.05989 . doi :10.1145/3528223.3530127. ISSN  0730-0301. S2CID  246016186.
  13. ^ Fridovich-Keil, Sara; Yu, Alex; Tancik, Matthew; Chen, Qinhong; Recht, Benjamin; Kanazawa, Angjoo (2021). "Plenoxeles: campos de resplandor sin redes neuronales". arXiv : 2112.05131 [cs.CV].
  14. ^ Kerbl, Bernhard; Kopanas, Georgios; Leimkuehler, Thomas; Drettakis, George (26 de julio de 2023). "Salpicaduras gaussianas 3D para renderizado de campos de radiancia en tiempo real". ACM Transactions on Graphics . 42 (4): 1–14. arXiv : 2308.04079 . doi : 10.1145/3592433 . ISSN  0730-0301. S2CID  259267917.
  15. ^ "Por qué ESTE es el futuro de las imágenes (y nadie lo sabe todavía)" – vía www.youtube.com.
  16. ^ "Shutterstock habla sobre NeRFs en Ad Week | Neural Radiance Fields". neuralradiancefields.io . 2023-10-20 . Consultado el 2023-10-24 .
  17. ^ Haque, Ayaan; Tancik, Mateo; Efros, Alexéi; Holynski, Aleksander; Kanazawa, Angjoo (1 de junio de 2023). "InstructPix2Pix: aprender a seguir las instrucciones de edición de imágenes". Conferencia IEEE/CVF 2023 sobre visión por computadora y reconocimiento de patrones (CVPR) . IEEE. págs. 18392–18402. arXiv : 2211.09800 . doi :10.1109/cvpr52729.2023.01764. ISBN 979-8-3503-0129-8. Número de identificación del sujeto  253581213.
  18. ^ "Aventurándose más allá de la realidad: VR-NeRF | Neural Radiance Fields". neuralradiancefields.io . 2023-11-08 . Consultado el 2023-11-09 .
  19. ^ Corona-Figueroa, Abril; Frawley, Jonathan; Taylor, Sam Bond-; Bethapudi, Sarath; Shum, Hubert PH; Willcocks, Chris G. (11 de julio de 2022). "MedNeRF: campos de radiancia neuronal médica para reconstruir proyecciones de TC con reconocimiento tridimensional a partir de un único rayo X". 44.ª Conferencia internacional anual de 2022 de la IEEE Engineering in Medicine & Biology Society (EMBC) (PDF) . Vol. 2022. IEEE. págs. 3843–3848. doi :10.1109/embc48229.2022.9871757. ISBN . 978-1-7281-2782-8. Número de identificación personal  36085823. Número de identificación personal  246473192.
  20. ^ Kerr, Justin; Fu, Letian; Huang, Huang; Avigal, Yahav; Tancik, Matthew; Ichnowski, Jeffrey; Kanazawa, Angjoo; Goldberg, Ken (15 de agosto de 2022). Evo-NeRF: evolución de NeRF para el agarre secuencial de objetos transparentes por parte de robots. Conferencia CoRL 2022.
  21. ^ Aurora (4 de junio de 2023). "Generación de rostros humanos altamente detallados mediante campos de radiancia neuronal". ILLUMINATION . Consultado el 9 de noviembre de 2023 .