Salpicaduras gaussianas en 3D

La salpicadura gaussiana 3D es una técnica utilizada en el campo de la representación de campos de resplandor en tiempo real. ^[1] Permite la creación de escenas de visualización novedosas en tiempo real de alta calidad mediante la unión de múltiples fotos o videos, lo que históricamente había sido un gran desafío.

Contribuciones

El artículo introdujo varias ideas creativas en el campo de la generación de nuevas vistas, con el objetivo de mejorar la velocidad y la calidad de la generación, especialmente en enfoques basados en el campo de radiancia neuronal .

Por primera vez, se utilizaron gaussianas 3D anisotrópicas para representar campos de radiancia.
Se introdujo un nuevo método de optimización.
Se propuso un enfoque de renderizado rápido, adaptado al uso de GPU.

Descripción general

El enfoque se puede resumir de la siguiente manera: (insertar imagen)

Entrada: Conjunto de imágenes de una escena estática junto con las posiciones de la cámara, expresadas como una nube de puntos dispersa .
Gaussianas 3D: definen media, matriz de covarianza y opacidad.
Color: Representado por armónicos esféricos .
Algoritmo: Optimizar los parámetros mencionados anteriormente.
Rasterizador : clasificación rápida y paso rápido hacia atrás.

Método

Este diagrama ilustra el funcionamiento del algoritmo propuesto.

El enfoque tiene los siguientes puntos destacados:

Uso de salpicaduras gaussianas 3D diferenciables, que no están estructuradas y son explícitas, lo que permite una representación rápida y también se pueden proyectar en salpicaduras 2D. De manera intuitiva, la covarianza de las gaussianas se puede considerar como configuraciones de un elipsoide, que se puede descomponer matemáticamente en una matriz de escala y una matriz de rotación. Para todos los parámetros, los gradientes se derivan explícitamente para superar cualquier sobrecarga debido a la función de diferenciación automática .

La optimización crea un conjunto denso de gaussianas 3D que representan la escena con la mayor precisión posible. Cada paso de renderización va seguido de un paso de comparación con las vistas de entrenamiento disponibles en el conjunto de datos. El descenso de gradiente estocástico se utiliza para optimizar la siguiente función de pérdida: inspirada en el trabajo de Plenoxels: ^[2] . El truco consiste en controlar la cantidad de gaussianas y la densidad mediante este procedimiento. ${\mathcal {L}}=(1-\lambda ){\mathcal {L}}_{1}+\lambda {\mathcal {L}}_{D-SSIM}$

La combinación de diferentes componentes gaussianos se logra mediante un rasterizador basado en mosaicos. El enfoque puede manejar escenas con diferentes complejidades sin ajustar explícitamente los hiperparámetros.

Resultados y evaluación[1]

Los autores probaron su algoritmo en 13 escenas reales de conjuntos de datos publicados previamente y el conjunto de datos sintéticos Blender. ^[3]
Compararon su método con técnicas de última generación como Mip-NeRF360, ^[4] InstantNGP, ^[5] y Plenoxels. ^[2]
Las métricas de evaluación cuantitativa utilizadas fueron PSNR, L-PIPS y SSIM.
Los autores informan los resultados para dos configuraciones de su método: 7K y 30K iteraciones.
Su modelo totalmente convergente (30 000 iteraciones) logra una calidad equivalente o ligeramente mejor que la de Mip-NeRF360, ^[4] pero con un tiempo de entrenamiento significativamente reducido (35-45 minutos frente a 48 horas) y una representación más rápida (tiempo real frente a 10 s/cuadro).
Con 7K iteraciones (5-10 minutos de entrenamiento), su método logra una calidad comparable a InstantNGP ^[5] y Plenoxels. ^[2]
Para escenas sintéticas delimitadas (conjunto de datos Blender ^[3] ), lograron resultados de última generación incluso con inicialización aleatoria, a partir de 100 000 gaussianos uniformemente aleatorios.

Limitaciones

Artefactos alargados o gaussianos “manchados” en algunas áreas.
Artefactos de estallido ocasionales debido a grandes gaussianas creadas por la optimización, especialmente en regiones con apariencia dependiente de la vista.
Mayor consumo de memoria en comparación con las soluciones basadas en NeRF, aunque todavía más compacto que los enfoques anteriores basados en puntos.
Puede requerir un ajuste de hiperparámetros (por ejemplo, reduciendo la tasa de aprendizaje de posición) para escenas muy grandes.
El consumo máximo de memoria de la GPU durante el entrenamiento puede ser alto (más de 20 GB) en el prototipo actual no optimizado.

Los autores señalan que algunas de estas limitaciones, como los artefactos emergentes y el consumo de memoria, podrían abordarse potencialmente mediante mejoras futuras como mejores enfoques de selección, suavizado de bordes, regularización y técnicas de compresión.

Aplicaciones de la salpicadura gaussiana 3D

A continuación, se muestran algunos ejemplos de cómo se ha adaptado y ampliado el Gaussian Splatting en diversas aplicaciones de visión artificial y gráficos, desde la representación dinámica de escenas hasta simulaciones de conducción autónoma y creación de contenido 4D:

Salpicaduras gaussianas 4D para renderizado de escenas dinámicas en tiempo real: ^[6]
- Amplía la salpicadura gaussiana 3D a escenas dinámicas (representación 4D)
Conversión de texto en 3D mediante salpicadura gaussiana: ^[7]
- Aplica salpicadura gaussiana 3D a la generación de texto a 3D
Conducción autónoma de extremo a extremo: desafíos y fronteras: ^[8]
- Menciona el splatting gaussiano 3D como un método de simulación de sensores basado en datos para la conducción autónoma
- Destaca su capacidad para generar vistas novedosas y realistas de una escena.
SuGaR: Salpicaduras gaussianas alineadas con la superficie para una reconstrucción de malla 3D eficiente y una representación de malla de alta calidad: ^[9]
- Propone un método para extraer mallas precisas y rápidas a partir de salpicaduras gaussianas 3D
SplaTAM: salpica, rastrea y mapea gaussianas 3D para SLAM RGB-D denso: ^[10]
- Aplica campos de radiancia basados en Gauss 3D a la localización y mapeo simultáneos (SLAM)
- Aprovecha la representación rápida y las ricas capacidades de optimización de las gaussianas 3D
- Logra resultados de última generación en estimación de la pose de la cámara, estimación de mapas y síntesis de vistas novedosas.
Alinee sus gaussianas: conversión de texto a 4D con gaussianas 3D dinámicas y modelos de difusión compuestos ^[11]
- Utiliza gaussianas 3D dinámicas para la creación de contenido 4D a partir de texto

Referencias

^ ab "Salpicaduras gaussianas 3D para renderizado de campos de radiancia en tiempo real". repo-sam.inria.fr . Consultado el 25 de septiembre de 2024 .
^ abc Fridovich-Keil, Sara; Yu, Alex; Tancik, Matthew; Chen, Qinhong; Recht, Benjamin; Kanazawa, Angjoo (junio de 2022). "Plenoxeles: campos de radiancia sin redes neuronales". Conferencia IEEE/CVF de 2022 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 5491–5500. arXiv : 2112.05131 . doi :10.1109/cvpr52688.2022.00542. ISBN . 978-1-6654-6946-3.
^ ab Mildenhall, Ben; Srinivasan, Pratul P.; Tancik, Matthew; Barron, Jonathan T.; Ramamoorthi, Ravi; Ng, Ren (2020), "NeRF: Representación de escenas como campos de radiancia neuronal para la síntesis de vistas", Lecture Notes in Computer Science , Cham: Springer International Publishing, págs. 405–421, doi :10.1007/978-3-030-58452-8_24, ISBN 978-3-030-58451-1, consultado el 25 de septiembre de 2024
^ ab Barron, Jonathan T.; Mildenhall, Ben; Verbin, Dor; Srinivasan, Pratul P.; Hedman, Peter (junio de 2022). "Mip-NeRF 360: campos de radiancia neuronal antialias sin límites". Conferencia IEEE/CVF de 2022 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 5460–5469. arXiv : 2111.12077 . doi :10.1109/cvpr52688.2022.00539. ISBN . 978-1-6654-6946-3.
^ ab Müller, Thomas; Evans, Alex; Schied, Christoph; Keller, Alexander (julio de 2022). "Primitivas de gráficos neuronales instantáneos con una codificación hash multirresolución". ACM Transactions on Graphics . 41 (4): 1–15. doi :10.1145/3528223.3530127. ISSN 0730-0301.
^ Wu, Guanjun; Yi, Taoran; Colmillo, Jiemin; Xie, Lingxi; Zhang, Xiaopeng; Wei, Wei; Liu, Wenyu; Tian, Qi; Wang, Xinggang (16 de junio de 2024). "Salpicadura gaussiana 4D para representación dinámica de escenas en tiempo real". Conferencia IEEE/CVF 2024 sobre visión por computadora y reconocimiento de patrones (CVPR) . vol. 38. IEEE. págs. 20310–20320. arXiv : 2310.08528 . doi :10.1109/cvpr52733.2024.01920. ISBN 979-8-3503-5300-6.
^ Chen, Zilong; Wang, Feng; Wang, Yikai; Liu, Huaping (16 de junio de 2024). "Texto a 3D usando salpicadura gaussiana". Conferencia IEEE/CVF de 2024 sobre visión artificial y reconocimiento de patrones (CVPR) . Vol. abs/2211.0 1324. IEEE. págs. 21401–21412. arXiv : 2309.16585 . doi :10.1109/cvpr52733.2024.02022. ISBN . 979-8-3503-5300-6.
^ Chen, Li; Wu, Penghao; Chitta, Kashyap; Jaeger, Bernhard; Geiger, Andreas; Li, Hongyang (2024). "Conducción autónoma de extremo a extremo: desafíos y fronteras". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . PP : 1–20. doi :10.1109/tpami.2024.3435937. ISSN 0162-8828. PMID 39078757.
^ Guédon, Antoine; Lepetit, Vincent (16 de junio de 2024). "SuGaR: salpicadura gaussiana alineada con la superficie para una reconstrucción de malla 3D eficiente y una representación de malla de alta calidad". Conferencia IEEE/CVF de 2024 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 5354–5363. arXiv : 2311.12775 . doi :10.1109/cvpr52733.2024.00512. ISBN . 979-8-3503-5300-6.
^ Keetha, Nikhil; Karhade, Jay; Jatavallabhula, Krishna Murthy; Yang, Gengshan; Scherer, Sebastian; Ramanan, Deva; Luiten, Jonathon (16 de junio de 2024). "SplaTAM: gaussianas 3D de salpicadura, seguimiento y mapeo para SLAM RGB-D denso". Conferencia IEEE/CVF de 2024 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 21357–21366. doi :10.1109/cvpr52733.2024.02018. ISBN . 979-8-3503-5300-6.
^ Ling, Huan; Kim, Seung Wook; Torralba, Antonio; Fidler, Sanja; Kreis, Karsten (16 de junio de 2024). "Alinee sus gaussianas: texto a 4D con gaussianas 3D dinámicas y modelos de difusión compuestos". Conferencia IEEE/CVF de 2024 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 8576–8588. arXiv : 2312.13763 . doi :10.1109/cvpr52733.2024.00819. ISBN . 979-8-3503-5300-6.