stringtranslate.com

Dojo de Tesla

Tesla Dojo es una supercomputadora diseñada y construida por Tesla para el procesamiento y reconocimiento de video por visión artificial . [1] Se utiliza para entrenar los modelos de aprendizaje automático de Tesla para mejorar su sistema avanzado de asistencia al conductor Full Self-Driving (FSD) . Según Tesla, entró en producción en julio de 2023. [2]

El objetivo de Dojo es procesar de manera eficiente millones de terabytes de datos de video capturados en situaciones de conducción reales de los más de 4 millones de autos Tesla. [3] Este objetivo condujo a una arquitectura considerablemente diferente a los diseños de supercomputadoras convencionales. [4] [5]

Historia

Tesla opera varios clústeres de computación masivamente paralelos para desarrollar su sistema avanzado de asistencia al conductor Autopilot . Su clúster principal sin nombre que utiliza 5760 unidades de procesamiento gráfico (GPU) Nvidia A100 fue promocionado por Andrej Karpathy en 2021 en la cuarta Conferencia Conjunta Internacional sobre Visión por Computador y Reconocimiento de Patrones (CCVPR 2021) como "aproximadamente la quinta supercomputadora del mundo" [6] con aproximadamente 81,6 petaflops , según el escalado del rendimiento de la supercomputadora Nvidia Selene , que utiliza componentes similares. [7] Sin embargo, el rendimiento del clúster principal de GPU de Tesla ha sido cuestionado, ya que no estaba claro si se midió utilizando números de punto flotante de precisión simple o doble ( FP32 o FP64 ). [8] Tesla también opera un segundo clúster de 4032 GPU para entrenamiento y un tercer clúster de 1752 GPU para etiquetado automático de objetos. [9] [10]

El clúster de GPU principal de Tesla, sin nombre, se ha utilizado para procesar un millón de videoclips, cada uno de diez segundos de duración, tomados de las cámaras Tesla Autopilot que funcionan en los automóviles Tesla en el mundo real, a 36 fotogramas por segundo . En conjunto, estos videoclips contenían seis mil millones de etiquetas de objetos, con datos de profundidad y velocidad; el tamaño total del conjunto de datos fue de 1,5  petabytes . Este conjunto de datos se utilizó para entrenar una red neuronal destinada a ayudar a las computadoras Autopilot en los automóviles Tesla a comprender las carreteras. [6] Para agosto de 2022, Tesla había actualizado el clúster de GPU principal a 7360 GPU. [11]

Musk mencionó a Dojo por primera vez en abril de 2019 durante el "Día del inversor en autonomía" de Tesla. [12] En agosto de 2020, [6] [13] Musk declaró que faltaba "alrededor de un año" debido a problemas térmicos y de energía. [14]

El objetivo definitorio de [Dojo] es la escalabilidad . Hemos restado importancia a varios mecanismos que se encuentran en las CPU típicas , como la coherencia , la memoria virtual y los directorios de búsqueda global, simplemente porque estos mecanismos no escalan muy bien... En cambio, nos hemos basado en un almacenamiento SRAM [ memoria estática de acceso aleatorio ] muy rápido y muy distribuido en toda la malla . Y esto está respaldado por una velocidad de interconexión un orden de magnitud mayor que la que se encuentra en un sistema distribuido típico .

 — Emil Talpes, ingeniero de hardware de Tesla, artículo de The Next Platform de 2022 [5]

Dojo se anunció oficialmente en el Día de la Inteligencia Artificial (IA) de Tesla el 19 de agosto de 2021. [15] Tesla reveló detalles del chip D1 y sus planes para el "Proyecto Dojo", un centro de datos que albergaría 3.000 chips D1; ​​[16] el primer "Training Tile" se había completado y entregado la semana anterior. [9] En octubre de 2021, Tesla publicó un documento técnico "Dojo Technology" que describe los formatos de punto flotante Configurable Float8 (CFloat8) y Configurable Float16 (CFloat16) y las operaciones aritméticas como una extensión del estándar 754 del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) . [17]

En el siguiente AI Day de septiembre de 2022, Tesla anunció que había construido varias bandejas de sistema y un gabinete. Durante una prueba, la empresa afirmó que Project Dojo consumía 2,3  megavatios (MW) de energía antes de activar una subestación eléctrica local de San José, California. [18] En ese momento, Tesla ensamblaba un Training Tile por día. [10]

En agosto de 2023, Tesla puso en marcha Dojo para uso de producción, así como un nuevo grupo de entrenamiento configurado con 10 000 GPU Nvidia H100 . [19]

En enero de 2024, Musk describió a Dojo como "una apuesta arriesgada que vale la pena porque la recompensa es potencialmente muy alta, pero no es algo que tenga una probabilidad alta". [20]

En junio de 2024, Musk explicó que las obras de construcción en curso en Gigafactory Texas son para un clúster informático y afirmó que está previsto que comprenda una combinación uniforme de "Tesla AI" y Nvidia/otro hardware con una potencia de diseño térmico total de al menos 130 MW y que eventualmente superará los 500 MW. [21]

Recepción

Varios analistas han afirmado que Dojo "es impresionante, pero no transformará la supercomputación", [4] "es un punto de inflexión porque se ha desarrollado completamente internamente", [22] "acelera enormemente el desarrollo de vehículos autónomos", [23] y "podría ser un punto de inflexión para el futuro de Tesla FSD y para la IA en general". [1]

El 11 de septiembre de 2023, Morgan Stanley aumentó su precio objetivo para las acciones de Tesla ( TSLA ) a US$400 desde un objetivo anterior de US$250 y calificó la acción como su mejor elección en el sector de vehículos eléctricos, afirmando que la supercomputadora Dojo de Tesla podría impulsar un salto de US$500 mil millones en el valor de mercado de Tesla. [24]

Arquitectura técnica

La unidad fundamental de la supercomputadora Dojo es el chip D1, [25] diseñado por un equipo de Tesla dirigido por el ex diseñador de CPU AMD Ganesh Venkataramanan, que incluye a Emil Talpes, Debjit Das Sarma, Douglas Williams, Bill Chang y Rajiv Kurian. [5]

El chip D1 es fabricado por Taiwan Semiconductor Manufacturing Company (TSMC) utilizando nodos semiconductores de 7 nanómetros (nm) , tiene 50 mil millones de transistores y un tamaño de chip grande de 645 mm2 ( 1,0 pulgada cuadrada). [26] [27]

En una actualización en el Día de la Inteligencia Artificial (IA) de 2022, Tesla anunció que Dojo escalaría mediante la implementación de múltiples ExaPOD, en los que habría: [23]

Descripción general de la arquitectura de Tesla Dojo

Según Venkataramanan, director senior de hardware de piloto automático de Tesla, Dojo tendrá más de un exaflop (un millón de teraflops) de potencia informática. [28] A modo de comparación, según Nvidia, en agosto de 2021, el centro de entrenamiento de IA de Tesla (pre-Dojo) utilizaba 720 nodos, cada uno con ocho GPU Nvidia A100 Tensor Core para un total de 5760 GPU, lo que proporcionaba hasta 1,8 exaflops de rendimiento. [29]

Chip D1

Cada nodo (núcleo de cómputo) del chip de procesamiento D1 es una CPU de 64 bits de propósito general con un núcleo superescalar . Admite paralelismo interno a nivel de instrucción e incluye subprocesamiento simultáneo de múltiples hilos (SMT). No admite memoria virtual y utiliza mecanismos de protección de memoria limitados. El software y las aplicaciones Dojo administran los recursos del chip.

Microarquitectura de un nodo en el chip D1

El conjunto de instrucciones D1 admite instrucciones escalares de 64 bits y de vector de datos múltiples (SIMD) de instrucción única de 64 bytes. [30] La unidad de enteros combina instrucciones de conjunto de instrucciones reducidas ( RISC-V ) e instrucciones personalizadas, y admite enteros de 8, 16, 32 o 64 bits. La unidad matemática de vector personalizada está optimizada para núcleos de aprendizaje automático y admite múltiples formatos de datos, con una combinación de precisiones y rangos numéricos, muchos de los cuales son componibles por compilador. [5] Se pueden utilizar hasta 16 formatos de vector simultáneamente. [5]

Nodo

Cada nodo D1 utiliza una ventana de búsqueda de 32 bytes que contiene hasta ocho instrucciones. Estas instrucciones se envían a un decodificador de ocho anchos que admite dos subprocesos por ciclo, seguido de un programador escalar SMT de cuatro anchos y cuatro vías que tiene dos unidades de números enteros, dos unidades de direcciones y un archivo de registro por subproceso. Las instrucciones vectoriales se pasan más adelante en la tubería a un programador vectorial dedicado con SMT de dos vías, que alimenta una unidad SIMD de 64 bytes o cuatro unidades de multiplicación de matrices de 8×8×4. [30]

El enrutador de red en chip (NOC) conecta los núcleos en una red en malla bidimensional. Puede enviar un paquete de entrada y un paquete de salida en las cuatro direcciones hacia/desde cada nodo vecino, junto con una lectura de 64 bytes y una escritura de 64 bytes a la SRAM local por ciclo de reloj. [30]

Las operaciones nativas de hardware transfieren datos, semáforos y restricciones de barrera entre memorias y CPU. La memoria de acceso aleatorio dinámico sincrónico (SDRAM) DDR4 ( velocidad de datos doble 4 ) de todo el sistema funciona como un almacenamiento masivo.

Memoria

Cada núcleo tiene una  memoria principal SRAM de  1,25 megabytes (MB). Las velocidades de carga y almacenamiento alcanzan los 400 gigabytes (GB) por segundo y los 270 GB/s, respectivamente. El chip tiene instrucciones explícitas de transferencia de datos de núcleo a núcleo. Cada SRAM tiene un analizador de lista único que alimenta un par de decodificadores y un motor de recopilación que alimenta el archivo de registro vectorial, que juntos pueden transferir información directamente entre nodos. [5]

Morir

Doce nodos (núcleos) se agrupan en un bloque local. Los nodos están dispuestos en una matriz de 18×20 en un solo chip, de los cuales 354 núcleos están disponibles para aplicaciones. [5] El chip funciona a 2  gigahercios (GHz) y tiene un total de 440 MB de SRAM (360 núcleos × 1,25 MB/núcleo). [5] Alcanza 376 teraflops utilizando números de punto flotante cerebral de 16 bits ( BF16 ) o utilizando números de punto flotante configurables de 8 bits (CFloat8), que es una propuesta de Tesla, [17] y 22 teraflops en FP32.

Cada chip consta de 576 canales serializadores/deserializadores bidireccionales ( SerDes ) a lo largo del perímetro para conectarse con otros chips, y se mueve a 8 TB/seg a través de los cuatro bordes del chip. [5] Cada chip D1 tiene una potencia de diseño térmico de aproximadamente 400 vatios. [31]

Azulejo de entrenamiento

Azulejo Tesla Dojo

El módulo de entrenamiento refrigerado por agua incluye 25 chips D1 en una matriz de 5x5. [5] Cada módulo admite 36 TB/s de ancho de banda agregado a través de 40 chips de entrada/salida (E/S), la mitad del ancho de banda de la red de malla de chips. Cada módulo admite 10 TB/s de ancho de banda en módulo. Cada módulo tiene 11 GB de memoria SRAM (25 chips D1 × 360 núcleos/D1 × 1,25 MB/núcleo). Cada módulo alcanza 9 petaflops con precisión BF16/CFloat8 (25 chips D1 × 376 TFLOP/D1). Cada módulo consume 15 kilovatios; [5] 288  amperios a 52  voltios . [31]

Bandeja del sistema

Seis mosaicos se agregan en una bandeja del sistema, que está integrada con una interfaz de host . Cada interfaz de host incluye 512 núcleos x86 , lo que proporciona un entorno de usuario basado en Linux . [18] Anteriormente, la bandeja del sistema Dojo se conocía como la matriz de entrenamiento, que incluye seis mosaicos de entrenamiento, 20 tarjetas de procesador de interfaz Dojo en cuatro servidores host y servidores adjuntos vinculados a Ethernet. Tiene 53.100 núcleos D1.

Procesador de interfaz Dojo

Las tarjetas de procesador de interfaz Dojo (DIP) se ubican en los bordes de las matrices de mosaicos y están conectadas a la red en malla. Los sistemas host alimentan las DIP y realizan varias funciones de administración del sistema. Una memoria DIP y un coprocesador de E/S contienen 32 GB de HBM compartido ( HBM2e o HBM3 ), así como interfaces Ethernet que eluden la red en malla. Cada tarjeta DIP tiene 2 procesadores de E/S con 4 bancos de memoria que suman un total de 32 GB con 800 GB/s de ancho de banda .

El DIP se conecta a una ranura PCI-Express 4.0 x16 que ofrece 32 GB/seg de ancho de banda por tarjeta. Cinco tarjetas por borde de mosaico ofrecen 160 GB/seg de ancho de banda a los servidores host y 4,5 TB/seg al mosaico.

Protocolo de transporte de Tesla

El protocolo de transporte Tesla (TTP) es una interconexión patentada sobre PCI-Express. Un enlace de protocolo TTP de 50 GB/s se ejecuta sobre Ethernet para acceder a un solo puerto de 400 Gb/s o a un conjunto de puertos emparejados de 200 Gb/s. Cruzar toda la red en malla bidimensional puede requerir 30 saltos, mientras que el TTP sobre Ethernet requiere solo cuatro saltos (con un ancho de banda menor), lo que reduce la latencia vertical.

Gabinete y ExaPOD

Dojo apila los mosaicos verticalmente en un gabinete para minimizar la distancia y el tiempo de comunicación entre ellos. El sistema Dojo ExaPod incluye 120 mosaicos, con un total de 1.062.000 núcleos utilizables, alcanzando 1 exaflops en formatos BF16 y CFloat8. Tiene 1,3 TB de memoria SRAM en mosaico y 13 TB de memoria dual en línea de alto ancho de banda (HBM).

Software

Dojo es compatible con el framework PyTorch , "Nada de tan bajo nivel como C o C++, nada remotamente parecido a CUDA ". [5] La SRAM se presenta como un único espacio de direcciones. [5]

Debido a que FP32 tiene más precisión y alcance de lo necesario para las tareas de IA, y FP16 no tiene suficiente, Tesla ha ideado formatos de punto flotante configurables de 8 y 16 bits (CFloat8 y CFloat16, respectivamente) que permiten al compilador establecer dinámicamente la precisión de la mantisa y el exponente, aceptando una precisión menor a cambio de un procesamiento vectorial más rápido y requisitos de almacenamiento reducidos. [5] [17]

Referencias

  1. ^ ab Bleakley, Daniel (22 de junio de 2023). "Tesla comenzará a construir su supercomputadora de entrenamiento FSD "Dojo" el próximo mes". The Driven . Consultado el 30 de junio de 2023 .
  2. ^ "Tesla sube mientras analistas pronostican un aumento de valor de 600 mil millones de dólares gracias a Dojo". Reuters . 2023-09-11 . Consultado el 2023-09-11 .
  3. ^ Dickens, Steven (11 de septiembre de 2023). "Supercomputadora Dojo de Tesla: ¿un cambio de paradigma en la supercomputación?". Forbes . Consultado el 12 de septiembre de 2023 .
  4. ^ ab Vigliarolo, Brandon (25 de agosto de 2021). "El Dojo de Tesla es impresionante, pero no transformará la supercomputación". TechRepublic . Consultado el 25 de agosto de 2021 .
  5. ^ abcdefghijklmn Morgan, Timothy Prickett (23 de agosto de 2022). "Dentro de la innovadora y propia supercomputadora de inteligencia artificial 'Dojo' de Tesla". The Next Platform . Consultado el 12 de abril de 2023 .
  6. ^ abc Peckham, Oliver (22 de junio de 2021). "Antes de 'Dojo', Tesla revela su gigantesca supercomputadora precursora". HPCwire .
  7. ^ Swinhoe, Dan (23 de junio de 2021). «Tesla detalla una supercomputadora pre-Dojo que podría tener hasta 80 petaflops». Data Center Dynamics . Consultado el 14 de abril de 2023 .
  8. ^ Raden, Neil (28 de septiembre de 2021). "La supercomputadora Dojo de Tesla: cómo distinguir los hechos de las exageraciones". diginomica . Consultado el 14 de abril de 2023 .
  9. ^ ab Swinhoe, Dan (20 de agosto de 2021). "Tesla detalla la supercomputadora Dojo, revela el chip Dojo D1 y el módulo de mosaico de entrenamiento". Data Center Dynamics . Consultado el 14 de abril de 2023 .
  10. ^ ab "Tesla comienza a instalar gabinetes de supercomputadoras Dojo y activa una subestación local". Data Center Dynamics . 3 de octubre de 2022 . Consultado el 14 de abril de 2023 .
  11. ^ Trader, Tiffany (16 de agosto de 2022). "Tesla refuerza su súper inteligencia artificial con GPU: ¿el próximo será Dojo?". HPCwire . Consultado el 14 de abril de 2023 .
  12. ^ Brown, Mike (19 de agosto de 2020). «Tesla Dojo: Por qué Elon Musk dice que la conducción autónoma total está preparada para un 'salto cuántico'». Inverse . Archivado desde el original el 25 de febrero de 2021 . Consultado el 5 de septiembre de 2021 .
  13. ^ Elon Musk [@elonmusk] (14 de agosto de 2020). "Tesla está desarrollando una computadora de entrenamiento de redes neuronales llamada Dojo para procesar cantidades realmente enormes de datos de video. ¡Es una bestia! Considere unirse a nuestros equipos de IA o de computadoras/chips si esto le parece interesante" ( Tweet ) – vía Twitter .
  14. ^ Elon Musk [@elonmusk] (19 de agosto de 2020). "Dojo V1.0 aún no está listo. Falta aproximadamente un año. No solo por los chips. El problema de la energía y la refrigeración es complicado" ( Tweet ) – vía Twitter .
  15. ^ Jin, Hyunjoo (20 de agosto de 2021). "Musk dice que Tesla probablemente lanzará un prototipo de robot humanoide el próximo año". Reuters . Consultado el 20 de agosto de 2021 .
  16. ^ Morris, James (20 de agosto de 2021). «Elon Musk pretende acabar con el empleo tal como lo conocemos con un robot humanoide» . Forbes . Consultado el 13 de abril de 2023 .
  17. ^ abc "Tecnología Tesla Dojo: una guía sobre los formatos de coma flotante configurables y la aritmética de Tesla" (PDF) . Tesla, Inc. Archivado desde el original (PDF) el 12 de octubre de 2021.
  18. ^ ab Lambert, Fred (1 de octubre de 2022). "Tesla presenta la nueva supercomputadora Dojo, tan poderosa que hizo saltar la red eléctrica". Electrek . Consultado el 13 de abril de 2023 .
  19. ^ Mann, Tobias (30 de agosto de 2023). "Tesla cubre las apuestas de Dojo con un clúster de GPU Nvidia H100 de 10 000 $". www.theregister.com . Consultado el 27 de marzo de 2024 .
  20. ^ Kolodny, Lora (21 de marzo de 2024). "Las empresas de Elon Musk están devorando el hardware de Nvidia mientras Tesla pretende construir una supercomputadora rival". CNBC . Consultado el 22 de marzo de 2024 .
  21. ^ @elonmusk (20 de junio de 2024). "Este año se está trabajando en un tamaño de ~130 MW de energía y refrigeración, pero se aumentará a >500 MW en los próximos 18 meses aproximadamente. El objetivo es que la mitad sea de hardware de IA de Tesla y la otra mitad de Nvidia/otros. Hay que jugar para ganar o no jugar en absoluto" ( Tweet ) – vía Twitter .
  22. ^ Shetty, Kamalesh Mohanarangam, Amrita (2 de septiembre de 2022). "La supercomputadora Dojo de Tesla: un punto de inflexión en la búsqueda de vehículos totalmente autónomos". Frost & Sullivan . Consultado el 30 de junio de 2023 .{{cite web}}: CS1 maint: varios nombres: lista de autores ( enlace )
  23. ^ ab Morris, James (6 de octubre de 2022). "La mayor novedad de Tesla en el Día de la IA fue la supercomputadora Dojo, no el robot Optimus" . Forbes . Consultado el 13 de abril de 2023 .
  24. ^ Thorbecke, Catherine (11 de septiembre de 2023). "Las acciones de Tesla suben después de que Morgan Stanley predijera que la supercomputadora Dojo podría sumar 500.000 millones de dólares al valor de mercado | CNN Business". CNN . Consultado el 12 de septiembre de 2023 .
  25. ^ Bellan, Rebecca; Alamalhodaei, Aria (20 de agosto de 2021). "Los cuatro aspectos más destacados del Tesla AI Day de Elon Musk". techcrunch.com . Techcrunch . Consultado el 20 de agosto de 2021 .
  26. ^ Kostovic, Aleksandar (20 de agosto de 2021). "Tesla incluye 50 mil millones de transistores en el chip D1 Dojo, diseñado para conquistar el entrenamiento en inteligencia artificial". Tom's Hardware . Consultado el 30 de junio de 2023 .
  27. ^ Moore, Samuel K. (30 de abril de 2024). "Esperemos una ola de computadoras a escala de oblea. La tecnología de TSMC permite una versión ahora y una versión más avanzada en 2027". IEEE Spectrum . Consultado el 23 de junio de 2024 .
  28. ^ Novet, Jordania (20 de agosto de 2021). "Tesla presenta un chip para entrenar modelos de IA dentro de sus centros de datos". cnbc.com . CNBC . Consultado el 20 de agosto de 2021 .
  29. ^ Shahan, Zachary (19 de agosto de 2021). "NVIDIA: las supercomputadoras de entrenamiento de IA de Tesla impulsadas por nuestras GPU". CleanTechnica . Archivado desde el original el 19 de agosto de 2021.
  30. ^ abc Talpes, Emil; Sarma, Debjit Das; Williams, Doug; Arora, Sahil; Kunjan, Thomas; Floring, Benjamín; Jalote, Ankit; Hsiong, Christopher; Poorna, Chandrasekhar; Samant, Vaidehi; Sicilia, Juan; Nivarti, Anantha Kumar; Ramachandran, Raghuvir; Fischer, Tim; Herzberg, Ben (15 de mayo de 2023). "La microarquitectura de DOJO, la computadora Exa-Scale de Tesla". Micro IEEE . 43 (3): 31–39. doi :10.1109/MM.2023.3258906. ISSN  0272-1732.
  31. ^ ab Hamilton, James (agosto de 2021). "Descripción general del Proyecto Dojo de Tesla". Perspectivas .

Enlaces externos