stringtranslate.com

acelerador de IA

Un acelerador de IA , procesador de aprendizaje profundo o unidad de procesamiento neuronal (NPU) es una clase de acelerador de hardware especializado [1] o sistema informático [2] [3] diseñado para acelerar aplicaciones de inteligencia artificial y aprendizaje automático , incluidas redes neuronales artificiales y máquinas. visión . Las aplicaciones típicas incluyen algoritmos para robótica , Internet de las cosas y otras tareas con uso intensivo de datos o impulsadas por sensores. [4] A menudo son diseños de muchos núcleos y generalmente se centran en aritmética de baja precisión , arquitecturas de flujo de datos novedosas o capacidad informática en memoria . A partir de 2024 , un chip de circuito integrado de IA típico contiene decenas de miles de millones de transistores MOSFET . [5]

Los aceleradores de IA se utilizan en dispositivos móviles, como las unidades de procesamiento neuronal (NPU) de los iPhone de Apple [6] o los teléfonos móviles de Huawei , [7] y ordenadores personales como los Mac de silicio de Apple , hasta servidores de computación en la nube como las unidades de procesamiento tensorial (TPU). en la plataforma de la nube de Google . [8] Existen varios términos específicos de proveedores para dispositivos en esta categoría, y es una tecnología emergente sin un diseño dominante .

Las unidades de procesamiento de gráficos diseñadas por empresas como Nvidia y AMD a menudo incluyen hardware específico de IA y se utilizan comúnmente como aceleradores de IA, tanto para entrenamiento como para inferencia . [9]

Historia

Los sistemas informáticos frecuentemente han complementado la CPU con aceleradores de propósito especial para tareas especializadas, conocidos como coprocesadores . Las unidades de hardware específicas de aplicaciones notables incluyen tarjetas de video para gráficos , tarjetas de sonido , unidades de procesamiento de gráficos y procesadores de señales digitales . A medida que las cargas de trabajo de aprendizaje profundo e inteligencia artificial cobraron importancia en la década de 2010, se desarrollaron o adaptaron unidades de hardware especializadas a partir de productos existentes para acelerar estas tareas.

Primeros intentos

Los primeros intentos, como el ETANN 80170NX de Intel , incorporaron circuitos analógicos para calcular funciones neuronales. [10]

Posteriormente siguieron chips totalmente digitales como el Nestor/Intel Ni1000 . Ya en 1993 se utilizaban procesadores de señales digitales como aceleradores de redes neuronales para acelerar el software de reconocimiento óptico de caracteres . [11]

En 1988, Wei Zhang et al. había discutido implementaciones ópticas rápidas de redes neuronales convolucionales para el reconocimiento de alfabetos. [12] [13]

En la década de 1990, también hubo intentos de crear sistemas paralelos de alto rendimiento para estaciones de trabajo destinados a diversas aplicaciones, incluidas simulaciones de redes neuronales. [14] [15]

Esta presentación cubre un intento anterior de aceleradores de redes neuronales, señala la similitud con la configuración moderna del procesador SLI GPGPU y sostiene que los aceleradores vectoriales de propósito general son el camino a seguir (en relación con el proyecto hwacha RISC-V). Sostiene que los NN son simplemente densos y matrices dispersas, uno de varios algoritmos recurrentes) [16]

Los aceleradores basados ​​en FPGA también se exploraron por primera vez en la década de 1990 tanto para inferencia como para entrenamiento. [17] [18]

En 2014, Chen et al. propuso DianNao (chino para "cerebro eléctrico"), [19] para acelerar especialmente las redes neuronales profundas. DianNao proporciona el rendimiento máximo de 452 Gop/s (de operaciones clave en redes neuronales profundas) solo en un tamaño pequeño de 3,02 mm2 y 485 mW. Posteriormente, los sucesores (DaDianNao, [20] ShiDianNao, [21] PuDianNao [22] ) son propuestos por el mismo grupo, formando la Familia DianNao [23]

Los teléfonos inteligentes comenzaron a incorporar aceleradores de IA a partir del Qualcomm Snapdragon 820 en 2015. [24] [25]

Computación heterogénea

La informática heterogénea incorpora muchos procesadores especializados en un único sistema, o en un único chip, cada uno de ellos optimizado para un tipo específico de tarea. Arquitecturas como el microprocesador Cell [26] tienen características que se superponen significativamente con los aceleradores de IA, que incluyen: soporte para aritmética empaquetada de baja precisión, arquitectura de flujo de datos y priorización del rendimiento sobre la latencia. El microprocesador Cell se ha aplicado a una serie de tareas [27] [28] [29] incluida la IA. [30] [31] [32]

En la década de 2000, las CPU también obtuvieron unidades SIMD cada vez más amplias, impulsadas por cargas de trabajo de video y juegos; así como soporte para tipos de datos empaquetados de baja precisión . [33] Debido al creciente rendimiento de las CPU, también se utilizan para ejecutar cargas de trabajo de IA. Las CPU son superiores para DNN con paralelismo de pequeña o mediana escala, para DNN dispersas y en escenarios de tamaño de lote bajo.

Uso de GPU

Las unidades de procesamiento de gráficos o GPU son hardware especializado para la manipulación de imágenes y el cálculo de propiedades de imágenes locales. La base matemática de las redes neuronales y la manipulación de imágenes son tareas similares y vergonzosamente paralelas que involucran matrices, lo que lleva a que las GPU se utilicen cada vez más para tareas de aprendizaje automático. [34] [35]

En 2012, Alex Krizhevsky adoptó dos GPU para entrenar una red de aprendizaje profundo, es decir, AlexNet, [36] que ganó el campeonato de la competencia ISLVRC-2012. Durante la década de 2010, los fabricantes de GPU como Nvidia agregaron funciones relacionadas con el aprendizaje profundo tanto en hardware (por ejemplo, operadores INT8) como en software (por ejemplo, biblioteca cuDNN).

Las GPU se siguen utilizando en aplicaciones de inteligencia artificial a gran escala. Por ejemplo, Summit , una supercomputadora de IBM para el Laboratorio Nacional Oak Ridge , [37] contiene 27.648 tarjetas Nvidia Tesla V100, que pueden usarse para acelerar algoritmos de aprendizaje profundo.

Durante la década de 2010, las GPU continuaron evolucionando en una dirección para facilitar el aprendizaje profundo, tanto para entrenamiento como para inferencia en dispositivos como automóviles autónomos . [38] [39] Los desarrolladores de GPU como Nvidia NVLink están desarrollando capacidades de conexión adicionales para el tipo de cargas de trabajo de flujo de datos de las que se beneficia la IA. A medida que las GPU se han aplicado cada vez más a la aceleración de la IA, los fabricantes de GPU han incorporado hardware específico de redes neuronales para acelerar aún más estas tareas. [40] [41] Los núcleos tensoriales están destinados a acelerar el entrenamiento de redes neuronales. [41]

Uso de FPGA

Los marcos de aprendizaje profundo todavía están evolucionando, lo que dificulta el diseño de hardware personalizado. Los dispositivos reconfigurables , como los conjuntos de puertas programables en campo (FPGA), facilitan la evolución del hardware, los marcos y el software entre sí . [42] [17] [18] [43]

Microsoft ha utilizado chips FPGA para acelerar la inferencia para servicios de aprendizaje profundo en tiempo real. [44]

Aparición de ASIC aceleradores de IA dedicados

Si bien las GPU y FPGA funcionan mucho mejor que las CPU para tareas relacionadas con la IA, se puede obtener un factor de hasta 10 en eficiencia [45] [46] con un diseño más específico, a través de un circuito integrado de aplicación específica (ASIC). [ cita necesaria ] Estos aceleradores emplean estrategias como el uso optimizado de la memoria [ cita necesaria ] y el uso de aritmética de menor precisión para acelerar el cálculo y aumentar el rendimiento de la computación. [47] [48] Algunos formatos de punto flotante de baja precisión utilizados para la aceleración de IA son el formato de media precisión y el formato de punto flotante bfloat16 . [49] [50] [51] [52] [53] [54] [55] Empresas como Google, Qualcomm, Amazon, Apple, Facebook, AMD y Samsung están diseñando sus propios ASIC de IA. [56] [57] [58] [59] [60] [61] Cerebras Systems ha construido un acelerador de IA dedicado basado en el procesador más grande de la industria, el Wafer Scale Engine (WSE-2) de segunda generación, para soportar Cargas de trabajo de aprendizaje profundo. [62] [63]

La investigación en curso

Arquitecturas informáticas en memoria

En junio de 2017, los investigadores de IBM anunciaron una arquitectura en contraste con la arquitectura de Von Neumann basada en computación en memoria y matrices de memoria de cambio de fase aplicadas a la detección de correlación temporal , con la intención de generalizar el enfoque a la computación heterogénea y los sistemas masivamente paralelos . [64] En octubre de 2018, los investigadores de IBM anunciaron una arquitectura basada en el procesamiento en memoria y modelada en la red sináptica del cerebro humano para acelerar las redes neuronales profundas . [65] El sistema se basa en matrices de memoria de cambio de fase . [66]

Computación en memoria con memorias resistivas analógicas

En 2019, investigadores del Politecnico di Milano encontraron una manera de resolver sistemas de ecuaciones lineales en unas pocas decenas de nanosegundos mediante una sola operación. Su algoritmo se basa en computación en memoria con memorias resistivas analógicas que funciona con altas eficiencias de tiempo y energía, mediante la realización de una multiplicación matriz-vector en un solo paso utilizando la ley de Ohm y la ley de Kirchhoff. Los investigadores demostraron que un circuito de retroalimentación con memorias resistivas de puntos de cruce puede resolver problemas algebraicos como sistemas de ecuaciones lineales, vectores propios matriciales y ecuaciones diferenciales en un solo paso. Este enfoque mejora drásticamente los tiempos de cálculo en comparación con los algoritmos digitales. [67]

Semiconductores atómicamente delgados

En 2020, Marega et al. publicaron experimentos con un material de canal activo de gran área para desarrollar dispositivos y circuitos de lógica en memoria basados ​​en transistores de efecto de campo de puerta flotante (FGFET). [68] Estos semiconductores atómicamente delgados se consideran prometedores para aplicaciones de aprendizaje automático energéticamente eficientes , donde se utiliza la misma estructura básica del dispositivo tanto para operaciones lógicas como para almacenamiento de datos. Los autores utilizaron materiales bidimensionales como el disulfuro de molibdeno semiconductor para sintonizar con precisión los FGFET como bloques de construcción en los que se pueden realizar operaciones lógicas con los elementos de memoria. [68]

Núcleo tensor fotónico integrado

En 1988, Wei Zhang et al. discutió implementaciones ópticas rápidas de redes neuronales convolucionales para el reconocimiento de alfabetos. [12] [13] En 2021, J. Feldmann et al. propuso un acelerador de hardware fotónico integrado para el procesamiento convolucional paralelo. [69] Los autores identifican dos ventajas clave de la fotónica integrada sobre sus contrapartes electrónicas: (1) transferencia masiva de datos en paralelo a través de multiplexación por división de longitud de onda junto con peines de frecuencia , y (2) velocidades de modulación de datos extremadamente altas. [69] Su sistema puede ejecutar billones de operaciones de acumulación múltiple por segundo, lo que indica el potencial de la fotónica integrada en aplicaciones de IA con gran cantidad de datos. [69] Se han desarrollado experimentalmente procesadores ópticos que también pueden realizar retropropagación para redes neuronales artificiales. [70]

Nomenclatura

A partir de 2016, el campo todavía está en constante cambio y los proveedores están impulsando su propio término de marketing para lo que equivale a un "acelerador de IA", con la esperanza de que sus diseños y API se conviertan en el diseño dominante . No hay consenso sobre los límites entre estos dispositivos ni sobre la forma exacta que adoptarán; sin embargo, varios ejemplos claramente apuntan a llenar este nuevo espacio, con bastante superposición de capacidades.

En el pasado, cuando surgieron los aceleradores de gráficos de consumo , la industria finalmente adoptó el término autoasignado por Nvidia, "la GPU", [ 71] como sustantivo colectivo para "aceleradores de gráficos", que había tomado muchas formas antes de decidirse por un proyecto general. Implementando un modelo presentado por Direct3D .

Todos los modelos de procesadores Intel Meteor Lake tienen una unidad de procesador versátil ( VPU ) incorporada para acelerar la inferencia para visión por computadora y aprendizaje profundo. [72]

Procesadores de aprendizaje profundo (DLP)

Inspirándose en el trabajo pionero de la familia DianNao, se proponen muchas DLP tanto en el mundo académico como en la industria con un diseño optimizado para aprovechar las características de las redes neuronales profundas para lograr una alta eficiencia. Solo en ISCA 2016, tres sesiones, el 15% (!) de los trabajos aceptados, son todos diseños de arquitectura sobre aprendizaje profundo. Tales esfuerzos incluyen Eyeriss (MIT), [73] EIE (Stanford), [74] Minerva (Harvard), [75] Stripes (Universidad de Toronto) en el mundo académico, [76] TPU (Google), [77] y MLU ( Cambricon ) en la industria. [78] Enumeramos varios trabajos representativos en la Tabla 1.

DLP digitales

Los componentes principales de la arquitectura DLP generalmente incluyen un componente de computación, la jerarquía de memoria en el chip y la lógica de control que administra la comunicación de datos y los flujos de computación.

Con respecto al componente computacional, como la mayoría de las operaciones en aprendizaje profundo se pueden agregar en operaciones vectoriales, las formas más comunes de construir componentes computacionales en DLP digitales son la organización basada en MAC (acumulación multiplicadora), ya sea con MAC vectoriales [19] [20 ] [22] o MAC escalares. [77] [21] [73] En lugar de SIMD o SIMT en dispositivos de procesamiento generales, el paralelismo específico del dominio de aprendizaje profundo se explora mejor en estas organizaciones basadas en MAC. Con respecto a la jerarquía de memoria, como los algoritmos de aprendizaje profundo requieren un gran ancho de banda para proporcionar datos suficientes al componente de cálculo, los DLP generalmente emplean un búfer en el chip de tamaño relativamente mayor (decenas de kilobytes o varios megabytes), pero con una estrategia de reutilización de datos en el chip dedicada y Estrategia de intercambio de datos para aliviar la carga del ancho de banda de la memoria. Por ejemplo, DianNao, 16 MAC vectorial de 16 pulgadas, requiere 16 × 16 × 2 = 512 datos de 16 bits, es decir, requisitos de ancho de banda de casi 1024 GB/s entre los componentes de cálculo y los buffers. Con la reutilización del chip, dichos requisitos de ancho de banda se reducen drásticamente. [19] En lugar del caché ampliamente utilizado en los dispositivos de procesamiento general, los DLP siempre usan memoria scratchpad, ya que podría brindar mayores oportunidades de reutilización de datos al aprovechar el patrón de acceso a datos relativamente regular en los algoritmos de aprendizaje profundo. Con respecto a la lógica de control, a medida que los algoritmos de aprendizaje profundo siguen evolucionando a una velocidad espectacular, los DLP comienzan a aprovechar ISA (arquitectura de conjunto de instrucciones) dedicada para respaldar el dominio del aprendizaje profundo de manera flexible. Al principio, DianNao usó un conjunto de instrucciones de estilo VLIW donde cada instrucción podía terminar una capa en un DNN. Cambricon [83] presenta el primer ISA específico de dominio de aprendizaje profundo, que podría admitir más de diez algoritmos de aprendizaje profundo diferentes. TPU también revela cinco instrucciones clave de la ISA de estilo CISC.

DLP híbridos

Los DLP híbridos surgen para la inferencia DNN y la aceleración del entrenamiento debido a su alta eficiencia. Las arquitecturas de procesamiento en memoria (PIM) son uno de los tipos más importantes de DLP híbrido. El concepto de diseño clave de PIM es cerrar la brecha entre la computación y la memoria, de las siguientes maneras: 1) Mover componentes de computación a celdas de memoria, controladores o chips de memoria para aliviar el problema del muro de memoria. [80] [84] [85] Estas arquitecturas acortan significativamente las rutas de datos y aprovechan un ancho de banda interno mucho mayor, lo que resulta en una mejora atractiva del rendimiento. 2) Construir motores DNN de alta eficiencia mediante la adopción de dispositivos computacionales. En 2013, HP Lab demostró la asombrosa capacidad de adoptar la estructura de barra transversal ReRAM para la informática. [86] Inspirándose en este trabajo, se propone un tremendo trabajo para explorar la nueva arquitectura y diseño del sistema basado en ReRAM, [79] [87] [88] [80] memoria de cambio de fase, [84] [89] [90] , etc. .

Puntos de referencia

Se pueden utilizar puntos de referencia como MLPerf y otros para evaluar el rendimiento de los aceleradores de IA. [91] La Tabla 2 enumera varios puntos de referencia típicos para aceleradores de IA.

Aplicaciones potenciales

Ver también

Referencias

  1. ^ "Intel presenta el acelerador de IA USB Movidius Compute Stick". 21 de julio de 2017. Archivado desde el original el 11 de agosto de 2017 . Consultado el 11 de agosto de 2017 .
  2. ^ "Inspurs presenta el acelerador de IA GX4". 21 de junio de 2017.
  3. ^ Wiggers, Kyle (6 de noviembre de 2019) [2019], Neural Magic recauda 15 millones de dólares para aumentar la velocidad de inferencia de IA en procesadores disponibles en el mercado, archivado desde el original el 6 de marzo de 2020 , consultado el 14 de marzo de 2020
  4. ^ "Google diseña procesadores de IA".Google utiliza sus propios aceleradores de IA.
  5. ^ Moss, Sebastian (23 de marzo de 2022). "Nvidia presenta la nueva GPU Hopper H100, con 80 mil millones de transistores". Dinámica del centro de datos . Consultado el 30 de enero de 2024 .
  6. ^ "Implementación de Transformers en Apple Neural Engine". Investigación sobre aprendizaje automático de Apple . Consultado el 24 de agosto de 2023 .
  7. ^ "HUAWEI revela el futuro de la IA móvil en IFA".
  8. ^ Jouppi, Norman P.; et al. (24 de junio de 2017). "Análisis de rendimiento en el centro de datos de una unidad de procesamiento tensorial". Noticias de arquitectura informática de ACM SIGARCH . 45 (2): 1–12. arXiv : 1704.04760 . doi : 10.1145/3140659.3080246 .
  9. ^ Patel, Dylan; Nisball, Daniel; Xie, Myron (9 de noviembre de 2023). "Los nuevos chips de inteligencia artificial de China de Nvidia eluden las restricciones de EE. UU.". Semianálisis . Consultado el 7 de febrero de 2024 .
  10. ^ Dvorak, JC (29 de mayo de 1990). "Pista interior". Revista PC . Consultado el 26 de diciembre de 2023 .
  11. ^ "Demostración de red neuronal convolucional de 1993 con acelerador DSP32". YouTube .
  12. ^ ab Zhang, Wei (1988). "Red neuronal de reconocimiento de patrones de cambio invariante y su arquitectura óptica". Actas de la conferencia anual de la Sociedad Japonesa de Física Aplicada .
  13. ^ ab Zhang, Wei (1990). "Modelo de procesamiento distribuido paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Óptica Aplicada . 29 (32): 4790–7. Código Bib : 1990ApOpt..29.4790Z. doi :10.1364/AO.29.004790. PMID  20577468.
  14. ^ Asanović, K.; Beck, J.; Feldman, J.; Morgan, N.; Wawrzynek, J. (enero de 1994). "Diseño de una supercomputadora de red conexionista". Revista internacional de sistemas neuronales . Puerta de la investigación. 4 (4): 317–26. doi :10.1142/S0129065793000250. PMID  8049794 . Consultado el 26 de diciembre de 2023 .
  15. ^ "El fin de las computadoras de uso general (no)". YouTube .
  16. ^ Ramacher, U.; Raab, W.; Hachmann, JAU; Beichter, J.; Bruls, N.; Wesseling, M.; Sicheneder, E.; Vidrio, J.; Wurz, A.; Manera, R. (1995). Actas del noveno Simposio internacional de procesamiento paralelo . págs. 774–781. CiteSeerX 10.1.1.27.6410 . doi :10.1109/IPPS.1995.395862. ISBN  978-0-8186-7074-9. S2CID  16364797.
  17. ^ ab Gschwind, M.; Salapura, V.; Maischberger, O. (febrero de 1995). "Implementación de red neuronal eficiente en el espacio" . Consultado el 26 de diciembre de 2023 .
  18. ^ ab Gschwind, M.; Salapura, V.; Maischberger, O. (1996). "Un bloque de construcción genérico para redes neuronales Hopfield con aprendizaje en chip". 1996 Simposio internacional IEEE sobre circuitos y sistemas. Circuitos y sistemas que conectan el mundo. ISCAS 96 . págs. 49–52. doi :10.1109/ISCAS.1996.598474. ISBN 0-7803-3073-0. S2CID  17630664.
  19. ^ abcd Chen, Tianshi; Du, Zidong; Sol, Ninghui; Wang, Jia; Wu, Chengyong; Chen, Yunji; Temam, Olivier (5 de abril de 2014). "Dian Nao". Noticias de arquitectura informática de ACM SIGARCH . 42 (1): 269–284. doi : 10.1145/2654822.2541967 . ISSN  0163-5964.
  20. ^ abc Chen, Yunji; Luo, Tao; Liu, Shaoli; Zhang, Shijin; Él, Liqiang; Wang, Jia; Li, Ling; Chen, Tianshi; Xu, Zhiwei; Sol, Ninghui; Temam, Olivier (diciembre de 2014). "DaDianNao: una supercomputadora de aprendizaje automático". 2014 47º Simposio Internacional Anual IEEE/ACM sobre Microarquitectura . IEEE. págs. 609–622. doi :10.1109/micro.2014.58. ISBN 978-1-4799-6998-2. S2CID  6838992.
  21. ^ abc Du, Zidong; Fasthuber, Robert; Chen, Tianshi; Ienne, Paolo; Li, Ling; Luo, Tao; Feng, Xiaobing; Chen, Yunji; Temam, Olivier (4 de enero de 2016). "ShiDianNao". Noticias de arquitectura informática de ACM SIGARCH . 43 (3S): 92-104. doi :10.1145/2872887.2750389. ISSN  0163-5964.
  22. ^ abc Liu, Daofu; Chen, Tianshi; Liu, Shaoli; Zhou, Jinhong; Zhou, Shengyuan; Temán, Olivier; Feng, Xiaobing; Zhou, Xuehai; Chen, Yunji (29 de mayo de 2015). "PuDian Nao". Noticias de arquitectura informática de ACM SIGARCH . 43 (1): 369–381. doi :10.1145/2786763.2694358. ISSN  0163-5964.
  23. ^ Chen, Yunji; Chen, Tianshi; Xu, Zhiwei; Sol, Ninghui; Temam, Olivier (28 de octubre de 2016). "Familia DianNao". Comunicaciones de la ACM . 59 (11): 105-112. doi :10.1145/2996864. ISSN  0001-0782. S2CID  207243998.
  24. ^ "Qualcomm ayuda a que sus dispositivos móviles sean más inteligentes con el nuevo kit de desarrollo de software de aprendizaje automático Snapdragon". Qualcomm .
  25. ^ Rubin, Ben Fox. "La plataforma Zeroth de Qualcomm podría hacer que su teléfono inteligente sea mucho más inteligente". CNET . Consultado el 28 de septiembre de 2021 .
  26. ^ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martín; Watanabe, Yukio; Yamazaki, Takeshi (2006). "Procesamiento sinérgico en la arquitectura multinúcleo de Cell". Micro IEEE . 26 (2): 10–24. doi :10.1109/MM.2006.41. S2CID  17834015.
  27. ^ De Fabritiis, G. (2007). "Rendimiento del procesador celular para simulaciones biomoleculares". Comunicaciones de Física Informática . 176 (11–12): 660–664. arXiv : física/0611201 . Código Bib : 2007CoPhC.176..660D. doi :10.1016/j.cpc.2007.02.107. S2CID  13871063.
  28. ^ Procesamiento y recuperación de video en arquitectura celular . CiteSeerX 10.1.1.138.5133 . 
  29. ^ Benthin, Carsten; Wald, Ingo; Scherbaum, Michael; Friedrich, Heiko (2006). Simposio IEEE de 2006 sobre trazado de rayos interactivo . págs. 15-23. CiteSeerX 10.1.1.67.8982 . doi :10.1109/RT.2006.280210. ISBN  978-1-4244-0693-7. S2CID  1198101.
  30. ^ "Desarrollo de una red neuronal artificial sobre una arquitectura multinúcleo heterogénea para predecir una pérdida de peso exitosa en individuos obesos" (PDF) . Archivado desde el original (PDF) el 30 de agosto de 2017 . Consultado el 14 de noviembre de 2017 .
  31. ^ Kwon, Bomjun; Choi, Taiho; Chung, Heejin; Kim, Geonho (2008). 2008 Quinta Conferencia de redes y comunicaciones del consumidor IEEE . págs. 1030-1034. doi :10.1109/ccnc08.2007.235. ISBN 978-1-4244-1457-4. S2CID  14429828.
  32. ^ Duan, frotando; Strey, Alfred (2008). Euro-Par 2008 – Procesamiento paralelo . Apuntes de conferencias sobre informática. vol. 5168. págs. 665–675. doi :10.1007/978-3-540-85451-7_71. ISBN 978-3-540-85450-0.
  33. ^ "Mejora del rendimiento del vídeo con AVX". 8 de febrero de 2012.
  34. ^ Chellapilla, K.; Sidd Puri; Simard, P. (23 de octubre de 2006). "Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos". X Taller Internacional sobre Fronteras en el Reconocimiento de Escritura . Consultado el 23 de diciembre de 2023 .
  35. ^ Krizhevsky, A.; Sutskever, I.; Hinton, GE (24 de mayo de 2017). "Clasificación de ImageNet con redes neuronales convolucionales profundas". Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 .
  36. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (24 de mayo de 2017). "Clasificación de ImageNet con redes neuronales convolucionales profundas". Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 .
  37. ^ "Cumbre: supercomputadora de 200 petaflops del Laboratorio Nacional Oak Ridge". Departamento de Energía de Estados Unidos . 2024 . Consultado el 8 de enero de 2024 .
  38. ^ Roe, R. (17 de mayo de 2023). "Nvidia al mando del aprendizaje profundo". dentro de HPC . Consultado el 23 de diciembre de 2023 .
  39. ^ Bohn, D. (5 de enero de 2016). "Nvidia anuncia una 'supercomputadora' para vehículos autónomos en CES 2016". Medios Vox . Consultado el 23 de diciembre de 2023 .
  40. ^ "Una encuesta sobre la implementación optimizada de modelos de aprendizaje profundo en la plataforma NVIDIA Jetson", 2019
  41. ^ ab Harris, Mark (11 de mayo de 2017). "Características de CUDA 9 reveladas: Volta, grupos cooperativos y más" . Consultado el 12 de agosto de 2017 .
  42. ^ Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan (agosto de 2019). "Aceleración de puntos de acceso en redes neuronales profundas en una FPGA basada en CAPI". 21.ª Conferencia Internacional del IEEE de 2019 sobre Comunicaciones y Computación de Alto Rendimiento; IEEE 17ª Conferencia Internacional sobre Ciudades Inteligentes; IEEE Quinta Conferencia Internacional sobre Sistemas y Ciencia de Datos (HPCC/SmartCity/DSS) . págs. 248-256. doi :10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN 978-1-7281-2058-4. S2CID  203656070.
  43. ^ "Los aceleradores de aprendizaje profundo basados ​​en FPGA adoptan los ASIC". La próxima plataforma . 23 de agosto de 2016 . Consultado el 7 de septiembre de 2016 .
  44. ^ "Microsoft presenta Project Brainwave para IA en tiempo real". Microsoft . 22 de agosto de 2017.
  45. ^ "Google impulsa el aprendizaje automático con su Unidad de procesamiento tensorial". 19 de mayo de 2016 . Consultado el 13 de septiembre de 2016 .
  46. ^ "Chip podría llevar el aprendizaje profundo a los dispositivos móviles". www.sciencedaily.com . 3 de febrero de 2016 . Consultado el 13 de septiembre de 2016 .
  47. ^ "Aprendizaje profundo con precisión numérica limitada" (PDF) .
  48. ^ Rastegari, Mohammad; Ordóñez, Vicente; Redmon, José; Farhadi, Ali (2016). "XNOR-Net: clasificación de ImageNet mediante redes neuronales convolucionales binarias". arXiv : 1603.05279 [cs.CV].
  49. ^ Khari Johnson (23 de mayo de 2018). "Intel presenta Nervana Neural Net L-1000 para el entrenamiento acelerado de IA". VentureBeat . Consultado el 23 de mayo de 2018 . ...Intel ampliará la compatibilidad con bfloat16 en todas nuestras líneas de productos de IA, incluidos los procesadores Intel Xeon y los FPGA Intel.
  50. ^ Michael Feldman (23 de mayo de 2018). "Intel presenta una nueva hoja de ruta para la cartera de IA". TOP500 sitios de supercomputadoras . Consultado el 23 de mayo de 2018 . Intel planea admitir este formato en todos sus productos de IA, incluidas las líneas Xeon y FPGA.
  51. Lucian Armasu (23 de mayo de 2018). "Intel lanzará Spring Crest, su primer procesador de red neuronal, en 2019". Hardware de Tom . Consultado el 23 de mayo de 2018 . Intel dijo que el NNP-L1000 también admitiría bfloat16, un formato numérico que están adoptando todos los actores de la industria ML para redes neuronales. La empresa también admitirá bfloat16 en sus FPGA, Xeons y otros productos ML. El lanzamiento del Nervana NNP-L1000 está previsto para 2019.
  52. ^ "Operaciones de TensorFlow disponibles | Cloud TPU | Google Cloud". Nube de Google . Consultado el 23 de mayo de 2018 . Esta página enumera las API de TensorFlow Python y los operadores de gráficos disponibles en Cloud TPU.
  53. ^ Elmar Haußmann (26 de abril de 2018). "Comparación del TPUv2 de Google con el V100 de Nvidia en ResNet-50". Blog de RiseML . Archivado desde el original el 26 de abril de 2018 . Consultado el 23 de mayo de 2018 . Para Cloud TPU, Google recomendó que utilicemos la implementación bfloat16 del repositorio oficial de TPU con TensorFlow 1.7.0. Tanto las implementaciones de TPU como de GPU utilizan cálculos de precisión mixta en la arquitectura respectiva y almacenan la mayoría de los tensores con precisión media.
  54. ^ Autores de Tensorflow (28 de febrero de 2018). "ResNet-50 usando BFloat16 en TPU". Google . Consultado el 23 de mayo de 2018 .[ enlace muerto permanente ]
  55. ^ Josué V. Dillon; Ian Langmore; Dustin Tran; Eugenio Brevdo; Srinivas Vasudevan; Dave Moore; Brian Patton; Alex Alemi; Matt Hoffman; Rif A. Saurous (28 de noviembre de 2017). Distribuciones de TensorFlow (Reporte). arXiv : 1711.10604 . Código Bib : 2017arXiv171110604D. Consultado el 23 de mayo de 2018. Todas las operaciones en TensorFlow Distributions son numéricamente estables en precisiones de punto flotante medio, simple y doble (como tipos de TensorFlow: tf.bfloat16 (coma flotante truncada), tf.float16, tf.float32, tf.float64 ). Los constructores de clases tienen un indicador validar_args para afirmaciones numéricas.
  56. ^ "Google presenta un nuevo y potente chip y supercomputadora de inteligencia artificial". Revisión de tecnología del MIT . Consultado el 27 de julio de 2021 .
  57. ^ "Qué esperar del motor neuronal de Apple en el SoC biónico A11: ExtremeTech". www.extremetech.com . Consultado el 27 de julio de 2021 .
  58. ^ "Facebook tiene una nueva oferta de trabajo que solicita diseñadores de chips". 19 de abril de 2018.[ enlace muerto permanente ]
  59. ^ "Facebook se une a Amazon y Google en la carrera de chips de IA". Tiempos financieros . 18 de febrero de 2019.
  60. ^ Amadeo, Ron (11 de mayo de 2021). "Según se informa, Samsung y AMD se harán cargo del SoC M1 de Apple a finales de este año". Ars Técnica . Consultado el 28 de julio de 2021 .
  61. ^ Smith, Ryan. "La carrera de la IA se expande: Qualcomm presenta la familia" Cloud AI 100 "de aceleradores de inferencia de IA para centros de datos para 2020". www.anandtech.com . Consultado el 28 de septiembre de 2021 .
  62. ^ Woodie, Alex (1 de noviembre de 2021). "Cerebras pisa el acelerador de cargas de trabajo de aprendizaje profundo". Datanami . Consultado el 3 de agosto de 2022 .
  63. ^ "Cerebras lanza un nuevo procesador de supercomputación de IA con 2,6 billones de transistores". VentureBeat . 20 de abril de 2021 . Consultado el 3 de agosto de 2022 .
  64. ^ Abu Sebastián; Tomás Tuma; Nikolaos Papandreu; Manuel Le Gallo; Lucas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). "Detección de correlación temporal mediante memoria computacional de cambio de fase". Comunicaciones de la naturaleza . 8 (1): 1115. arXiv : 1706.00511 . Código Bib : 2017NatCo...8.1115S. doi :10.1038/s41467-017-01481-9. PMC 5653661 . PMID  29062022. 
  65. ^ "Una nueva arquitectura inspirada en el cerebro podría mejorar la forma en que las computadoras manejan los datos y hacen avanzar la IA". Instituto Americano de Física . 3 de octubre de 2018 . Consultado el 5 de octubre de 2018 .
  66. ^ Carlos Ríos; Nathan Youngblood; Zengguang Cheng; Manuel Le Gallo; Wolfram HP Pernice; C. David Wright; Abu Sebastián; Harish Bhaskaran (2018). "Computación en memoria sobre una plataforma fotónica". Avances científicos . 5 (2): eau5759. arXiv : 1801.06228 . Código Bib : 2019SciA....5.5759R. doi : 10.1126/sciadv.aau5759. PMC 6377270 . PMID  30793028. S2CID  7637801. 
  67. ^ Zhong Sun; Giacomo Pedretti; Elía Ambrosi; Alessandro Bricalli; Wei Wang; Daniele Ielmini (2019). "Resolver ecuaciones matriciales en un solo paso con matrices resistivas de puntos de cruce". Procedimientos de la Academia Nacional de Ciencias . 116 (10): 4123–4128. Código Bib : 2019PNAS..116.4123S. doi : 10.1073/pnas.1815682116 . PMC 6410822 . PMID  30782810. 
  68. ^ ab Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Lógica en memoria basada en un semiconductor atómicamente delgado". Naturaleza . 587 (2): 72–77. Código Bib :2020Natur.587...72M. doi :10.1038/s41586-020-2861-0. PMC 7116757 . PMID  33149289. 
  69. ^ abcFeldmann , J.; Sangre joven, N.; Kárpov, M.; et al. (2021). "Procesamiento convolucional paralelo mediante un tensor fotónico integrado". Naturaleza . 589 (2): 52–58. arXiv : 2002.00281 . doi :10.1038/s41586-020-03070-1. PMID  33408373. S2CID  211010976.
  70. ^ "Los chips fotónicos frenan el apetito energético del entrenamiento de IA - IEEE Spectrum".
  71. ^ "NVIDIA lanza la primera unidad de procesamiento de gráficos del mundo, la GeForce 256". Archivado desde el original el 27 de febrero de 2016.
  72. ^ "Intel llevará una unidad de procesador 'VPU' a los chips Meteor Lake de 14.ª generación". PCMAG .
  73. ^ abc Chen, Yu-Hsin; Emer, Joel; Sze, Vivienne (2017). "Eyeriss: una arquitectura espacial para el flujo de datos energéticamente eficiente para redes neuronales convolucionales". IEEE Micro : 1. doi : 10.1109/mm.2017.265085944. hdl : 1721.1/102369 . ISSN  0272-1732.
  74. ^ ab Han, canción; Liu, Xingyu; Mao, Huizi; Pu, Jing; Pedram, Ardavan; Horowitz, Mark A.; Dally, William J. (3 de febrero de 2016). EIE: motor de inferencia eficiente en redes neuronales profundas comprimidas . OCLC  1106232247.
  75. ^ Reagen, Brandon; Qué importa, Paul; Adolfo, Roberto; Rama, Saketh; Lee, Hyunkwang; Lee, Sae Kyu; Hernández-Lobato, José Miguel; Wei, Gu-Yeon; Brooks, David (junio de 2016). "Minerva: habilitación de aceleradores de redes neuronales profundas de bajo consumo y alta precisión". 2016 ACM/IEEE 43º Simposio Internacional Anual sobre Arquitectura de Computadores (ISCA) . Seúl: IEEE. págs. 267–278. doi :10.1109/ISCA.2016.32. ISBN 978-1-4673-8947-1.
  76. ^ Judd, Patricio; Albericio, Jorge; Moshovos, Andreas (1 de enero de 2017). "Stripes: Computación de redes neuronales profundas en serie de bits". Cartas de arquitectura informática IEEE . 16 (1): 80–83. doi :10.1109/lca.2016.2597140. ISSN  1556-6056. S2CID  3784424.
  77. ^ abc Jouppi, N .; Joven, C.; Patil, N.; Patterson, D. (24 de junio de 2017). Análisis de rendimiento en el centro de datos de una unidad de procesamiento tensorial . Asociación para Maquinaria de Computación . págs. 1–12. doi : 10.1145/3079856.3080246 . ISBN 9781450348928. S2CID  4202768.
  78. ^ "Tarjeta aceleradora de inteligencia MLU 100" (en japonés). Cambricón. 2024 . Consultado el 8 de enero de 2024 .
  79. ^ ab Chi, ping; Li, Shuangchen; Xu, Cong; Zhang, Tao; Zhao, Jishen; Liu, Yongpan; Wang, Yu; Xie, Yuan (junio de 2016). "PRIME: una nueva arquitectura de procesamiento en memoria para la computación de redes neuronales en la memoria principal basada en ReRAM". 2016 ACM/IEEE 43º Simposio Internacional Anual sobre Arquitectura de Computadores (ISCA) . IEEE. págs. 27–39. doi :10.1109/isca.2016.13. ISBN 978-1-4673-8947-1.
  80. ^ abc Canción, Linghao; Qian, Xuehai; Li, Hai ; Chen, Yiran (febrero de 2017). "PipeLayer: un acelerador canalizado basado en ReRAM para el aprendizaje profundo". Simposio internacional IEEE 2017 sobre arquitectura informática de alto rendimiento (HPCA) . IEEE. págs. 541–552. doi :10.1109/hpca.2017.55. ISBN 978-1-5090-4985-1. S2CID  15281419.
  81. ^ Shin, Dongjoo; Lee, Jinmook; Lee, Jinsu; Yoo, Hoi-Jun (2017). "14.2 DNPU: un procesador CNN-RNN reconfigurable 8.1TOPS/W para redes neuronales profundas de uso general". Conferencia internacional de circuitos de estado sólido (ISSCC) del IEEE 2017 . págs. 240-241. doi :10.1109/ISSCC.2017.7870350. ISBN 978-1-5090-3758-2. S2CID  206998709 . Consultado el 24 de agosto de 2023 .
  82. ^ Lee, Jinmook; Kim, Changhyeon; Kang, Sanghoon; Shin, Dongjoo; Kim, Sangyeob; Yoo, Hoi-Jun (2018). "UNPU: un acelerador de red neuronal profunda unificado de 50,6 TOPS / W con precisión de bits de peso totalmente variable de 1b a 16b". Conferencia Internacional de Circuitos de Estado Sólido IEEE 2018 - (ISSCC) . págs. 218-220. doi :10.1109/ISSCC.2018.8310262. ISBN 978-1-5090-4940-0. S2CID  3861747 . Consultado el 30 de noviembre de 2023 .
  83. ^ Liu, Shaoli; Du, Zidong; Tao, Jinhua; Han, Dong; Luo, Tao; Xie, Yuan; Chen, Yunji; Chen, Tianshi (junio de 2016). "Cambricon: una arquitectura de conjunto de instrucciones para redes neuronales". 2016 ACM/IEEE 43º Simposio Internacional Anual sobre Arquitectura de Computadores (ISCA) . IEEE. págs. 393–405. doi :10.1109/isca.2016.42. ISBN 978-1-4673-8947-1.
  84. ^ ab Ambrogio, Stefano; Narayanan, pritish; Tsai, Hsinyu; Shelby, Robert M.; Boybat, Irem; di Nolfo, Carmelo; Sidler, Severin; Giordano, Massimo; Bodini, Martina; Farinha, Nathan CP; Killeen, Benjamin (junio de 2018). "Entrenamiento de redes neuronales acelerado con precisión equivalente utilizando memoria analógica". Naturaleza . 558 (7708): 60–67. Código Bib :2018Natur.558...60A. doi :10.1038/s41586-018-0180-5. ISSN  0028-0836. PMID  29875487. S2CID  46956938.
  85. ^ Chen, Wei-Hao; Lin, Wen-Jang; Lai, Li-Ya; Li, Shuangchen; Hsu, Chien-Hua; Lin, Huan-Ting; Lee, Heng-Yuan; Su, Jian-Wei; Xie, Yuan; Sheu, Shyh-Shyuan; Chang, Meng-Fan (diciembre de 2017). "Una macro ReRAM de modo dual de 16 Mb con computación en memoria de menos de 14 ns y funciones de memoria habilitadas mediante un esquema de terminación de autoescritura". Reunión Internacional de Dispositivos Electrónicos (IEDM) IEEE 2017 . IEEE. págs. 28.2.1–28.2.4. doi :10.1109/iedm.2017.8268468. ISBN 978-1-5386-3559-9. S2CID  19556846.
  86. ^ Yang, J. Josué; Strukov, Dmitri B.; Stewart, Duncan R. (enero de 2013). "Dispositivos memristivos para informática". Nanotecnología de la naturaleza . 8 (1): 13–24. Código Bib : 2013NatNa...8...13Y. doi :10.1038/nnano.2012.240. ISSN  1748-3395. PMID  23269430.
  87. ^ Shafiee, Ali; Nag, Anirban; Muralimanohar, Naveen; Balasubramonian, Rajeev; Strachan, Juan Pablo; Hu, Miao; Williams, R. Stanley; Srikumar, Vivek (12 de octubre de 2016). "ISAAC". Noticias de arquitectura informática de ACM SIGARCH . 44 (3): 14-26. doi :10.1145/3007787.3001139. ISSN  0163-5964. S2CID  6329628.
  88. ^ Ji, Yu Zhang, Youyang Xie, Xinfeng Li, Shuangchen Wang, Peiqi Hu, Xing Zhang, Youhui Xie, Yuan (27 de enero de 2019). FPSA: una solución de pila de sistema completa para arquitectura de acelerador NN reconfigurable basada en ReRAM . OCLC  1106329050.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  89. ^ Nandakumar, SR; Boybat, Irem; Joshi, Vinay; Piveteau, Christophe; Le Gallo, Manuel; Rajendran, Bipin; Sebastián, Abu; Eleftheriou, Evangelos (noviembre de 2019). "Modelos de memoria de cambio de fase para inferencia y entrenamiento de aprendizaje profundo". 2019 26a Conferencia Internacional IEEE sobre Electrónica, Circuitos y Sistemas (ICECS) . IEEE. págs. 727–730. doi :10.1109/icecs46596.2019.8964852. ISBN 978-1-7281-0996-1. S2CID  210930121.
  90. ^ Joshi, Vinay; Le Gallo, Manuel; Haefeli, Simón; Boybat, Irem; Nandakumar, SR; Piveteau, Christophe; Dazzi, Martino; Rajendran, Bipin; Sebastián, Abu; Eleftheriou, Evangelos (18 de mayo de 2020). "Inferencia precisa de redes neuronales profundas utilizando memoria computacional de cambio de fase". Comunicaciones de la naturaleza . 11 (1): 2473. arXiv : 1906.03138 . Código Bib : 2020NatCo..11.2473J. doi : 10.1038/s41467-020-16108-9 . ISSN  2041-1723. PMC 7235046 . PMID  32424184. 
  91. ^ "Nvidia afirma tener un 'rendimiento récord' para el debut de Hopper MLPerf".
  92. ^ "Desarrollo de un sistema de visión artificial para el control de malezas mediante aplicación química de precisión" (PDF) . Universidad de Florida . CiteSeerX 10.1.1.7.342 . Archivado desde el original (PDF) el 23 de junio de 2010. 
  93. ^ "Tecnología y soluciones de vehículos autónomos de NVIDIA Automotive". NVIDIA .
  94. ^ "movidius impulsa el dron más inteligente del mundo". 16 de marzo de 2016.
  95. ^ "Qualcomm Research lleva el aprendizaje automático de clase servidor a los dispositivos cotidianos, haciéndolos más inteligentes [VIDEO]". Octubre de 2015.

enlaces externos