stringtranslate.com

Acelerador de IA

Un acelerador de IA , procesador de aprendizaje profundo o unidad de procesamiento neuronal ( NPU ) es una clase de acelerador de hardware especializado [1] o sistema informático [2] [3] diseñado para acelerar aplicaciones de inteligencia artificial y aprendizaje automático , incluidas redes neuronales artificiales y visión artificial . Las aplicaciones típicas incluyen algoritmos para robótica , Internet de las cosas y otras tareas intensivas en datos o impulsadas por sensores. [4] A menudo son diseños de muchos núcleos y generalmente se centran en aritmética de baja precisión , arquitecturas de flujo de datos novedosas o capacidad de computación en memoria . A partir de 2024 , un chip de circuito integrado de IA típico contiene decenas de miles de millones de MOSFET . [5]

Los aceleradores de IA se utilizan en dispositivos móviles como los iPhones de Apple y los teléfonos móviles Huawei , [6] y ordenadores personales como los portátiles Intel , [7] los portátiles AMD [8] y los Mac con silicio de Apple . [9] Los aceleradores se utilizan en servidores de computación en la nube , incluidas las unidades de procesamiento tensorial (TPU) en Google Cloud Platform [10] y los chips Trainium e Inferentia en Amazon Web Services . [11] Existen varios términos específicos de cada proveedor para los dispositivos de esta categoría, y es una tecnología emergente sin un diseño dominante .

Las unidades de procesamiento gráfico diseñadas por empresas como Nvidia y AMD a menudo incluyen hardware específico para IA y se utilizan comúnmente como aceleradores de IA, tanto para entrenamiento como para inferencia . [12]

Historia

Los sistemas informáticos han complementado frecuentemente la CPU con aceleradores de propósito especial para tareas especializadas, conocidos como coprocesadores . Las unidades de hardware específicas de la aplicación notables incluyen tarjetas de video para gráficos , tarjetas de sonido , unidades de procesamiento gráfico y procesadores de señal digital . A medida que las cargas de trabajo de aprendizaje profundo e inteligencia artificial ganaron importancia en la década de 2010, se desarrollaron unidades de hardware especializadas o se adaptaron a partir de productos existentes para acelerar estas tareas.

Primeros intentos

Los primeros intentos, como el ETANN 80170NX de Intel, incorporaron circuitos analógicos para calcular funciones neuronales. [13]

Más tarde, aparecieron chips totalmente digitales, como el Nestor/Intel Ni1000 . Ya en 1993, los procesadores de señales digitales se utilizaban como aceleradores de redes neuronales para acelerar el software de reconocimiento óptico de caracteres . [14]

En 1988, Wei Zhang et al. habían analizado implementaciones ópticas rápidas de redes neuronales convolucionales para el reconocimiento del alfabeto. [15] [16]

En la década de 1990, también hubo intentos de crear sistemas paralelos de alto rendimiento para estaciones de trabajo destinadas a diversas aplicaciones, incluidas las simulaciones de redes neuronales. [17] [18]

Los aceleradores basados ​​en FPGA también se exploraron por primera vez en la década de 1990, tanto para inferencia como para entrenamiento. [19] [20]

En 2014, Chen et al. propusieron DianNao (que en chino significa "cerebro eléctrico"), [21] especialmente para acelerar las redes neuronales profundas. DianNao proporciona un rendimiento máximo de 452 Gop/s (de operaciones clave en redes neuronales profundas) en una huella de 3,02 mm2 y 485 mW. Más tarde, el mismo grupo propuso los sucesores (DaDianNao, [22] ShiDianNao, [23] PuDianNao [24] ), formando la familia DianNao [25].

Los teléfonos inteligentes comenzaron a incorporar aceleradores de IA a partir del Qualcomm Snapdragon 820 en 2015. [26] [27]

Computación heterogénea

La computación heterogénea incorpora muchos procesadores especializados en un solo sistema, o un solo chip, cada uno optimizado para un tipo específico de tarea. Arquitecturas como el microprocesador Cell [28] tienen características que se superponen significativamente con los aceleradores de IA, incluyendo: soporte para aritmética empaquetada de baja precisión, arquitectura de flujo de datos y priorización del rendimiento sobre la latencia. El microprocesador Cell se ha aplicado a una serie de tareas [29] [30] [31] incluida la IA. [32] [33] [34]

En la década de 2000, las CPU también ganaron unidades SIMD cada vez más amplias , impulsadas por cargas de trabajo de video y juegos; así como soporte para tipos de datos empaquetados de baja precisión . [35] Debido al aumento del rendimiento de las CPU, también se utilizan para ejecutar cargas de trabajo de IA. Las CPU son superiores para DNN con paralelismo de pequeña o mediana escala, para DNN dispersas y en escenarios de tamaño de lote bajo.

Uso de GPU

Las unidades de procesamiento gráfico o GPU son hardware especializado para la manipulación de imágenes y el cálculo de propiedades locales de imágenes. La base matemática de las redes neuronales y la manipulación de imágenes son tareas similares y vergonzosamente paralelas que involucran matrices, lo que hace que las GPU se utilicen cada vez más para tareas de aprendizaje automático. [36] [37]

En 2012, Alex Krizhevsky adoptó dos GPU para entrenar una red de aprendizaje profundo, es decir, AlexNet, [38] que ganó el campeonato de la competencia ISLVRC-2012. Durante la década de 2010, los fabricantes de GPU como Nvidia agregaron características relacionadas con el aprendizaje profundo tanto en hardware (por ejemplo, operadores INT8) como en software (por ejemplo, biblioteca cuDNN).

Durante la década de 2010, las GPU continuaron evolucionando en una dirección para facilitar el aprendizaje profundo, tanto para el entrenamiento como para la inferencia en dispositivos como los automóviles autónomos . [39] [40] Los desarrolladores de GPU como Nvidia NVLink están desarrollando capacidad de conexión adicional para el tipo de cargas de trabajo de flujo de datos de las que se beneficia la IA. A medida que las GPU se han aplicado cada vez más a la aceleración de la IA, los fabricantes de GPU han incorporado hardware específico de redes neuronales para acelerar aún más estas tareas. [41] [42] Los núcleos tensores están destinados a acelerar el entrenamiento de redes neuronales. [42]

Las GPU siguen utilizándose en aplicaciones de IA a gran escala. Por ejemplo, Summit , una supercomputadora de IBM para el Laboratorio Nacional de Oak Ridge , [43] contiene 27.648 tarjetas Nvidia Tesla V100, que pueden utilizarse para acelerar algoritmos de aprendizaje profundo.

Uso de FPGAs

Los marcos de aprendizaje profundo siguen evolucionando, lo que dificulta el diseño de hardware personalizado. Los dispositivos reconfigurables , como las matrices de puertas programables en campo (FPGA), facilitan la evolución simultánea de hardware, marcos y software . [44] [19] [20] [45]

Microsoft ha utilizado chips FPGA para acelerar la inferencia de servicios de aprendizaje profundo en tiempo real. [46]

Uso de NPU

(agregar forma completa de NPU) Desde 2017, varias CPU y SoC tienen NPU en matriz: por ejemplo, Intel Meteor Lake , Apple A11 .

Aparición de ASIC dedicados a aceleradores de IA

Si bien las GPU y los FPGA funcionan mucho mejor que las CPU para tareas relacionadas con la IA, se puede obtener un factor de hasta 10 en eficiencia [47] [48] con un diseño más específico, a través de un circuito integrado específico de la aplicación (ASIC). [49] Estos aceleradores emplean estrategias como el uso optimizado de la memoria [ cita requerida ] y el uso de aritmética de menor precisión para acelerar el cálculo y aumentar el rendimiento del cómputo. [50] [51] Algunos formatos de punto flotante de baja precisión utilizados para la aceleración de la IA son la media precisión y el formato de punto flotante bfloat16 . [52] [53] Cerebras Systems ha construido un acelerador de IA dedicado basado en el procesador más grande de la industria, el Wafer Scale Engine (WSE-2) de segunda generación, para soportar cargas de trabajo de aprendizaje profundo. [54] [55]

Investigación en curso

Arquitecturas de computación en memoria

En junio de 2017, los investigadores de IBM anunciaron una arquitectura en contraste con la arquitectura de Von Neumann basada en computación en memoria y matrices de memoria de cambio de fase aplicadas a la detección de correlación temporal , con la intención de generalizar el enfoque a la computación heterogénea y a los sistemas masivamente paralelos . [56] En octubre de 2018, los investigadores de IBM anunciaron una arquitectura basada en el procesamiento en memoria y modelada en la red sináptica del cerebro humano para acelerar las redes neuronales profundas . [57] El sistema se basa en matrices de memoria de cambio de fase. [58]

Computación en memoria con memorias resistivas analógicas

En 2019, investigadores del Politécnico de Milán encontraron una forma de resolver sistemas de ecuaciones lineales en unas pocas decenas de nanosegundos mediante una sola operación. Su algoritmo se basa en computación en memoria con memorias resistivas analógicas que funcionan con altas eficiencias de tiempo y energía, mediante la realización de la multiplicación de matriz-vector en un solo paso utilizando la ley de Ohm y la ley de Kirchhoff. Los investigadores demostraron que un circuito de retroalimentación con memorias resistivas de punto de cruce puede resolver problemas algebraicos como sistemas de ecuaciones lineales, vectores propios de matrices y ecuaciones diferenciales en un solo paso. Este enfoque mejora drásticamente los tiempos de cálculo en comparación con los algoritmos digitales. [59]

Semiconductores atómicamente delgados

En 2020, Marega et al. publicaron experimentos con un material de canal activo de área grande para desarrollar dispositivos y circuitos de lógica en memoria basados ​​en transistores de efecto de campo de puerta flotante (FGFET). [60] Estos semiconductores atómicamente delgados se consideran prometedores para aplicaciones de aprendizaje automático energéticamente eficientes , donde se utiliza la misma estructura básica del dispositivo tanto para las operaciones lógicas como para el almacenamiento de datos. Los autores utilizaron materiales bidimensionales como el disulfuro de molibdeno semiconductor para ajustar con precisión los FGFET como bloques de construcción en los que se pueden realizar operaciones lógicas con los elementos de memoria. [60]

Núcleo tensor fotónico integrado

En 1988, Wei Zhang et al. analizaron implementaciones ópticas rápidas de redes neuronales convolucionales para el reconocimiento del alfabeto. [15] [16] En 2021, J. Feldmann et al. propusieron un acelerador de hardware fotónico integrado para el procesamiento convolucional paralelo. [61] Los autores identifican dos ventajas clave de la fotónica integrada sobre sus contrapartes electrónicas: (1) transferencia masiva de datos en paralelo a través de multiplexación por división de longitud de onda junto con peines de frecuencia , y (2) velocidades de modulación de datos extremadamente altas. [61] Su sistema puede ejecutar billones de operaciones de multiplicación-acumulación por segundo, lo que indica el potencial de la fotónica integrada en aplicaciones de IA con gran cantidad de datos. [61] Se han desarrollado experimentalmente procesadores ópticos que también pueden realizar retropropagación para redes neuronales artificiales. [62]

Nomenclatura

En 2016, el campo aún está en constante cambio y los proveedores están impulsando su propio término de marketing para lo que equivale a un "acelerador de IA", con la esperanza de que sus diseños y API se conviertan en el diseño dominante . No hay consenso sobre el límite entre estos dispositivos, ni sobre la forma exacta que adoptarán; sin embargo, varios ejemplos apuntan claramente a llenar este nuevo espacio, con una buena cantidad de superposición en las capacidades.

En el pasado, cuando surgieron los aceleradores de gráficos para el consumidor , la industria finalmente adoptó el término autoasignado por Nvidia , "la GPU", [63] como el sustantivo colectivo para "aceleradores de gráficos", que había tomado muchas formas antes de establecerse en una línea general que implementaba un modelo presentado por Direct3D [ aclaración necesaria ] .

Todos los modelos de procesadores Intel Meteor Lake tienen una unidad de procesador versátil ( VPU ) incorporada para acelerar la inferencia para la visión por computadora y el aprendizaje profundo. [64]

Procesadores de aprendizaje profundo (DLP)

Inspirados por el trabajo pionero de la familia DianNao, se proponen muchos DLP tanto en el ámbito académico como en la industria con un diseño optimizado para aprovechar las características de las redes neuronales profundas para una alta eficiencia. En ISCA 2016, tres sesiones (15 %) de los artículos aceptados se centraron en diseños de arquitectura sobre aprendizaje profundo. Dichos esfuerzos incluyen Eyeriss (MIT), [65] EIE (Stanford), [66] Minerva (Harvard), [67] Stripes (Universidad de Toronto) en el ámbito académico, [68] TPU (Google), [69] y MLU ( Cambricon ) en la industria. [70] Enumeramos varios trabajos representativos en la Tabla 1.

DLP digitales

Los componentes principales de la arquitectura DLP generalmente incluyen un componente de cálculo, la jerarquía de memoria en el chip y la lógica de control que administra los flujos de comunicación y cálculo de datos.

En cuanto al componente computacional, como la mayoría de las operaciones en aprendizaje profundo se pueden agregar en operaciones vectoriales, las formas más comunes de construir componentes computacionales en DLP digitales son la organización basada en MAC (acumulación de multiplicadores), ya sea con MAC vectoriales [21] [22] [24] o MAC escalares. [69] [23] [65] En lugar de SIMD o SIMT en dispositivos de procesamiento general, el paralelismo específico del dominio de aprendizaje profundo se explora mejor en estas organizaciones basadas en MAC. En cuanto a la jerarquía de memoria, como los algoritmos de aprendizaje profundo requieren un gran ancho de banda para proporcionar al componente computacional datos suficientes, los DLP generalmente emplean un búfer en chip de tamaño relativamente mayor (decenas de kilobytes o varios megabytes) pero con una estrategia de reutilización de datos en chip dedicada y una estrategia de intercambio de datos para aliviar la carga del ancho de banda de la memoria. Por ejemplo, DianNao, 16 16-in vector MAC, requiere 16 × 16 × 2 = 512 datos de 16 bits, es decir, casi 1024 GB/s de requisitos de ancho de banda entre los componentes de cómputo y los buffers. Con la reutilización en chip, dichos requisitos de ancho de banda se reducen drásticamente. [21] En lugar de la memoria caché ampliamente utilizada en dispositivos de procesamiento general, los DLP siempre usan memoria scratchpad, ya que podría proporcionar mayores oportunidades de reutilización de datos al aprovechar el patrón de acceso a datos relativamente regular en algoritmos de aprendizaje profundo. Con respecto a la lógica de control, a medida que los algoritmos de aprendizaje profundo siguen evolucionando a una velocidad dramática, los DLP comienzan a aprovechar la ISA dedicada (arquitectura de conjunto de instrucciones) para soportar el dominio de aprendizaje profundo de manera flexible. Al principio, DianNao usó un conjunto de instrucciones de estilo VLIW donde cada instrucción podía terminar una capa en una DNN. Cambricon [75] presenta la primera ISA específica del dominio de aprendizaje profundo, que podría soportar más de diez algoritmos de aprendizaje profundo diferentes. TPU también revela cinco instrucciones clave de la ISA de estilo CISC.

DLP híbridos

Los DLP híbridos surgen para la inferencia de DNN y la aceleración del entrenamiento debido a su alta eficiencia. Las arquitecturas de procesamiento en memoria (PIM) son uno de los tipos más importantes de DLP híbrido. El concepto de diseño clave de PIM es cerrar la brecha entre la computación y la memoria, de las siguientes maneras: 1) Mover los componentes de computación a celdas de memoria, controladores o chips de memoria para aliviar el problema de la pared de memoria. [72] [76] [77] Estas arquitecturas acortan significativamente las rutas de datos y aprovechan un ancho de banda interno mucho mayor, lo que resulta en una mejora atractiva del rendimiento. 2) Construir motores DNN de alta eficiencia mediante la adopción de dispositivos computacionales. En 2013, HP Lab demostró la asombrosa capacidad de adoptar la estructura de barra cruzada ReRAM para computación. [78] Inspirados por este trabajo, se proponen tremendos trabajos para explorar la nueva arquitectura y el diseño de sistemas basados ​​en ReRAM, [71] [79] [80] [72] memoria de cambio de fase, [76] [81] [82] etc.

Puntos de referencia

Se pueden utilizar puntos de referencia como MLPerf y otros para evaluar el rendimiento de los aceleradores de IA. [83] La Tabla 2 enumera varios puntos de referencia típicos para aceleradores de IA.

Aplicaciones potenciales

Véase también

Referencias

  1. ^ "Intel presenta el acelerador de inteligencia artificial Movidius Compute Stick USB". 21 de julio de 2017. Archivado desde el original el 11 de agosto de 2017 . Consultado el 11 de agosto de 2017 .
  2. ^ "Inspurs presenta el acelerador de IA GX4". 21 de junio de 2017.
  3. ^ Wiggers, Kyle (6 de noviembre de 2019) [2019], Neural Magic recauda 15 millones de dólares para aumentar la velocidad de inferencia de IA en procesadores estándar, archivado del original el 6 de marzo de 2020 , consultado el 14 de marzo de 2020
  4. ^ "Google diseña procesadores de inteligencia artificial". 18 de mayo de 2016.Google utiliza sus propios aceleradores de IA.
  5. ^ Moss, Sebastian (23 de marzo de 2022). «Nvidia revela la nueva GPU Hopper H100, con 80 mil millones de transistores». Data Center Dynamics . Consultado el 30 de enero de 2024 .
  6. ^ "HUAWEI revela el futuro de la IA móvil en IFA".
  7. ^ "Los procesadores Lunar Lake de Intel llegarán en el tercer trimestre de 2024". Intel .
  8. ^ "Arquitectura AMD XDNA".
  9. ^ "Implementación de transformadores en el motor neuronal de Apple". Investigación sobre aprendizaje automático de Apple . Consultado el 24 de agosto de 2023 .
  10. ^ Jouppi, Norman P.; et al. (24 de junio de 2017). "Análisis del rendimiento en el centro de datos de una unidad de procesamiento tensorial". ACM SIGARCH Computer Architecture News . 45 (2): 1–12. arXiv : 1704.04760 . doi : 10.1145/3140659.3080246 .
  11. ^ "Cómo la innovación en silicio se convirtió en la 'salsa secreta' detrás del éxito de AWS". Amazon Science . 27 de julio de 2022 . Consultado el 19 de julio de 2024 .
  12. ^ Patel, Dylan; Nishball, Daniel; Xie, Myron (9 de noviembre de 2023). "Los nuevos chips de inteligencia artificial de China de Nvidia eluden las restricciones de Estados Unidos". SemiAnalysis . Consultado el 7 de febrero de 2024 .
  13. ^ Dvorak, JC (29 de mayo de 1990). "Inside Track". PC Magazine . Consultado el 26 de diciembre de 2023 .
  14. ^ "Demostración de una red neuronal convolucional de 1993 con el acelerador DSP32". YouTube . 2 de junio de 2014.
  15. ^ ab Zhang, Wei (1988). "Red neuronal de reconocimiento de patrones invariante al cambio y su arquitectura óptica". Actas de la Conferencia Anual de la Sociedad Japonesa de Física Aplicada .
  16. ^ ab Zhang, Wei (1990). "Modelo de procesamiento distribuido paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Óptica Aplicada . 29 (32): 4790–7. Bibcode :1990ApOpt..29.4790Z. doi :10.1364/AO.29.004790. PMID  20577468.
  17. ^ Asanović, K.; Beck, J.; Feldman, J.; Morgan, N.; Wawrzynek, J. (enero de 1994). "Diseño de una supercomputadora de red conexionista". Revista internacional de sistemas neuronales . 4 (4). ResearchGate: 317–26. doi :10.1142/S0129065793000250. PMID  8049794 . Consultado el 26 de diciembre de 2023 .
  18. ^ "El fin de los ordenadores de propósito general (no)". YouTube . 17 de abril de 2015.
  19. ^ ab Gschwind, M.; Salapura, V.; Maischberger, O. (febrero de 1995). "Implementación de red neuronal con uso eficiente del espacio" . Consultado el 26 de diciembre de 2023 .
  20. ^ ab Gschwind, M.; Salapura, V.; Maischberger, O. (1996). "Un bloque de construcción genérico para redes neuronales de Hopfield con aprendizaje en chip". Simposio internacional IEEE de 1996 sobre circuitos y sistemas. Circuitos y sistemas que conectan el mundo. ISCAS 96. págs. 49–52. doi :10.1109/ISCAS.1996.598474. ISBN 0-7803-3073-0. Número de identificación del S2C:  17630664.
  21. ^ abcd Chen, Tianshi; Du, Zidong; Sol, Ninghui; Wang, Jia; Wu, Chengyong; Chen, Yunji; Temam, Olivier (5 de abril de 2014). "Dian Nao". Noticias de arquitectura informática de ACM SIGARCH . 42 (1): 269–284. doi : 10.1145/2654822.2541967 . ISSN  0163-5964.
  22. ^ abc Chen, Yunji; Luo, Tao; Liu, Shaoli; Zhang, Shijin; Él, Liqiang; Wang, Jia; Li, Ling; Chen, Tianshi; Xu, Zhiwei; Sol, Ninghui; Temam, Olivier (diciembre de 2014). "DaDianNao: una supercomputadora de aprendizaje automático". 2014 47º Simposio Internacional Anual IEEE/ACM sobre Microarquitectura . IEEE. págs. 609–622. doi :10.1109/micro.2014.58. ISBN 978-1-4799-6998-2.S2CID6838992  .​
  23. ^ abc Du, Zidong; Fasthuber, Robert; Chen, Tianshi; Ienne, Paolo; Li, Ling; Luo, Tao; Feng, Xiaobing; Chen, Yunji; Temam, Olivier (4 de enero de 2016). "ShiDianNao". ACM SIGARCH Computer Architecture News . 43 (3S): 92–104. doi :10.1145/2872887.2750389. ISSN  0163-5964.
  24. ^ abc Liu, Daofu; Chen, Tianshi; Liu, Shaoli; Zhou, Jinhong; Zhou, Shengyuan; Temán, Olivier; Feng, Xiaobing; Zhou, Xuehai; Chen, Yunji (29 de mayo de 2015). "PuDian Nao". Noticias de arquitectura informática de ACM SIGARCH . 43 (1): 369–381. doi :10.1145/2786763.2694358. ISSN  0163-5964.
  25. ^ Chen, Yunji; Chen, Tianshi; Xu, Zhiwei; Sol, Ninghui; Temam, Olivier (28 de octubre de 2016). "Familia DianNao". Comunicaciones de la ACM . 59 (11): 105-112. doi :10.1145/2996864. ISSN  0001-0782. S2CID  207243998.
  26. ^ "Qualcomm ayuda a que sus dispositivos móviles sean más inteligentes con el nuevo kit de desarrollo de software de aprendizaje automático Snapdragon". Qualcomm .
  27. ^ Rubin, Ben Fox. "La plataforma Zeroth de Qualcomm podría hacer que tu teléfono inteligente sea mucho más inteligente". CNET . Consultado el 28 de septiembre de 2021 .
  28. ^ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). "Procesamiento sinérgico en la arquitectura multinúcleo de la célula". IEEE Micro . 26 (2): 10–24. doi :10.1109/MM.2006.41. S2CID  17834015.
  29. ^ De Fabritiis, G. (2007). "Rendimiento del procesador celular para simulaciones biomoleculares". Computer Physics Communications . 176 (11–12): 660–664. arXiv : physics/0611201 . Código Bibliográfico :2007CoPhC.176..660D. doi :10.1016/j.cpc.2007.02.107. S2CID  13871063.
  30. ^ Procesamiento y recuperación de vídeo en la arquitectura celular . CiteSeerX 10.1.1.138.5133 . 
  31. ^ Benthin, Carsten; Wald, Ingo; Scherbaum, Michael; Friedrich, Heiko (2006). Simposio IEEE de 2006 sobre trazado de rayos interactivo . págs. 15-23. CiteSeerX 10.1.1.67.8982 . doi :10.1109/RT.2006.280210. ISBN  978-1-4244-0693-7.S2CID1198101  .​
  32. ^ "Desarrollo de una red neuronal artificial sobre una arquitectura multinúcleo heterogénea para predecir una pérdida de peso exitosa en individuos obesos" (PDF) . Archivado desde el original (PDF) el 30 de agosto de 2017. Consultado el 14 de noviembre de 2017 .
  33. ^ Kwon, Bomjun; Choi, Taiho; Chung, Heejin; Kim, Geonho (2008). 2008, 5.ª Conferencia sobre redes y comunicaciones para consumidores del IEEE . págs. 1030–1034. doi :10.1109/ccnc08.2007.235. ISBN . 978-1-4244-1457-4. Número de identificación del sujeto  14429828.
  34. ^ Duan, Rubing; Strey, Alfred (2008). Euro-Par 2008 – Procesamiento paralelo . Apuntes de clase en informática. Vol. 5168. págs. 665–675. doi :10.1007/978-3-540-85451-7_71. ISBN 978-3-540-85450-0.
  35. ^ "Mejora del rendimiento del vídeo con AVX". 8 de febrero de 2012.
  36. ^ Chellapilla, K.; Sidd Puri; Simard, P. (23 de octubre de 2006). "Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos". 10.º Taller internacional sobre fronteras en el reconocimiento de escritura a mano . Consultado el 23 de diciembre de 2023 .
  37. ^ Krizhevsky, A.; Sutskever, I.; Hinton, GE (24 de mayo de 2017). "Clasificación ImageNet con redes neuronales convolucionales profundas". Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 .
  38. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (24 de mayo de 2017). "Clasificación ImageNet con redes neuronales convolucionales profundas". Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 .
  39. ^ Roe, R. (17 de mayo de 2023). "Nvidia en el asiento del conductor para el aprendizaje profundo". insideHPC . Consultado el 23 de diciembre de 2023 .
  40. ^ Bohn, D. (5 de enero de 2016). «Nvidia anuncia una 'supercomputadora' para coches autónomos en el CES 2016». Vox Media . Consultado el 23 de diciembre de 2023 .
  41. ^ "Una encuesta sobre la implementación optimizada de modelos de aprendizaje profundo en la plataforma NVIDIA Jetson", 2019
  42. ^ ab Harris, Mark (11 de mayo de 2017). «Se revelan las características de CUDA 9: Volta, grupos cooperativos y más» . Consultado el 12 de agosto de 2017 .
  43. ^ "Cumbre: la supercomputadora de 200 petaflops del Laboratorio Nacional de Oak Ridge". Departamento de Energía de los Estados Unidos . 2024 . Consultado el 8 de enero de 2024 .
  44. ^ Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan (agosto de 2019). "Aceleración de puntos calientes en redes neuronales profundas en un FPGA basado en CAPI". 2019 IEEE 21.ª Conferencia internacional sobre informática y comunicaciones de alto rendimiento; IEEE 17.ª Conferencia internacional sobre ciudades inteligentes; IEEE 5.ª Conferencia internacional sobre ciencia de datos y sistemas (HPCC/SmartCity/DSS) . págs. 248–256. doi :10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN . 978-1-7281-2058-4.S2CID203656070  .​
  45. ^ "Los aceleradores de aprendizaje profundo basados ​​en FPGA se enfrentan a los ASIC". The Next Platform . 23 de agosto de 2016 . Consultado el 7 de septiembre de 2016 .
  46. ^ "Microsoft presenta Project Brainwave para inteligencia artificial en tiempo real". Microsoft . 22 de agosto de 2017.
  47. ^ "Google potencia el aprendizaje automático con su unidad de procesamiento tensorial". 19 de mayo de 2016. Consultado el 13 de septiembre de 2016 .
  48. ^ "Un chip podría llevar el aprendizaje profundo a los dispositivos móviles". www.sciencedaily.com . 3 de febrero de 2016 . Consultado el 13 de septiembre de 2016 .
  49. ^ "Google Cloud anuncia la quinta generación de sus TPU personalizadas". 29 de agosto de 2023.
  50. ^ "Aprendizaje profundo con precisión numérica limitada" (PDF) .
  51. ^ Rastegari, Mohammad; Ordóñez, Vicente; Redmon, José; Farhadi, Ali (2016). "XNOR-Net: clasificación de ImageNet mediante redes neuronales convolucionales binarias". arXiv : 1603.05279 [cs.CV].
  52. ^ Lucian Armasu (23 de mayo de 2018). "Intel lanzará Spring Crest, su primer procesador de redes neuronales, en 2019". Tom's Hardware . Consultado el 23 de mayo de 2018 . Intel dijo que el NNP-L1000 también admitiría bfloat16, un formato numérico que está siendo adoptado por todos los actores de la industria de ML para redes neuronales. La compañía también admitirá bfloat16 en sus FPGA, Xeon y otros productos de ML. El lanzamiento del Nervana NNP-L1000 está programado para 2019.
  53. ^ Joshua V. Dillon; Ian Langmore; Dustin Tran; Eugene Brevdo; Srinivas Vasudevan; Dave Moore; Brian Patton; Alex Alemi; Matt Hoffman; Rif A. Saurous (28 de noviembre de 2017). Distribuciones de TensorFlow (informe). arXiv : 1711.10604 . Bibcode :2017arXiv171110604D. Consultado el 23 de mayo de 2018. Todas las operaciones en distribuciones de TensorFlow son numéricamente estables en todas las precisiones de punto flotante simple, doble y medio (como los tipos de datos de TensorFlow: tf.bfloat16 (punto flotante truncado), tf.float16, tf.float32, tf.float64). Los constructores de clase tienen un indicador validation_args para las afirmaciones numéricas.
  54. ^ Woodie, Alex (1 de noviembre de 2021). "Cerebras pisa el acelerador para las cargas de trabajo de aprendizaje profundo". Datanami . Consultado el 3 de agosto de 2022 .
  55. ^ "Cerebras lanza un nuevo procesador de supercomputación de IA con 2,6 billones de transistores". VentureBeat . 20 de abril de 2021 . Consultado el 3 de agosto de 2022 .
  56. ^ Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). "Detección de correlación temporal utilizando memoria de cambio de fase computacional". Nature Communications . 8 (1): 1115. arXiv : 1706.00511 . Bibcode :2017NatCo...8.1115S. doi :10.1038/s41467-017-01481-9. PMC 5653661 . PMID  29062022. 
  57. ^ "Una nueva arquitectura inspirada en el cerebro podría mejorar la forma en que las computadoras manejan los datos y hacer avanzar la IA". Instituto Americano de Física . 3 de octubre de 2018 . Consultado el 5 de octubre de 2018 .
  58. ^ Carlos Ríos; Nathan Youngblood; Zengguang Cheng; Manuel Le Gallo; Wolfram HP Pernice; C. David Wright; Abu Sebastián; Harish Bhaskaran (2018). "Computación en memoria sobre una plataforma fotónica". Avances científicos . 5 (2): eau5759. arXiv : 1801.06228 . Código Bib : 2019SciA....5.5759R. doi : 10.1126/sciadv.aau5759. PMC 6377270 . PMID  30793028. S2CID  7637801. 
  59. ^ Zhong Sun; Giacomo Pedretti; Elia Ambrosi; Alessandro Bricalli; Wei Wang; Daniele Ielmini (2019). "Resolución de ecuaciones matriciales en un paso con matrices resistivas de punto de cruce". Actas de la Academia Nacional de Ciencias . 116 (10): 4123–4128. Bibcode :2019PNAS..116.4123S. doi : 10.1073/pnas.1815682116 . PMC 6410822 . PMID  30782810. 
  60. ^ ab Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Lógica en memoria basada en un semiconductor atómicamente delgado". Naturaleza . 587 (2): 72–77. Código Bib :2020Natur.587...72M. doi :10.1038/s41586-020-2861-0. PMC 7116757 . PMID  33149289. 
  61. ^ abc Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). "Procesamiento convolucional paralelo utilizando un tensor fotónico integrado". Nature . 589 (2): 52–58. arXiv : 2002.00281 . doi :10.1038/s41586-020-03070-1. PMID  33408373. S2CID  211010976.
  62. ^ "Los chips fotónicos frenan el apetito energético del entrenamiento de IA - IEEE Spectrum".
  63. ^ "NVIDIA lanza la primera unidad de procesamiento gráfico del mundo, la GeForce 256". Archivado desde el original el 27 de febrero de 2016.
  64. ^ "Intel incorporará una unidad de procesamiento 'VPU' a los chips Meteor Lake de 14.ª generación". PCMAG .
  65. ^ abc Chen, Yu-Hsin; Emer, Joel; Sze, Vivienne (2017). "Eyeriss: una arquitectura espacial para el flujo de datos energéticamente eficiente para redes neuronales convolucionales". IEEE Micro : 1. doi :10.1109/mm.2017.265085944. hdl : 1721.1/102369 . ISSN  0272-1732.
  66. ^ ab Han, Song; Liu, Xingyu; Mao, Huizi; Pu, Jing; Pedram, Ardavan; Horowitz, Mark A.; Dally, William J. (3 de febrero de 2016). EIE: motor de inferencia eficiente en redes neuronales profundas comprimidas . OCLC  1106232247.
  67. ^ Reagen, Brandon; Whatmough, Paul; Adolf, Robert; Rama, Saketh; Lee, Hyunkwang; Lee, Sae Kyu; Hernandez-Lobato, Jose Miguel; Wei, Gu-Yeon; Brooks, David (junio de 2016). "Minerva: Habilitación de aceleradores de redes neuronales profundas de alta precisión y bajo consumo de energía". 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA) . Seúl: IEEE. págs. 267–278. doi :10.1109/ISCA.2016.32. ISBN 978-1-4673-8947-1.
  68. ^ Judd, Patrick; Albericio, Jorge; Moshovos, Andreas (1 de enero de 2017). "Stripes: Computación en redes neuronales profundas en serie de bits". IEEE Computer Architecture Letters . 16 (1): 80–83. doi :10.1109/lca.2016.2597140. ISSN  1556-6056. S2CID  3784424.
  69. ^ abc Jouppi, N.; Young, C.; Patil, N.; Patterson, D. (24 de junio de 2017). Análisis del rendimiento en el centro de datos de una unidad de procesamiento tensorial . Association for Computing Machinery . págs. 1–12. doi : 10.1145/3079856.3080246 . ISBN . 9781450348928.S2CID 4202768  .
  70. ^ "Tarjeta aceleradora de inteligencia MLU 100" (en japonés). Cambricon. 2024. Consultado el 8 de enero de 2024 .
  71. ^ ab Chi, Ping; Li, Shuangchen; Xu, Cong; Zhang, Tao; Zhao, Jishen; Liu, Yongpan; Wang, Yu; Xie, Yuan (junio de 2016). "PRIME: una nueva arquitectura de procesamiento en memoria para computación de redes neuronales en memoria principal basada en ReRAM". 43.° Simposio internacional anual sobre arquitectura informática (ISCA) de la ACM/IEEE de 2016. IEEE. págs. 27–39. doi :10.1109/isca.2016.13. ISBN. 978-1-4673-8947-1.
  72. ^ abc Song, Linghao; Qian, Xuehai; Li, Hai ; Chen, Yiran (febrero de 2017). "PipeLayer: un acelerador basado en ReRAM segmentado para el aprendizaje profundo". Simposio internacional IEEE de 2017 sobre arquitectura informática de alto rendimiento (HPCA) . IEEE. págs. 541–552. doi :10.1109/hpca.2017.55. ISBN. 978-1-5090-4985-1. Número de identificación del sujeto  15281419.
  73. ^ Shin, Dongjoo; Lee, Jinmook; Lee, Jinsu; Yoo, Hoi-Jun (2017). "14.2 DNPU: un procesador CNN-RNN reconfigurable 8.1TOPS/W para redes neuronales profundas de uso general". Conferencia Internacional de Circuitos de Estado Sólido (ISSCC) de IEEE 2017 . págs. 240-241. doi :10.1109/ISSCC.2017.7870350. ISBN 978-1-5090-3758-2. S2CID  206998709 . Consultado el 24 de agosto de 2023 .
  74. ^ Lee, Jinmook; Kim, Changhyeon; Kang, Sanghoon; Shin, Dongjoo; Kim, Sangyeob; Yoo, Hoi-Jun (2018). "UNPU: Un acelerador de redes neuronales profundas unificadas de 50,6 TOPS/W con precisión de bits de peso totalmente variable de 1b a 16b". 2018 IEEE International Solid-State Circuits Conference (ISSCC) . págs. 218–220. doi :10.1109/ISSCC.2018.8310262. ISBN . 978-1-5090-4940-0. S2CID  3861747 . Consultado el 30 de noviembre de 2023 .
  75. ^ Liu, Shaoli; Du, Zidong; Tao, Jinhua; Han, Dong; Luo, Tao; Xie, Yuan; Chen, Yunji; Chen, Tianshi (junio de 2016). "Cambricon: una arquitectura de conjunto de instrucciones para redes neuronales". 43.° Simposio internacional anual sobre arquitectura informática (ISCA) de la ACM/IEEE de 2016. IEEE. págs. 393–405. doi :10.1109/isca.2016.42. ISBN. 978-1-4673-8947-1.
  76. ^ ab Ambrogio, Stefano; Narayanan, Pritish; Tsai, Hsinyu; Shelby, Robert M.; Boybat, Irem; di Nolfo, Carmelo; Sidler, Severin; Giordano, Massimo; Bodini, Martina; Farinha, Nathan CP; Killeen, Benjamin (junio de 2018). "Entrenamiento acelerado de redes neuronales con precisión equivalente utilizando memoria analógica". Nature . 558 (7708): 60–67. Bibcode :2018Natur.558...60A. doi :10.1038/s41586-018-0180-5. ISSN  0028-0836. PMID  29875487. S2CID  46956938.
  77. ^ Chen, Wei-Hao; Lin, Wen-Jang; Lai, Li-Ya; Li, Shuangchen; Hsu, Chien-Hua; Lin, Huan-Ting; Lee, Heng-Yuan; Su, Jian-Wei; Xie, Yuan; Sheu, Shyh-Shyuan; Chang, Meng-Fan (diciembre de 2017). "Una macro ReRAM de modo dual de 16 Mb con computación en memoria sub-14 ns y funciones de memoria habilitadas por un esquema de terminación de autoescritura". 2017 IEEE International Electron Devices Meeting (IEDM) . IEEE. págs. 28.2.1–28.2.4. doi :10.1109/iedm.2017.8268468. ISBN. 978-1-5386-3559-9.S2CID 19556846  .
  78. ^ Yang, J. Joshua; Strukov, Dmitri B.; Stewart, Duncan R. (enero de 2013). "Dispositivos memristivos para computación". Nature Nanotechnology . 8 (1): 13–24. Bibcode :2013NatNa...8...13Y. doi :10.1038/nnano.2012.240. ISSN  1748-3395. PMID  23269430.
  79. ^ Shafiee, Ali; Nag, Anirban; Muralimanohar, Naveen; Balasubramonian, Rajeev; Strachan, Juan Pablo; Hu, Miao; Williams, R. Stanley; Srikumar, Vivek (12 de octubre de 2016). "ISAAC". Noticias de arquitectura informática de ACM SIGARCH . 44 (3): 14-26. doi :10.1145/3007787.3001139. ISSN  0163-5964. S2CID  6329628.
  80. ^ Ji, Yu Zhang, Youyang Xie, Xinfeng Li, Shuangchen Wang, Peiqi Hu, Xing Zhang, Youhui Xie, Yuan (27 de enero de 2019). FPSA: una solución de pila de sistema completa para arquitectura de acelerador NN reconfigurable basada en ReRAM . OCLC  1106329050.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  81. ^ Nandakumar, SR; Boybat, Irem; Joshi, Vinay; Piveteau, Christophe; Le Gallo, Manuel; Rajendran, Bipin; Sebastian, Abu; Eleftheriou, Evangelos (noviembre de 2019). "Modelos de memoria de cambio de fase para entrenamiento e inferencia de aprendizaje profundo". 2019 26.ª Conferencia internacional IEEE sobre electrónica, circuitos y sistemas (ICECS) . IEEE. págs. 727–730. doi :10.1109/icecs46596.2019.8964852. ISBN . 978-1-7281-0996-1.S2CID210930121  .​
  82. ^ Joshi, Vinay; Le Gallo, Manuel; Haefeli, Simon; Boybat, Irem; Nandakumar, SR; Piveteau, Christophe; Dazzi, Martino; Rajendran, Bipin; Sebastian, Abu; Eleftheriou, Evangelos (18 de mayo de 2020). "Inferencia precisa de redes neuronales profundas utilizando memoria computacional de cambio de fase". Nature Communications . 11 (1): 2473. arXiv : 1906.03138 . Bibcode :2020NatCo..11.2473J. doi : 10.1038/s41467-020-16108-9 . ISSN  2041-1723. PMC 7235046 . PMID  32424184. 
  83. ^ "Nvidia afirma haber logrado un 'rendimiento récord' en el debut de Hopper MLPerf".
  84. ^ "Desarrollo de un sistema de visión artificial para el control de malezas mediante la aplicación de productos químicos de precisión" (PDF) . Universidad de Florida . CiteSeerX 10.1.1.7.342 . Archivado desde el original (PDF) el 23 de junio de 2010. 
  85. ^ "Tecnología y soluciones para vehículos autónomos de NVIDIA Automotive". NVIDIA .
  86. ^ "Movidius impulsa el dron más inteligente del mundo". 16 de marzo de 2016.
  87. ^ "Qualcomm Research lleva el aprendizaje automático de nivel de servidor a los dispositivos cotidianos, haciéndolos más inteligentes [VIDEO]". Octubre de 2015.

Enlaces externos