Procesador de aprendizaje profundo
Al principio, se adoptaron CPU generales para realizar algoritmos de aprendizaje profundo.Por ejemplo, en 2012, Alex Krizhevsky adoptó dos GPU para entrenar una red de aprendizaje profundo, la llamada, AlexNet,[3] que ganó el campeonato ISLVRC-2012.[4] A medida que aumenta el interés por los algoritmos de aprendizaje profundo y las DLP, los fabricantes de GPU comienzan a agregar funciones relacionadas con el aprendizaje profundo tanto en hardware (por ejemplo, operadores INT8) como en software (por ejemplo, biblioteca cuDNN).Nvidia incluso lanzó Turing Tensor Core, un DLP, para acelerar el procesamiento de aprendizaje profundo.[5] Para proporcionar una mayor eficiencia en el rendimiento y la energía, el diseño de dominio específico comenzó paulatinamente a llamar mucho la atención.propuso el primer DLP del mundo, DianNao (en chino, "cerebro eléctrico"),[6] para acelerar especialmente las redes neuronales profundas.Posteriormente, los sucesores (DaDianNao,[7] ShiDianNao,[8] PuDianNao[9]) son propuestos por el mismo grupo, formando la Familia DianNao[10] Inspirados en el trabajo pionero de la familia DianNao, se han presentado muchos DLP, tanto en el mundo académico como en el industrial, con un diseño optimizado para aprovechar las características de las redes neuronales profundas para una alta eficiencia.Dichos esfuerzos incluyen Eyeriss[12] (MIT), EIE[13] (Stanford), Minerva[14] (Harvard), Stripes[15] (Universidad de Toronto) en el mundo académico y TPU[16] (Google), MLU[17] (Cambricon) en la industria.Como los DLP analógicos puros rara vez son vistos, la referencia es a los digitales y los híbridos.Los DLP híbridos resaltan por la inferencia de DNN y la aceleración del entrenamiento debido a su alta eficiencia.