stringtranslate.com

Base de datos MNIST

Imágenes de muestra de MNIST
Imágenes de muestra del conjunto de datos de prueba MNIST

La base de datos MNIST ( base de datos modificada del Instituto Nacional de Estándares y Tecnología [1] ) es una gran base de datos de dígitos escritos a mano que se usa comúnmente para entrenar varios sistemas de procesamiento de imágenes . [2] [3] La base de datos también se usa ampliamente para capacitación y pruebas en el campo del aprendizaje automático . [4] [5] Fue creado "remezclando" las muestras de los conjuntos de datos originales del NIST. [6] Los creadores sintieron que, dado que el conjunto de datos de capacitación del NIST se tomó de empleados de la Oficina del Censo estadounidense , mientras que el conjunto de datos de prueba se tomó de estudiantes de secundaria estadounidenses , no era adecuado para experimentos de aprendizaje automático. [7] Además, las imágenes en blanco y negro del NIST se normalizaron para que quepan en un cuadro delimitador de 28x28 píxeles y se suavizaron , lo que introdujo niveles de escala de grises. [7]

La base de datos MNIST contiene 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba. [8] La mitad del conjunto de entrenamiento y la mitad del conjunto de prueba se tomaron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad del conjunto de entrenamiento y la otra mitad del conjunto de prueba se tomaron del conjunto de datos de prueba del NIST. [9] Los creadores originales de la base de datos mantienen una lista de algunos de los métodos probados en ella. [7] En su artículo original, utilizan una máquina de vectores de soporte para obtener una tasa de error del 0,8%. [10]

MNIST extendido (EMNIST) es un conjunto de datos más nuevo desarrollado y publicado por NIST para ser el sucesor (final) de MNIST. [11] [12] MNIST incluyó imágenes solo de dígitos escritos a mano. EMNIST incluye todas las imágenes de NIST Special Database 19, que es una gran base de datos de letras mayúsculas y minúsculas escritas a mano, así como de dígitos. [13] [14] Las imágenes en EMNIST se convirtieron al mismo formato de 28x28 píxeles, mediante el mismo proceso, que las imágenes MNIST. En consecuencia, las herramientas que funcionan con el conjunto de datos MNIST más antiguo y más pequeño probablemente funcionarán sin modificaciones con EMNIST.

Historia

El conjunto de imágenes en la base de datos MNIST se creó en 1994 [15] como una combinación de dos bases de datos del NIST : Base de datos especial 1 y Base de datos especial 3. La Base de datos especial 1 y la Base de datos especial 3 constan de dígitos escritos por estudiantes de secundaria y empleados de la Oficina del Censo de Estados Unidos , respectivamente. [7]

El conjunto de datos original era un conjunto de imágenes binarias de 128x128, procesadas en imágenes en escala de grises de 28x28. Originalmente había 60.000 muestras tanto en el conjunto de entrenamiento como en el conjunto de prueba, pero se descartaron 50.000 del conjunto de prueba. Consulte [16] para obtener un historial detallado y una reconstrucción del conjunto de pruebas descartado.

Actuación

Algunos investigadores han logrado un "rendimiento casi humano" en la base de datos MNIST, utilizando un comité de redes neuronales; En el mismo artículo, los autores logran un rendimiento el doble que el de los humanos en otras tareas de reconocimiento. [17] La ​​tasa de error más alta que figura [7] en el sitio web original de la base de datos es del 12 por ciento, que se logra utilizando un clasificador lineal simple sin preprocesamiento. [10]

En 2004, los investigadores lograron una tasa de error del 0,42 por ciento en la base de datos utilizando un nuevo clasificador llamado LIRA, que es un clasificador neuronal con tres capas neuronales basado en los principios del perceptrón de Rosenblatt. [18]

Algunos investigadores han probado sistemas de inteligencia artificial utilizando bases de datos sometidas a distorsiones aleatorias. Los sistemas en estos casos suelen ser redes neuronales y las distorsiones utilizadas tienden a ser distorsiones afines o distorsiones elásticas . [7] A veces, estos sistemas pueden tener mucho éxito; uno de estos sistemas logró una tasa de error en la base de datos del 0,39 por ciento. [19]

En 2011, investigadores que utilizaron un sistema similar de redes neuronales informaron una tasa de error del 0,27 por ciento, lo que mejora el mejor resultado anterior. [20] En 2013, se afirmó que un enfoque basado en la regularización de redes neuronales utilizando DropConnect lograba una tasa de error del 0,21 por ciento. [21] En 2016, el mejor rendimiento de una única red neuronal convolucional fue una tasa de error del 0,25 por ciento. [22] En agosto de 2018, el mejor rendimiento de una única red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos es una tasa de error del 0,25 por ciento. [22] [23] Además, el Centro de Computación Paralela (Khmelnytskyi, Ucrania) obtuvo un conjunto de solo 5 redes neuronales convolucionales que funcionan en MNIST con una tasa de error del 0,21 por ciento. [24] [25] Algunas imágenes en el conjunto de datos de prueba son apenas legibles y pueden impedir alcanzar tasas de error de prueba del 0%. [26] En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% con tres tipos de redes neuronales apiladas simultáneamente (redes neuronales totalmente conectadas, recurrentes y convolucionales). [27]

Clasificadores

Esta es una tabla de algunos de los métodos de aprendizaje automático utilizados en el conjunto de datos y sus tasas de error, por tipo de clasificador :

Ver también

Referencias

  1. ^ "LA BASE DE DATOS MNIST de dígitos escritos a mano". Yann LeCun , Instituto Courant, Universidad de Nueva York Corinna Cortes, Google Labs, Nueva York Christopher JC Burges, Microsoft Research, Redmond.
  2. ^ "Admite reconocimiento de patrones de velocidad de máquinas vectoriales: diseño de sistemas de visión". Diseño de Sistemas de Visión . Septiembre de 2004 . Consultado el 17 de agosto de 2013 .
  3. ^ Gangaputra, Sachin. "Base de datos de dígitos escritos a mano" . Consultado el 17 de agosto de 2013 .
  4. ^ Qiao, Yu (2007). «LA BASE DE DATOS MNIST de dígitos escritos a mano» . Consultado el 18 de agosto de 2013 .
  5. ^ Platt, John C. (1999). "Uso de QP analítico y escasez para acelerar el entrenamiento de máquinas de vectores de soporte" (PDF) . Avances en los sistemas de procesamiento de información neuronal : 557–563. Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 18 de agosto de 2013 .
  6. ^ Grother, Patrick J. "Base de datos especial 19 del NIST: base de datos de caracteres y formularios impresos a mano" (PDF) . Instituto Nacional de Estándares y Tecnología .
  7. ^ abcdef LeCun, Yann; Cortés, Corinna; Burges, Christopher CJ "La base de datos de dígitos escritos a mano del MNIST". Sitio web de Yann LeCun yann.lecun.com . Consultado el 30 de abril de 2020 .
  8. ^ Kussul, Ernst; Baidyk, Tatiana (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST". Computación de Imagen y Visión . 22 (12): 971–981. doi :10.1016/j.imavis.2004.03.008.
  9. ^ Zhang, contenedor; Srihari, Sargur N. (2004). "Clasificación rápida de k vecinos más cercanos utilizando árboles basados ​​en clústeres" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 26 (4): 525–528. doi :10.1109/TPAMI.2004.1265868. PMID  15382657. S2CID  6883417 . Consultado el 20 de abril de 2020 .
  10. ^ abcd LeCun, Yann; León Bottou; Yoshua Bengio; Patricio Haffner (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) . Actas del IEEE . 86 (11): 2278–2324. doi : 10.1109/5.726791. S2CID  14542261 . Consultado el 18 de agosto de 2013 .
  11. ^ NIST (4 de abril de 2017). "El conjunto de datos EMNIST". NIST . Consultado el 11 de abril de 2022 .
  12. ^ NIST (27 de agosto de 2010). "Base de datos especial NIST 19". NIST . Consultado el 11 de abril de 2022 .
  13. ^ Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). "EMNIST: una extensión de MNIST para cartas escritas a mano". arXiv : 1702.05373 [cs.CV].
  14. ^ Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). "EMNIST: una extensión de MNIST para cartas escritas a mano". arXiv : 1702.05373v1 [cs.CV].
  15. ^ L. Bottou et al., "Comparación de métodos clasificadores: un estudio de caso sobre el reconocimiento de dígitos escritos a mano", Actas de la 12.ª Conferencia internacional de la IAPR sobre reconocimiento de patrones, vol. 3 - Conferencia C: Procesamiento de señales (Cat. No.94CH3440-5), Jerusalén, Israel, 1994, págs. 77-82 vol.2, doi: 10.1109/ICPR.1994.576879.
  16. ^ Yadav, Chhavi; Bottou, León (2019). "Caso sin resolver: los dígitos perdidos del MNIST". Avances en los sistemas de procesamiento de información neuronal . 32 . Curran Associates, Inc. arXiv : 1905.10498 .
  17. ^ ab Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber (2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes" (PDF) . Conferencia IEEE 2012 sobre visión por computadora y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi :10.1109/CVPR.2012.6248110. ISBN  978-1-4673-1228-8. S2CID  2161592.
  18. ^ Kussul, Ernst; Tatiana Baidyk (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST" (PDF) . Computación de Imagen y Visión . 22 (12): 971–981. doi :10.1016/j.imavis.2004.03.008. Archivado desde el original (PDF) el 21 de septiembre de 2013 . Consultado el 20 de septiembre de 2013 .
  19. ^ Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun (2006). "Aprendizaje eficiente de representaciones dispersas con un modelo basado en energía" (PDF) . Avances en los sistemas de procesamiento de información neuronal . 19 : 1137-1144 . Consultado el 20 de septiembre de 2013 .
  20. ^ Ciresano, Dan Claudiu; Ueli Meier; Luca María Gambardella; Jürgen Schmidhuber (2011). "Comités de redes neuronales convolucionales para clasificación de caracteres escritos a mano" (PDF) . 2011 Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) . págs. 1135-1139. CiteSeerX 10.1.1.465.2138 . doi :10.1109/ICDAR.2011.229. ISBN  978-1-4577-1350-7. S2CID  10122297. Archivado desde el original (PDF) el 22 de febrero de 2016 . Consultado el 20 de septiembre de 2013 .
  21. ^ Wan, Li; Mateo Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularización de Red Neuronal mediante DropConnect . Conferencia Internacional sobre Aprendizaje Automático (ICML).
  22. ^ abc SimpleNet (2016). "Mantengámoslo simple, usando arquitecturas simples para superar a las arquitecturas más profundas y complejas". arXiv : 1608.06037 . Consultado el 3 de diciembre de 2020 .
  23. ^ SimpNet (2018). "Hacia un diseño basado en principios de redes convolucionales profundas: presentación de SimpNet". Github . arXiv : 1802.06205 . Consultado el 3 de diciembre de 2020 .
  24. ^ ab Romanuke, Vadim. "El Centro de Computación Paralela (Khmelnytskyi, Ucrania) representa un conjunto de cinco redes neuronales convolucionales que funcionan en MNIST con una tasa de error del 0,21 por ciento" . Consultado el 24 de noviembre de 2016 .
  25. ^ ab Romanuke, Vadim (2016). "Entrenamiento de expansión de datos e impulso de redes neuronales convolucionales para reducir la tasa de error del conjunto de datos MNIST". Boletín de investigación del NTUU "Instituto Politécnico de Kiev" . 6 (6): 29–34. doi : 10.20535/1810-0546.2016.6.84115 .
  26. ^ Clasificador MNIST, GitHub. "Clasificar dígitos MNIST utilizando redes neuronales convolucionales". GitHub . Consultado el 3 de agosto de 2018 .
  27. ^ ab Kowsari, Kamran; Heidarysafa, Mojtaba; Marrón, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. (3 de mayo de 2018). "RMDL: aprendizaje profundo multimodelo aleatorio para clasificación". Actas de la Segunda Conferencia Internacional sobre Sistemas de Información y Minería de Datos . págs. 19-28. arXiv : 1805.01890 . doi :10.1145/3206098.3206111. ISBN 9781450363549. S2CID  19208611.
  28. ^ Lindblad, Joakim; Nataša Sladoje (enero de 2014). "Distancias de tiempo lineal entre conjuntos difusos con aplicaciones a clasificación y coincidencia de patrones". Transacciones IEEE sobre procesamiento de imágenes . 23 (1): 126-136. Código Bib : 2014ITIP...23..126L. doi :10.1109/TIP.2013.2286904. PMID  24158476. S2CID  1908950.
  29. ^ Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney (agosto de 2007). "Modelos de deformación para el reconocimiento de imágenes". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 29 (8): 1422-1435. CiteSeerX 10.1.1.106.3963 . doi :10.1109/TPAMI.2007.1153. PMID  17568145. S2CID  2528485. 
  30. ^ Kégl, Balázs; Róbert Busa-Fekete (2009). "Impulso de productos de clasificadores base" (PDF) . Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático . págs. 497–504. doi :10.1145/1553374.1553439. ISBN 9781605585161. S2CID  8460779 . Consultado el 27 de agosto de 2013 .
  31. ^ "RandomForestSRC: bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)". 21 de enero de 2020.
  32. ^ "Mehrad Mahmoudian / MNIST con RandomForest".
  33. ^ Decoste, Dennis; Schölkopf, Bernhard (2002). "Entrenamiento de máquinas de vectores de soporte invariantes". Aprendizaje automático . 46 (1–3): 161–190. doi : 10.1023/A:1012454411458 . ISSN  0885-6125. OCLC  703649027.
  34. ^ ab Patrice Y. Simard; Dave Steinkraus; John C. Platt (2003). "Mejores prácticas para redes neuronales convolucionales aplicadas al análisis de documentos visuales". Actas de la Séptima Conferencia Internacional sobre Análisis y Reconocimiento de Documentos . vol. 1. Instituto de Ingenieros Eléctricos y Electrónicos . pag. 958. doi : 10.1109/ICDAR.2003.1227801. ISBN 978-0-7695-1960-9. S2CID  4659176.
  35. ^ Ciresano, Claudiu Dan; Ueli Meier; Luca María Gambardella; Jürgen Schmidhuber (diciembre de 2010). "Excel de redes neuronales simples, grandes y profundas sobre el reconocimiento de dígitos escritos a mano". Computación neuronal . 22 (12): 3207–20. arXiv : 1003.0358 . doi :10.1162/NECO_a_00052. PMID  20858131. S2CID  1918673.
  36. ^ Romanuke, Vadim. "La red neuronal convolucional única tiene el mejor rendimiento en 18 épocas en los datos de entrenamiento ampliados en el Centro de Computación Paralela, Khmelnytskyi, Ucrania" . Consultado el 16 de noviembre de 2016 .
  37. ^ Romanuke, Vadim. "El Centro de Computación Paralela (Khmelnytskyi, Ucrania) ofrece una única red neuronal convolucional que funciona en MNIST con una tasa de error del 0,27 por ciento" . Consultado el 24 de noviembre de 2016 .
  38. ^ Hu, Jie; Shen, Li; Albanie, Samuel; Sol, pandilla; Wu, Enhua (2019). "Redes de compresión y excitación". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 42 (8): 2011-2023. arXiv : 1709.01507 . doi :10.1109/TPAMI.2019.2913372. PMID  31034408. S2CID  140309863.
  39. ^ "GitHub - Matuzas77/MNIST-0.17: clasificador MNIST con error promedio del 0,17%". GitHub . 25 de febrero de 2020.
  40. ^ An, Sanghyeon; Lee, Minjun; Parque, Sanglee; Yang, Heerin; Entonces, Jungmin (04/10/2020). "Un conjunto de modelos de redes neuronales convolucionales simples para el reconocimiento de dígitos MNIST". arXiv : 2008.10400 [cs.CV].

Otras lecturas

enlaces externos