Base de datos MNIST

Imágenes de muestra del MNIST — Imágenes de muestra del conjunto de datos de prueba MNIST

La base de datos MNIST ( base de datos modificada del Instituto Nacional de Estándares y Tecnología^[1] ) es una gran base de datos de dígitos escritos a mano que se usa comúnmente para entrenar varios sistemas de procesamiento de imágenes . ^[2]^[3] La base de datos también se usa ampliamente para entrenamiento y pruebas en el campo del aprendizaje automático . ^[4]^[5] Fue creada "remezclando" las muestras de los conjuntos de datos originales del NIST. ^[6] Los creadores sintieron que, dado que el conjunto de datos de entrenamiento del NIST se tomó de empleados de la Oficina del Censo de Estados Unidos , mientras que el conjunto de datos de prueba se tomó de estudiantes de secundaria estadounidenses , no era adecuado para experimentos de aprendizaje automático. ^[7] Además, las imágenes en blanco y negro del NIST se normalizaron para encajar en un cuadro delimitador de 28x28 píxeles y se suavizaron , lo que introdujo niveles de escala de grises. ^[7]

La base de datos MNIST contiene 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba. ^[8] La mitad del conjunto de entrenamiento y la mitad del conjunto de prueba se tomaron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad del conjunto de entrenamiento y la otra mitad del conjunto de prueba se tomaron del conjunto de datos de prueba del NIST. ^[9] Los creadores originales de la base de datos mantienen una lista de algunos de los métodos probados en ella. ^[7] En su artículo original, utilizan una máquina de vectores de soporte para obtener una tasa de error del 0,8 %. ^[10]

El MNIST extendido (EMNIST) es un conjunto de datos más nuevo desarrollado y publicado por el NIST para ser el sucesor (final) del MNIST. ^[11]^[12] El MNIST incluía imágenes solo de dígitos escritos a mano. EMNIST incluye todas las imágenes de la Base de datos especial 19 del NIST, que es una gran base de datos de letras mayúsculas y minúsculas escritas a mano, así como dígitos. ^[13]^[14] Las imágenes en EMNIST se convirtieron al mismo formato de 28x28 píxeles, mediante el mismo proceso, al igual que las imágenes MNIST. En consecuencia, las herramientas que funcionan con el conjunto de datos MNIST más antiguo y más pequeño probablemente funcionarán sin modificaciones con EMNIST.

El conjunto de datos original de MNIST contiene al menos 4 etiquetas erróneas. ^[15]

Historia

El conjunto de imágenes de la base de datos MNIST se creó en 1994 como una combinación de dos de las bases de datos del NIST : la Base de Datos Especial 1 y la Base de Datos Especial 3. ^[16]

La Base de Datos Especial 1 y la Base de Datos Especial 3 constan de dígitos escritos por estudiantes de secundaria y empleados de la Oficina del Censo de los Estados Unidos , respectivamente. ^[7]

El conjunto de datos original era un conjunto de imágenes binarias de 128 x 128, procesadas en imágenes en escala de grises de 28 x 28. El conjunto de entrenamiento y el conjunto de prueba tenían originalmente 60 000 muestras, pero se descartaron 50 000 de las muestras del conjunto de prueba. ^[17]

Fashion MNIST se creó en 2017 como un reemplazo más desafiante de MNIST. El conjunto de datos consta de 70 000 imágenes en escala de grises de 28 x 28 de productos de moda de 10 categorías. ^[18]

Actuación

Algunos investigadores han logrado un "rendimiento casi humano" en la base de datos MNIST, utilizando un comité de redes neuronales ; en el mismo artículo, los autores logran un rendimiento que duplica al de los humanos en otras tareas de reconocimiento. ^[19] La tasa de error más alta que figura ^[7] en el sitio web original de la base de datos es del 12 por ciento, que se logra utilizando un clasificador lineal simple sin preprocesamiento. ^[10]

En 2004, los investigadores lograron una tasa de error en el mejor de los casos del 0,42 por ciento en la base de datos utilizando un nuevo clasificador llamado LIRA, que es un clasificador neuronal con tres capas de neuronas basado en los principios del perceptrón de Rosenblatt . ^[20]

Algunos investigadores han probado sistemas de inteligencia artificial utilizando bases de datos sometidas a distorsiones aleatorias. Los sistemas en estos casos suelen ser redes neuronales y las distorsiones utilizadas tienden a ser distorsiones afines o distorsiones elásticas . ^[7] A veces, estos sistemas pueden tener mucho éxito; uno de estos sistemas logró una tasa de error en la base de datos del 0,39 por ciento. ^[21]

En 2011, investigadores que utilizaron un sistema similar de redes neuronales informaron de una tasa de error del 0,27 por ciento, lo que supone una mejora respecto del mejor resultado anterior. ^[22] En 2013, se afirmó que un enfoque basado en la regularización de redes neuronales utilizando DropConnect logró una tasa de error del 0,21 por ciento. ^[23] En 2016, el mejor rendimiento de una única red neuronal convolucional fue una tasa de error del 0,25 por ciento. ^[24] A fecha de agosto de 2018, el mejor rendimiento de una única red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos es una tasa de error del 0,25 por ciento. ^[24]^[25] Además, el Centro de Computación Paralela (Khmelnytskyi, Ucrania) obtuvo un conjunto de solo 5 redes neuronales convolucionales que funcionan con MNIST a una tasa de error del 0,21 por ciento. ^[26]^[27]

Clasificadores

Esta es una tabla de algunos de los métodos de aprendizaje automático utilizados en el conjunto de datos y sus tasas de error, por tipo de clasificador :

Véase también

Referencias

^ "La base de datos MNIST de dígitos manuscritos". Yann LeCun , Courant Institute, NYU Corinna Cortes, Google Labs, Nueva York Christopher JC Burges, Microsoft Research, Redmond.
^ "Las máquinas de vectores de soporte aceleran el reconocimiento de patrones - Diseño de sistemas de visión". Diseño de sistemas de visión . Septiembre de 2004. Consultado el 17 de agosto de 2013 .
^ Gangaputra, Sachin. "Base de datos de dígitos escritos a mano" . Consultado el 17 de agosto de 2013 .
^ Qiao, Yu (2007). «Base de datos de dígitos manuscritos del MNIST» . Consultado el 18 de agosto de 2013 .
^ Platt, John C. (1999). "Uso de QP analítico y dispersión para acelerar el entrenamiento de máquinas de vectores de soporte" (PDF) . Advances in Neural Information Processing Systems : 557–563. Archivado desde el original (PDF) el 4 de marzo de 2016. Consultado el 18 de agosto de 2013 .
^ Grother, Patrick J. "Base de datos especial NIST 19 - Base de datos de formas y caracteres impresos a mano" (PDF) . Instituto Nacional de Estándares y Tecnología .
^ abcdef LeCun, Yann; Cortez, Corinna; Burges, Christopher CJ "La base de datos de dígitos manuscritos del MNIST". Sitio web de Yann LeCun yann.lecun.com . Consultado el 30 de abril de 2020 .
^ Kussul, Ernst; Baidyk, Tatiana (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST". Image and Vision Computing . 22 (12): 971–981. doi :10.1016/j.imavis.2004.03.008.
^ Zhang, Bin; Srihari, Sargur N. (2004). "Clasificación rápida de k-vecinos más cercanos mediante árboles basados en clústeres" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 26 (4): 525–528. doi :10.1109/TPAMI.2004.1265868. PMID 15382657. S2CID 6883417 . Consultado el 20 de abril de 2020 .
^ abcd LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-Based Learning Applied to Document Recognition" (PDF) . Actas del IEEE . 86 (11): 2278–2324. doi :10.1109/5.726791. S2CID 14542261 . Consultado el 18 de agosto de 2013 .
^ NIST (4 de abril de 2017). «El conjunto de datos EMNIST». NIST . Consultado el 11 de abril de 2022 .
^ NIST (27 de agosto de 2010). «Base de datos especial 19 del NIST». NIST . Consultado el 11 de abril de 2022 .
^ Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). "EMNIST: una extensión de MNIST a las cartas manuscritas". arXiv : 1702.05373 [cs.CV].
^ Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). "EMNIST: una extensión de MNIST a las cartas manuscritas". arXiv : 1702.05373v1 [cs.CV].
^ Muller, Nicolas M.; Markert, Karla (julio de 2019). Identificación de instancias mal etiquetadas en conjuntos de datos de clasificación. Conferencia conjunta internacional sobre redes neuronales (IJCNN) de 2019. IEEE. págs. 1–8. arXiv : 1912.05283 . doi :10.1109/IJCNN.2019.8851920. ISBN . 978-1-7281-1985-4.
^ Bottou, Léon; Cortes, Corinna; Denker, John S.; Drucker, Harris; Guyon, Isabelle; Jackel, LD; LeCun, Y.; Muller, UA; Sackinger, E.; Simard, P.; Vapnik, V. (1994). "Comparación de métodos de clasificación: un estudio de caso en el reconocimiento de dígitos escritos a mano". Actas de la 12.ª Conferencia Internacional de la IAPR sobre Reconocimiento de Patrones (Cat. No.94CH3440-5) . Vol. 2. Jerusalén, Israel. págs. 77–82. doi :10.1109/ICPR.1994.576879. ISBN 0-8186-6270-0.{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ Yadav, Chhavi; Bottou, Leon (2019). "Caso sin resolver: los dígitos perdidos del MNIST". Avances en sistemas de procesamiento de información neuronal . 32. arXiv : 1905.10498 . El artículo contiene una historia detallada y una reconstrucción del conjunto de pruebas descartado.
^ Xiao, Han; Rasul, Kashif; Vollgraf, Roland (15 de septiembre de 2017). "Fashion-MNIST: un nuevo conjunto de datos de imágenes para evaluar comparativamente los algoritmos de aprendizaje automático". arXiv : 1708.07747 [cs.LG].
^ ab Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber (2012). "Redes neuronales profundas de múltiples columnas para la clasificación de imágenes" (PDF) . Conferencia IEEE de 2012 sobre visión artificial y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi :10.1109/CVPR.2012.6248110. ISBN . 978-1-4673-1228-8. Número de identificación del sujeto 2161592.
^ Kussul, Ernst; Tatiana Baidyk (2004). "Método mejorado de reconocimiento de dígitos escritos a mano probado en la base de datos MNIST" (PDF) . Image and Vision Computing . 22 (12): 971–981. doi :10.1016/j.imavis.2004.03.008. Archivado desde el original (PDF) el 21 de septiembre de 2013 . Consultado el 20 de septiembre de 2013 .
^ Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun (2006). "Aprendizaje eficiente de representaciones dispersas con un modelo basado en energía" (PDF) . Avances en sistemas de procesamiento de información neuronal . 19 : 1137–1144 . Consultado el 20 de septiembre de 2013 .
^ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber (2011). "Comités de redes neuronales convolucionales para la clasificación de caracteres manuscritos" (PDF) . 2011 Conferencia internacional sobre análisis y reconocimiento de documentos (ICDAR) . pp. 1135–1139. CiteSeerX 10.1.1.465.2138 . doi :10.1109/ICDAR.2011.229. ISBN . 978-1-4577-1350-7. S2CID 10122297. Archivado desde el original (PDF) el 22 de febrero de 2016 . Consultado el 20 de septiembre de 2013 .
^ Wan, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularización de redes neuronales mediante DropConnect . Conferencia internacional sobre aprendizaje automático (ICML).
^ abc SimpleNet (2016). "Hagámoslo simple, usando arquitecturas simples para superar a arquitecturas más complejas y profundas". arXiv : 1608.06037 . Consultado el 3 de diciembre de 2020 .
^ SimpNet (2018). "Hacia un diseño basado en principios de redes convolucionales profundas: introducción a SimpNet". Github . arXiv : 1802.06205 . Consultado el 3 de diciembre de 2020 .
^ ab Romanuke, Vadim. "El Parallel Computing Center (Khmelnytskyi, Ucrania) representa un conjunto de 5 redes neuronales convolucionales que funcionan en MNIST con una tasa de error del 0,21 por ciento" . Consultado el 24 de noviembre de 2016 .
^ ab Romanuke, Vadim (2016). "Expansión de datos de entrenamiento y potenciación de redes neuronales convolucionales para reducir la tasa de error del conjunto de datos MNIST". Boletín de investigación de NTUU "Instituto Politécnico de Kiev" . 6 (6): 29–34. doi : 10.20535/1810-0546.2016.6.84115 .
^ Deng, Bo (26 de diciembre de 2023). "Entrenamiento sin errores para redes neuronales artificiales". arXiv : 2312.16060 [cs.LG].
^ Lindblad, Joakim; Nataša Sladoje (enero de 2014). "Distancias temporales lineales entre conjuntos difusos con aplicaciones a la comparación de patrones y la clasificación". IEEE Transactions on Image Processing . 23 (1): 126–136. Bibcode :2014ITIP...23..126L. doi :10.1109/TIP.2013.2286904. PMID 24158476. S2CID 1908950.
^ Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney (agosto de 2007). "Modelos de deformación para el reconocimiento de imágenes". IEEE Transactions on Pattern Analysis and Machine Intelligence . 29 (8): 1422–1435. CiteSeerX 10.1.1.106.3963 . doi :10.1109/TPAMI.2007.1153. PMID 17568145. S2CID 2528485.
^ Kégl, Balázs; Róbert Busa-Fekete (2009). "Boosting products of base classifiers" (PDF) . Actas de la 26.ª Conferencia Internacional Anual sobre Aprendizaje Automático . págs. 497–504. doi :10.1145/1553374.1553439. ISBN . 9781605585161. S2CID 8460779 . Consultado el 27 de agosto de 2013 .
^ "RandomForestSRC: Bosques aleatorios unificados y rápidos para supervivencia, regresión y clasificación (RF-SRC)". 21 de enero de 2020.
^ "Mehrad Mahmoudian / MNIST con RandomForest".
^ Decoste, Dennis; Schölkopf, Bernhard (2002). "Entrenamiento de máquinas de vectores de soporte invariantes". Aprendizaje automático . 46 (1–3): 161–190. doi : 10.1023/A:1012454411458 . ISSN 0885-6125. OCLC 703649027.
^ ab Patrice Y. Simard; Dave Steinkraus; John C. Platt (2003). "Mejores prácticas para redes neuronales convolucionales aplicadas al análisis visual de documentos". Actas de la Séptima Conferencia Internacional sobre Análisis y Reconocimiento de Documentos . Vol. 1. Instituto de Ingenieros Eléctricos y Electrónicos . p. 958. doi :10.1109/ICDAR.2003.1227801. ISBN. 978-0-7695-1960-9.S2CID 4659176 .
^ Ciresan, Claudiu Dan; Ueli Meier; Luca Maria Gambardella; Juergen Schmidhuber (diciembre de 2010). "Las redes neuronales simples, grandes y profundas sobresalen en el reconocimiento de dígitos escritos a mano". Neural Computation . 22 (12): 3207–20. arXiv : 1003.0358 . doi :10.1162/NECO_a_00052. PMID 20858131. S2CID 1918673.
^ Romanuke, Vadim. "El mejor rendimiento de la red neuronal convolucional única en 18 épocas con los datos de entrenamiento expandidos en el Parallel Computing Center, Khmelnytskyi, Ucrania" . Consultado el 16 de noviembre de 2016 .
^ Romanuke, Vadim. "El Parallel Computing Center (Khmelnytskyi, Ucrania) ofrece una red neuronal convolucional única que funciona en MNIST con una tasa de error del 0,27 por ciento" . Consultado el 24 de noviembre de 2016 .
^ Hu, Jie; Shen, Li; Albanie, Samuel; Sun, Gang; Wu, Enhua (2019). "Redes de compresión y excitación". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 42 (8): 2011–2023. arXiv : 1709.01507 . doi :10.1109/TPAMI.2019.2913372. PMID 31034408. S2CID 140309863.
^ "GitHub - Matuzas77/MNIST-0.17: clasificador MNIST con un error promedio del 0,17 %". GitHub . 25 de febrero de 2020.
^ An, Sanghyeon; Lee, Minjun; Park, Sanglee; Yang, Heerin; So, Jungmin (4 de octubre de 2020). "Un conjunto de modelos de redes neuronales convolucionales simples para el reconocimiento de dígitos MNIST". arXiv : 2008.10400 [cs.CV].

Lectura adicional

Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (junio de 2012). "Redes neuronales profundas de múltiples columnas para la clasificación de imágenes" (PDF) . Conferencia IEEE de 2012 sobre visión artificial y reconocimiento de patrones . Nueva York, NY: Instituto de Ingenieros Eléctricos y Electrónicos . págs. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . doi :10.1109/CVPR.2012.6248110. ISBN. 9781467312264. OCLC 812295155. S2CID 2161592. Consultado el 9 de diciembre de 2013 .

Enlaces externos

Sitio web oficial
Visualización de la base de datos MNIST: grupos de imágenes de dígitos manuscritos de MNIST en GitHub