Imagen Net

El proyecto ImageNet es una gran base de datos visual diseñada para su uso en la investigación de software de reconocimiento visual de objetos . Más de 14 millones ^[1]^[2] de imágenes han sido anotadas a mano por el proyecto para indicar qué objetos se muestran y en al menos un millón de las imágenes, también se proporcionan cuadros delimitadores. ^[3] ImageNet contiene más de 20.000 categorías, ^[2] con una categoría típica, como "globo" o "fresa", que consta de varios cientos de imágenes. ^{[4] La base de datos de anotaciones de}URL de imágenes de terceros está disponible de forma gratuita directamente desde ImageNet, aunque las imágenes reales no son propiedad de ImageNet. ^[5] Desde 2010, el proyecto ImageNet organiza un concurso anual de software, el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), donde los programas de software compiten para clasificar y detectar correctamente objetos y escenas. El desafío utiliza una lista "recortada" de mil clases que no se superponen. ^[6]

Historia

La investigadora de IA Fei-Fei Li comenzó a trabajar en la idea de ImageNet en 2006. En un momento en el que la mayoría de las investigaciones de IA se centraban en modelos y algoritmos, Li quería ampliar y mejorar los datos disponibles para entrenar algoritmos de IA. ^[7] En 2007, Li se reunió con la profesora de Princeton Christiane Fellbaum , una de las creadoras de WordNet , para hablar del proyecto. Como resultado de esta reunión, Li pasó a construir ImageNet a partir de los aproximadamente 22.000 sustantivos de WordNet y utilizando muchas de sus características. ^[8] También se inspiró en una estimación de 1987 ^[9] de que la persona promedio reconoce aproximadamente 30.000 tipos diferentes de objetos. ^[10]

Como profesor adjunto en Princeton , Li reunió a un equipo de investigadores para trabajar en el proyecto ImageNet. Utilizaron Amazon Mechanical Turk para ayudar con la clasificación de imágenes. El etiquetado comenzó en julio de 2008 y finalizó en abril de 2010. Se necesitaron dos años y medio para completar el etiquetado. ^[8] Contaban con presupuesto suficiente para etiquetar tres veces cada una de las 14 millones de imágenes. ^[10]

El plan original preveía 10.000 imágenes por categoría, para 40.000 categorías con 400 millones de imágenes, cada una verificada 3 veces. Descubrieron que los humanos pueden clasificar como máximo 2 imágenes por segundo. A este ritmo, se estimó que se necesitarían 19 años humanos de trabajo (sin descanso). ^[11]

Presentaron su base de datos por primera vez como póster en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones (CVPR) de 2009 en Florida, titulada "ImageNet: Una Vista Previa de un Conjunto de Datos Jerárquicos a Gran Escala". ^[12]^[8]^[13]^[14] El póster fue reutilizado en la Vision Sciences Society de 2009. ^[15]

En 2009, Alex Berg sugirió añadir la localización de objetos como tarea. Li se acercó al concurso PASCAL Visual Object Classes en 2009 para colaborar. El resultado fue el posterior ImageNet Large Scale Visual Recognition Challenge , que comenzó en 2010 y cuenta con 1000 clases y localización de objetos, en comparación con PASCAL VOC, que tenía solo 20 clases y 19 737 imágenes (en 2010). ^[6]^[8]

Importancia para el aprendizaje profundo

El 30 de septiembre de 2012, una red neuronal convolucional (CNN) llamada AlexNet ^[16] logró un error de 15,3 % en el top 5 del ImageNet 2012 Challenge, más de 10,8 puntos porcentuales menos que el del segundo clasificado. El uso de redes neuronales convolucionales fue posible gracias al uso de unidades de procesamiento gráfico (GPU) durante el entrenamiento, ^[16] un ingrediente esencial de la revolución del aprendizaje profundo . Según The Economist , "de repente, la gente empezó a prestar atención, no solo dentro de la comunidad de IA, sino en toda la industria tecnológica en su conjunto". ^[4]^[17]^[18]

En 2015, AlexNet fue superado por la CNN muy profunda de Microsoft con más de 100 capas, que ganó el concurso ImageNet 2015. ^[19]

Conjunto de datos

ImageNet utiliza crowdsourcing para su proceso de anotación. Las anotaciones a nivel de imagen indican la presencia o ausencia de una clase de objeto en una imagen, como "hay tigres en esta imagen" o "no hay tigres en esta imagen". Las anotaciones a nivel de objeto proporcionan un cuadro delimitador alrededor de la parte visible del objeto indicado. ImageNet utiliza una variante del esquema amplio de WordNet para categorizar objetos, ampliado con 120 categorías de razas de perros para mostrar una clasificación detallada. ^[6]

En 2012, ImageNet fue el mayor usuario académico de Mechanical Turk en el mundo . El trabajador promedio identificó 50 imágenes por minuto. ^[2]

El plan original del ImageNet completo habría contado con aproximadamente 50 millones de imágenes limpias, diversas y de resolución completa distribuidas en aproximadamente 50 000 synsets. ^[13] Esto no se logró.

Las estadísticas resumidas proporcionadas el 30 de abril de 2010 son las siguientes: ^[20]

Número total de synsets no vacíos: 21841
Número total de imágenes: 14.197.122
Número de imágenes con anotaciones en el cuadro delimitador: 1.034.908
Número de synsets con funciones SIFT: 1000
Número de imágenes con funciones SIFT: 1,2 millones

Categorías

Las categorías de ImageNet se filtraron a partir de los conceptos de WordNet. Cada concepto, dado que puede contener varios sinónimos (por ejemplo, "gatito" y "gato joven"), se denomina "conjunto de sinónimos" o " conjunto de sinónimos ". En WordNet 3.0 había más de 100 000 conjuntos de sinónimos, la mayoría de los cuales son sustantivos (más de 80 000). El conjunto de datos de ImageNet los filtró a 21 841 conjuntos de sinónimos que son sustantivos contables que se pueden ilustrar visualmente.

Cada synset en WordNet 3.0 tiene un "WordNet ID" (wnid), que es una concatenación de una parte del discurso y un "offset" (un número de identificación único ). Cada wnid comienza con "n" porque ImageNet solo incluye sustantivos . Por ejemplo, el wnid del synset " perro, perro doméstico, Canis familiaris " es "n02084071". ^[21]

Las categorías en ImageNet se dividen en 9 niveles, desde el nivel 1 (como "mamífero") hasta el nivel 9 (como "pastor alemán"). ^[11]

Formato de imagen

Las imágenes se obtuvieron de búsquedas de imágenes en línea ( Google , Picsearch , MSN , Yahoo , Flickr , etc.) utilizando sinónimos en varios idiomas. Por ejemplo: pastor alemán, perro policía alemán, perro pastor alemán, alsaciano, ovejero alemán, pastore tedesco, 德国牧羊犬. ^[22]

ImageNet consta de imágenes en formato RGB con distintas resoluciones. Por ejemplo, en ImageNet 2012, categoría "pez", la resolución varía de 4288 x 2848 a 75 x 56. En el aprendizaje automático, estas imágenes suelen preprocesarse hasta alcanzar una resolución constante estándar y blanquearse antes de que las procesen más las redes neuronales.

Por ejemplo, en PyTorch, las imágenes ImageNet se normalizan de forma predeterminada dividiendo los valores de los píxeles de modo que se encuentren entre 0 y 1, luego restando por [0,485, 0,456, 0,406] y luego dividiendo por [0,229, 0,224, 0,225]. Estas son las desviaciones estándar y medias para ImageNet, por lo que blanquean los datos de entrada. ^[23]

Etiquetas y anotaciones

Cada imagen está etiquetada con exactamente un wid.

Las características densas de SIFT (descriptores SIFT sin procesar, palabras de código cuantificadas y coordenadas de cada descriptor/palabra de código) para ImageNet-1K estaban disponibles para descargar, diseñadas para una bolsa de palabras visuales . ^[24]

Los cuadros delimitadores de objetos estaban disponibles para alrededor de 3000 synsets populares ^[25] con un promedio de 150 imágenes en cada synset. ^[26]

Además, algunas imágenes tienen atributos. Publicaron 25 atributos para aproximadamente 400 synsets populares: ^[27]^[28]

Color : negro, azul, marrón, gris, verde, naranja, rosa, rojo, violeta, blanco, amarillo
Patrón : manchado, rayado
Forma : larga, redonda, rectangular, cuadrada.
Textura : peluda, suave, áspera, brillante, metálica, vegetal, de madera, húmeda.

Imagen Net-21K

El conjunto de datos original completo se denomina ImageNet-21K. ImageNet-21k contiene 14.197.122 imágenes divididas en 21.841 clases. Algunos artículos lo resumen y lo denominan ImageNet-22k. ^[29]

La versión completa de ImageNet-21k se publicó en otoño de 2011 como fall11_whole.tar. No existe una división oficial de entrenamiento-validación-prueba para ImageNet-21k. Algunas clases contienen solo entre 1 y 10 muestras, mientras que otras contienen miles. ^[29]

Imagen Net-1K

Hay varios subconjuntos del conjunto de datos ImageNet que se utilizan en diversos contextos, a veces denominados "versiones". ^[16]

Uno de los subconjuntos más utilizados de ImageNet es el "conjunto de datos de localización y clasificación de imágenes ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017". En la literatura de investigación también se lo conoce como ImageNet-1K o ILSVRC2017, lo que refleja el desafío ILSVRC original que involucraba 1000 clases. ImageNet-1K contiene 1 281 167 imágenes de entrenamiento, 50 000 imágenes de validación y 100 000 imágenes de prueba. ^[30]

Cada categoría en ImageNet-1K es una categoría de hoja, lo que significa que no hay nodos secundarios debajo de ella, a diferencia de ImageNet-21K. Por ejemplo, en ImageNet-21K, hay algunas imágenes categorizadas simplemente como "mamífero", mientras que en ImageNet-1K, solo hay imágenes categorizadas como cosas como "pastor alemán", ya que no hay palabras secundarias debajo de "pastor alemán". ^[22]

Desarrollos posteriores

En el invierno de 2021, se actualizó ImageNet-21k. Se filtraron 2702 categorías en el subárbol "persona" para evitar "comportamientos problemáticos" en un modelo entrenado. En 2021, se actualizó ImageNet-1k anotando los rostros que aparecen en las 997 categorías que no son de personas. Descubrieron que los modelos de entrenamiento en el conjunto de datos con estos rostros borrosos causaban una pérdida mínima en el rendimiento. ^[31]

ImageNetV2 fue un nuevo conjunto de datos que contenía tres conjuntos de prueba con 10 000 cada uno, construidos con la misma metodología que el ImageNet original. ^[32]

ImageNet-21K-P fue un subconjunto filtrado y limpio de ImageNet-21K, con 12.358.688 imágenes de 11.221 categorías. ^[29]

Historia del desafío ImageNet

El ILSVRC tiene como objetivo "seguir los pasos" del desafío de menor escala PASCAL VOC, establecido en 2005, que contenía solo alrededor de 20.000 imágenes y veinte clases de objetos. ^[6] Para "democratizar" ImageNet, Fei-Fei Li propuso al equipo de PASCAL VOC una colaboración, a partir de 2010, en la que los equipos de investigación evaluarían sus algoritmos en el conjunto de datos dado y competirían para lograr una mayor precisión en varias tareas de reconocimiento visual. ^[8]

La competencia anual resultante se conoce ahora como el Desafío de reconocimiento visual a gran escala ImageNet (ILSVRC). El ILSVRC utiliza una lista "reducida" de solo 1000 categorías de imágenes o "clases", incluidas 90 de las 120 razas de perros clasificadas por el esquema completo de ImageNet. ^[6]

En la década de 2010 se produjo un progreso espectacular en el procesamiento de imágenes.

La primera competencia en 2010 tuvo 11 equipos participantes. El equipo ganador fue una máquina de vectores de soporte lineal (SVM). Las características son una cuadrícula densa de HoG y LBP , esparcidas por codificación y agrupación de coordenadas locales. ^[33] Logró un 52,9% en precisión de clasificación y un 71,8% en precisión entre los 5 primeros. Se entrenó durante 4 días en tres máquinas de 8 núcleos ( CPU Intel Xeon de 2 GHz de cuatro núcleos duales ). ^[34]

La segunda competencia en 2011 tuvo menos equipos, con otro SVM ganando con una tasa de error de top-5 del 25%. ^{[10] El equipo ganador fue XRCE de Florent Perronnin, Jorge Sanchez. El sistema era otro SVM lineal, corriendo en}vectores Fisher cuantificados ^[35] . ^[36]^[37] Logró un 74.2% en precisión de top-5.

En 2012, una red neuronal convolucional profunda llamada AlexNet alcanzó un 84,7% de precisión entre las 5 primeras, un gran salto hacia adelante. ^[38] En los dos años siguientes, la precisión entre las 5 primeras aumentó a más del 90%. Si bien el avance de 2012 "combinó elementos que ya estaban todos allí", la espectacular mejora cuantitativa marcó el comienzo de un auge de la inteligencia artificial en toda la industria. ^[4]

En 2014, más de cincuenta instituciones participaron en el ILSVRC. ^[6] En 2017, 29 de los 38 equipos que compitieron tuvieron una precisión superior al 95 %. ^[39] En 2017, ImageNet declaró que lanzaría un nuevo desafío mucho más difícil en 2018 que implica clasificar objetos 3D utilizando lenguaje natural. Debido a que crear datos 3D es más costoso que anotar una imagen 2D preexistente, se espera que el conjunto de datos sea más pequeño. Las aplicaciones del progreso en esta área irían desde la navegación robótica hasta la realidad aumentada . ^[1]

En 2015, los investigadores de Microsoft informaron que sus CNN superaban la capacidad humana en las estrechas tareas ILSVRC. ^[19]^[40] Sin embargo, como señaló en 2015 una de las organizadoras del desafío, Olga Russakovsky , el concurso solo abarca 1000 categorías; los humanos pueden reconocer una mayor cantidad de categorías y también (a diferencia de los programas) pueden juzgar el contexto de una imagen. ^[41]

Sesgo en ImageNet

Se estima que más del 6% de las etiquetas en el conjunto de validación de ImageNet-1k son erróneas. ^[42] También se encontró que alrededor del 10% de ImageNet-1k contiene etiquetas ambiguas o erróneas y que, cuando se les presenta la predicción de un modelo y la etiqueta original de ImageNet, los anotadores humanos prefieren la predicción de un modelo de última generación en 2020 entrenado en el ImageNet original, lo que sugiere que ImageNet-1k se ha saturado. ^[43]

Un estudio de la historia de las múltiples capas ( taxonomía , clases de objetos y etiquetado) de ImageNet y WordNet en 2019 describió cómo el sesgo ^{[ aclaración necesaria ]} está profundamente arraigado en la mayoría de los enfoques de clasificación para todo tipo de imágenes. ^[44]^[45]^[46]^[47] ImageNet está trabajando para abordar varias fuentes de sesgo. ^[48]

Una desventaja del uso de WordNet es que las categorías pueden ser más "elevadas" de lo que sería óptimo para ImageNet: "La mayoría de la gente está más interesada en Lady Gaga o el iPod Mini que en esta rara especie de diplodocus ". ^{[ aclaración necesaria ]}

Véase también

Referencias

^ ab "Nuevo desafío de visión artificial quiere enseñar a los robots a ver en 3D". New Scientist . 7 de abril de 2017 . Consultado el 3 de febrero de 2018 .
^ abc Markoff, John (19 de noviembre de 2012). "Para imágenes web, creación de nueva tecnología para buscar y encontrar". The New York Times . Consultado el 3 de febrero de 2018 .
^ "ImageNet". 7 de septiembre de 2020. Archivado desde el original el 7 de septiembre de 2020 . Consultado el 11 de octubre de 2022 .
^ abc "De no trabajar a las redes neuronales". The Economist . 25 de junio de 2016 . Consultado el 3 de febrero de 2018 .
^ "Descripción general de ImageNet". ImageNet . Consultado el 15 de octubre de 2022 .
^ abcdef Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy , Aditya Khosla, Michael Bernstein, Alexander C. Berg y Li Fei-Fei. (* = contribución igual) Desafío de reconocimiento visual a gran escala de ImageNet. IJCV, 2015.
^ Hempel, Jesse (13 de noviembre de 2018). "La misión de Fei-Fei Li para mejorar la inteligencia artificial para la humanidad". Wired . Consultado el 5 de mayo de 2019 . Cuando Li, que había regresado a Princeton para aceptar un trabajo como profesora asistente en 2007, presentó su idea de ImageNet, tuvo dificultades para conseguir que los miembros de la facultad la ayudaran. Finalmente, un profesor especializado en arquitectura informática aceptó unirse a ella como colaborador.
^ abcde Gershgorn, Dave (26 de julio de 2017). "Los datos que transformaron la investigación en IA y posiblemente el mundo". Quartz . Atlantic Media Co . Consultado el 26 de julio de 2017 . Después de leer sobre el enfoque de WordNet, Li se reunió con la profesora Christiane Fellbaum, una investigadora influyente en el trabajo continuo sobre WordNet, durante una visita a Princeton en 2006.
^ Biederman, Irving (1987). "Reconocimiento por componentes: una teoría de la comprensión de imágenes humanas". Psychological Review . 94 (2): 115–117. doi :10.1037/0033-295x.94.2.115. ISSN 0033-295X. PMID 3575582.
^ abc Lee, Timothy B. (11 de noviembre de 2024). «Cómo un científico informático testarudo lanzó accidentalmente el auge del aprendizaje profundo». Ars Technica . Consultado el 12 de noviembre de 2024 .
^ ab Li, FF. ImageNet. "Crowdsourcing, benchmarking y otras cosas interesantes". CMU VASC Semin 16 (2010): 18-25.
^ "CVPR 2009: Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones". tab.computer.org . Consultado el 13 de noviembre de 2024 .
^ ab Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), "ImageNet: A Large-Scale Hierarchical Image Database" (PDF) , conferencia de 2009 sobre visión artificial y reconocimiento de patrones , archivado desde el original (PDF) el 15 de enero de 2021 , consultado el 26 de julio de 2017
^ Li, Fei-Fei (23 de marzo de 2015), Cómo enseñamos a las computadoras a entender imágenes , consultado el 16 de diciembre de 2018
^ Deng, Jia, et al. "Construcción y análisis de una ontología de imágenes a gran escala". Vision Sciences Society 186.2 (2009).
^ abc Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (junio de 2017). «Clasificación ImageNet con redes neuronales convolucionales profundas» (PDF) . Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774 . Consultado el 24 de mayo de 2017 .
^ "Las máquinas 'superan a los humanos' en un número cada vez mayor de tareas". Financial Times . 30 de noviembre de 2017 . Consultado el 3 de febrero de 2018 .
^ Gershgorn, Dave (18 de junio de 2018). "La historia interna de cómo la IA se volvió lo suficientemente buena como para dominar Silicon Valley". Quartz . Consultado el 10 de diciembre de 2018 .
^ ab He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Aprendizaje residual profundo para reconocimiento de imágenes". Conferencia IEEE de 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN . 978-1-4673-8851-1.S2CID206594692 .
^ "Resumen y estadísticas de ImageNet (actualizado el 30 de abril de 2010)". 15 de enero de 2013. Archivado desde el original el 15 de enero de 2013. Consultado el 13 de noviembre de 2024 .
^ "Documentación de la API de ImageNet". 22 de enero de 2013. Archivado desde el original el 22 de enero de 2013 . Consultado el 13 de noviembre de 2024 .
^ ab Berg, Alex, Jia Deng y L. Fei-Fei. "Desafío de reconocimiento visual a gran escala 2010". Noviembre de 2010.
^ "valores estándar y promedio para la normalización de imágenes diferentes de ImageNet · Número 20 · openai/CLIP". GitHub . Consultado el 19 de septiembre de 2024 .
^ "ImageNet". 5 de abril de 2013. Archivado desde el original el 5 de abril de 2013 . Consultado el 13 de noviembre de 2024 .
^ https://web.archive.org/web/20181030191122/http://www.image-net.org/api/text/imagenet.sbow.obtain_synset_list
^ "ImageNet". Archivado desde el original el 5 de abril de 2013.
^ "ImageNet". Archivado desde el original el 22 de diciembre de 2019.
^ Russakovsky, Olga; Fei-Fei, Li (2012). "Aprendizaje de atributos en conjuntos de datos a gran escala". En Kutulakos, Kiriakos N. (ed.). Tendencias y temas en visión artificial . Apuntes de clase en informática. Vol. 6553. Berlín, Heidelberg: Springer. págs. 1–14. doi :10.1007/978-3-642-35749-7_1. ISBN . 978-3-642-35749-7.
^ abc Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (5 de agosto de 2021). "Preentrenamiento de ImageNet-21K para las masas". arXiv : 2104.10972 [cs.CV].
^ "ImageNet". www.image-net.org . Consultado el 19 de octubre de 2022 .
^ "Actualización del sitio web y el conjunto de datos de ImageNet". www.image-net.org . Consultado el 13 de noviembre de 2024 .
^ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (24 de mayo de 2019). "¿Los clasificadores de ImageNet se generalizan a ImageNet?". Actas de la 36.ª Conferencia internacional sobre aprendizaje automático . PMLR: 5389–5400.
^ Clasificación ImageNet: codificación rápida de descriptores y entrenamiento SVM a gran escala
^ Lin, Yuanqing; Lv, Fengjun; Zhu, Shenghuo; Yang, Ming; Cour, Timothee; Yu, Kai; Cao, Liangliang; Huang, Thomas (junio de 2011). "Clasificación de imágenes a gran escala: extracción rápida de funciones y entrenamiento SVM". CVPR 2011 . IEEE. págs. 1689-1696. doi :10.1109/cvpr.2011.5995477. ISBN 978-1-4577-0394-2.
^ Sanchez, Jorge; Perronnin, Florent (junio de 2011). "Compresión de firmas de alta dimensión para clasificación de imágenes a gran escala". CVPR 2011. IEEE. págs. 1665–1672. doi :10.1109/cvpr.2011.5995504. ISBN . 978-1-4577-0394-2.
^ Perronnin, Florent; Sánchez, Jorge; Mensink, Thomas (2010). "Mejora del Fisher Kernel para la clasificación de imágenes a gran escala". En Daniilidis, Kostas; Maragós, Petros; Paragios, Nikos (eds.). Visión por Computador – ECCV 2010 . Apuntes de conferencias sobre informática. vol. 6314. Berlín, Heidelberg: Springer. págs. 143-156. doi :10.1007/978-3-642-15561-1_11. ISBN 978-3-642-15561-1.
^ "XRCE@ILSVRC2011: Vectores Fisher comprimidos para LSVR", Florent Perronnin y Jorge Sánchez, Xerox Research Centre Europe (XRCE)
^ https://www.image-net.org/challenges/LSVRC/2012/results
^ Gershgorn, Dave (10 de septiembre de 2017). "La guía Quartz sobre inteligencia artificial: ¿Qué es, por qué es importante y deberíamos tenerle miedo?". Quartz . Consultado el 3 de febrero de 2018 .
^ Markoff, John (10 de diciembre de 2015). "Un avance en el aprendizaje de la inteligencia artificial rivaliza con las capacidades humanas". The New York Times . Consultado el 22 de junio de 2016 .
^ Aron, Jacob (21 de septiembre de 2015). «Olvídense del test de Turing: hay mejores formas de juzgar la IA». New Scientist . Consultado el 22 de junio de 2016 .
^ Northcutt, Curtis G.; Athalye, Anish; Mueller, Jonas (7 de noviembre de 2021), Los errores generalizados de etiquetas en los conjuntos de pruebas desestabilizan los puntos de referencia del aprendizaje automático , arXiv : 2103.14749
^ Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alejandro; Zhai, Xiaohua; Oord, Aäron van den (12 de junio de 2020), ¿ Hemos terminado con ImageNet? , arXiv : 2006.07159
^ "La aplicación viral que te etiqueta no es exactamente lo que crees". Wired . ISSN 1059-1028 . Consultado el 22 de septiembre de 2019 .
^ Wong, Julia Carrie (18 de septiembre de 2019). «La aplicación viral de selfies ImageNet Roulette parecía divertida, hasta que me llamó con un insulto racista». The Guardian . ISSN 0261-3077 . Consultado el 22 de septiembre de 2019 .
^ Crawford, Kate; Paglen, Trevor (19 de septiembre de 2019). "Excavando la IA: la política de los conjuntos de entrenamiento para el aprendizaje automático". - . Consultado el 22 de septiembre de 2019 .
^ Lyons, Michael (24 de diciembre de 2020). "Excavando "Excavando IA": El elefante en la galería". arXiv : 2009.01215 . doi :10.5281/zenodo.4037538. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "Hacia conjuntos de datos más justos: filtrado y equilibrio de la distribución del subárbol People en la jerarquía de ImageNet". image-net.org . 17 de septiembre de 2019 . Consultado el 22 de septiembre de 2019 .

Enlaces externos

Sitio web oficial