Imagen Net

El proyecto ImageNet es una gran base de datos visual diseñada para su uso en la investigación de software de reconocimiento visual de objetos . Más de 14 millones ^[1]^[2] de imágenes han sido anotadas a mano por el proyecto para indicar qué objetos se muestran y en al menos un millón de las imágenes, también se proporcionan cuadros delimitadores. ^[3] ImageNet contiene más de 20.000 categorías, ^[2] con una categoría típica, como "globo" o "fresa", que consta de varios cientos de imágenes. ^{[4] La base de datos de anotaciones de}URL de imágenes de terceros está disponible de forma gratuita directamente desde ImageNet, aunque las imágenes reales no son propiedad de ImageNet. ^[5] Desde 2010, el proyecto ImageNet organiza un concurso anual de software, el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), donde los programas de software compiten para clasificar y detectar correctamente objetos y escenas. El desafío utiliza una lista "recortada" de mil clases que no se superponen. ^[6]

Importancia para el aprendizaje profundo

El 30 de septiembre de 2012, una red neuronal convolucional (CNN) llamada AlexNet ^[7] logró un error de 15,3 % en el top 5 del ImageNet 2012 Challenge, más de 10,8 puntos porcentuales menos que el del segundo clasificado. El uso de redes neuronales convolucionales fue posible gracias al uso de unidades de procesamiento gráfico (GPU) durante el entrenamiento, ^[7] un ingrediente esencial de la revolución del aprendizaje profundo . Según The Economist , "de repente, la gente empezó a prestar atención, no solo dentro de la comunidad de IA, sino en toda la industria tecnológica en su conjunto". ^[4]^[8]^[9]

En 2015, AlexNet fue superado por la CNN muy profunda de Microsoft con más de 100 capas, que ganó el concurso ImageNet 2015. ^[10]

Historia de la base de datos

La investigadora de IA Fei-Fei Li comenzó a trabajar en la idea de ImageNet en 2006. En un momento en el que la mayoría de las investigaciones de IA se centraban en modelos y algoritmos, Li quería ampliar y mejorar los datos disponibles para entrenar algoritmos de IA. ^[11] En 2007, Li se reunió con la profesora de Princeton Christiane Fellbaum , una de las creadoras de WordNet , para hablar del proyecto. Como resultado de esta reunión, Li pasó a construir ImageNet a partir de los aproximadamente 22.000 sustantivos de WordNet y utilizando muchas de sus características. ^[12] También se inspiró en una estimación de 1987 ^[13] de que la persona promedio reconoce aproximadamente 30.000 tipos diferentes de objetos. ^[14]

Como profesor adjunto en Princeton , Li reunió a un equipo de investigadores para trabajar en el proyecto ImageNet. Utilizaron Amazon Mechanical Turk para ayudar con la clasificación de imágenes. Se necesitaron dos años y medio para completar el etiquetado. ^[12] Contaban con presupuesto suficiente para etiquetar tres veces cada una de las 14 millones de imágenes. ^[14]

Presentaron su base de datos por primera vez como póster en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones (CVPR) de 2009 en Florida. ^[12]^[15]^[16]

En 2009, Alex Berg sugirió añadir la localización de objetos como tarea. Li se acercó al concurso PASCAL Visual Object Classes en 2009 para colaborar. El resultado fue el posterior ImageNet Large Scale Visual Recognition Challenge , que comenzó en 2010 y cuenta con 1000 clases y localización de objetos, en comparación con PASCAL VOC, que tenía solo 20 clases. ^[12]

Conjunto de datos

ImageNet utiliza crowdsourcing para su proceso de anotación. Las anotaciones a nivel de imagen indican la presencia o ausencia de una clase de objeto en una imagen, como "hay tigres en esta imagen" o "no hay tigres en esta imagen". Las anotaciones a nivel de objeto proporcionan un cuadro delimitador alrededor de la parte visible del objeto indicado. ImageNet utiliza una variante del esquema amplio de WordNet para categorizar objetos, ampliado con 120 categorías de razas de perros para mostrar una clasificación detallada. ^[6]

Una desventaja del uso de WordNet es que las categorías pueden ser más "elevadas" de lo que sería óptimo para ImageNet: "La mayoría de la gente está más interesada en Lady Gaga o el iPod Mini que en esta rara especie de diplodocus ". ^{[ Aclaración necesaria ] En 2012, ImageNet fue el mayor usuario académico de}Mechanical Turk del mundo . El trabajador promedio identificó 50 imágenes por minuto. ^[2]

Formato

ImageNet consta de imágenes en formato RGB con distintas resoluciones. Por ejemplo, en ImageNet 2012, categoría "pez", la resolución varía de 4288 x 2848 a 75 x 56. En el aprendizaje automático, estas imágenes suelen preprocesarse hasta alcanzar una resolución constante estándar y blanquearse antes de que las procesen más las redes neuronales.

Por ejemplo, en PyTorch, las imágenes ImageNet se normalizan de forma predeterminada dividiendo los valores de los píxeles de modo que se encuentren entre 0 y 1, luego restando por [0,485, 0,456, 0,406] y luego dividiendo por [0,229, 0,224, 0,225]. Estas son las desviaciones estándar y medias para ImageNet, por lo que blanquean los datos de entrada. ^[17]

Subconjuntos del conjunto de datos

Hay varios subconjuntos del conjunto de datos ImageNet que se utilizan en diversos contextos, a veces denominados "versiones". ^[7]

Uno de los subconjuntos más utilizados de ImageNet es el "conjunto de datos de localización y clasificación de imágenes ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017". En la literatura de investigación también se lo conoce como ImageNet-1K o ILSVRC2017, lo que refleja el desafío ILSVRC original que involucraba 1000 clases. ImageNet-1K contiene 1281167 imágenes de entrenamiento, 50 000 imágenes de validación y 100 000 imágenes de prueba. ^[18] El conjunto de datos original completo se conoce como ImageNet-21K. ImageNet-21k contiene 14 197 122 imágenes divididas en 21 841 clases. Algunos artículos lo resumen y lo denominan ImageNet-22k. ^[19]

ImageNetV2 fue un nuevo conjunto de datos que contenía tres conjuntos de prueba con 10 000 cada uno, construidos con la misma metodología que el ImageNet original. ^[20]

Historia del desafío ImageNet

El ILSVRC pretende "seguir los pasos" del desafío de menor escala PASCAL VOC, establecido en 2005, que contenía sólo unas 20.000 imágenes y veinte clases de objetos. ^[6] Para "democratizar" ImageNet, Fei-Fei Li propuso al equipo de PASCAL VOC una colaboración, a partir de 2010, en la que los equipos de investigación evaluarían sus algoritmos en el conjunto de datos dado y competirían para lograr una mayor precisión en varias tareas de reconocimiento visual. ^[12]

La competencia anual resultante se conoce ahora como el Desafío de reconocimiento visual a gran escala de ImageNet (ILSVRC). El ILSVRC utiliza una lista "reducida" de solo 1000 categorías de imágenes o "clases", incluidas 90 de las 120 razas de perros clasificadas por el esquema completo de ImageNet. ^[6]

En la década de 2010 se produjeron avances espectaculares en el procesamiento de imágenes. En la primera competición participaron 11 equipos y ganó una máquina de vectores de soporte (SVM). En la segunda competición participaron menos equipos y ganó otra SVM con una tasa de error del 25 %. ^[14]

En 2012, una red neuronal convolucional profunda llamada AlexNet alcanzó un 16%; en los siguientes dos años, las tasas de error del top-5 cayeron a un pequeño porcentaje. ^[21] Si bien el avance de 2012 "combinó piezas que ya estaban todas allí", la dramática mejora cuantitativa marcó el comienzo de un auge de la inteligencia artificial en toda la industria. ^[4] Para 2015, los investigadores de Microsoft informaron que sus CNN excedían la capacidad humana en las estrechas tareas ILSVRC. ^[10]^[22] Sin embargo, como señaló en 2015 una de las organizadoras del desafío, Olga Russakovsky , los programas solo tienen que identificar imágenes como pertenecientes a una de mil categorías; los humanos pueden reconocer un mayor número de categorías y también (a diferencia de los programas) pueden juzgar el contexto de una imagen. ^[23]

En 2014, más de cincuenta instituciones participaron en el ILSVRC. ^[6] En 2017, 29 de los 38 equipos que compitieron tuvieron una precisión superior al 95%. ^[24] En 2017, ImageNet declaró que lanzaría un nuevo desafío mucho más difícil en 2018 que implica clasificar objetos 3D utilizando lenguaje natural. Debido a que la creación de datos 3D es más costosa que la anotación de una imagen 2D preexistente, se espera que el conjunto de datos sea más pequeño. Las aplicaciones del progreso en esta área irían desde la navegación robótica hasta la realidad aumentada . ^[1]

Sesgo en ImageNet

Se estima que más del 6% de las etiquetas en el conjunto de validación de ImageNet-1k son erróneas. ^[25] También se encontró que alrededor del 10% de ImageNet-1k contiene etiquetas ambiguas o erróneas y que, cuando se les presenta la predicción de un modelo y la etiqueta original de ImageNet, los anotadores humanos prefieren la predicción de un modelo de última generación en 2020 entrenado en el ImageNet original, lo que sugiere que ImageNet-1k se ha saturado. ^[26]

Un estudio de la historia de las múltiples capas ( taxonomía , clases de objetos y etiquetado) de ImageNet y WordNet en 2019 describió cómo el sesgo ^{[ aclaración necesaria ]} está profundamente arraigado en la mayoría de los enfoques de clasificación para todo tipo de imágenes. ^[27]^[28]^[29]^[30] ImageNet está trabajando para abordar varias fuentes de sesgo. ^[31]

Véase también

Referencias

^ ab "Nuevo desafío de visión artificial quiere enseñar a los robots a ver en 3D". New Scientist . 7 de abril de 2017 . Consultado el 3 de febrero de 2018 .
^ abc Markoff, John (19 de noviembre de 2012). "Para imágenes web, creación de nueva tecnología para buscar y encontrar". The New York Times . Consultado el 3 de febrero de 2018 .
^ "ImageNet". 7 de septiembre de 2020. Archivado desde el original el 7 de septiembre de 2020 . Consultado el 11 de octubre de 2022 .
^ abc "De no trabajar a las redes neuronales". The Economist . 25 de junio de 2016 . Consultado el 3 de febrero de 2018 .
^ "Descripción general de ImageNet". ImageNet . Consultado el 15 de octubre de 2022 .
^ abcde Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy , Aditya Khosla, Michael Bernstein, Alexander C. Berg y Li Fei-Fei. (* = contribución igual) Desafío de reconocimiento visual a gran escala de ImageNet. IJCV, 2015.
^ abc Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (junio de 2017). «Clasificación ImageNet con redes neuronales convolucionales profundas» (PDF) . Comunicaciones de la ACM . 60 (6): 84–90. doi : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774 . Consultado el 24 de mayo de 2017 .
^ "Las máquinas 'superan a los humanos' en un número cada vez mayor de tareas". Financial Times . 30 de noviembre de 2017 . Consultado el 3 de febrero de 2018 .
^ Gershgorn, Dave (18 de junio de 2018). "La historia interna de cómo la IA se volvió lo suficientemente buena como para dominar Silicon Valley". Quartz . Consultado el 10 de diciembre de 2018 .
^ ab He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Aprendizaje residual profundo para reconocimiento de imágenes". Conferencia IEEE de 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN . 978-1-4673-8851-1.S2CID206594692 .
^ Hempel, Jesse (13 de noviembre de 2018). "La misión de Fei-Fei Li para mejorar la inteligencia artificial para la humanidad". Wired . Consultado el 5 de mayo de 2019 . Cuando Li, que se había mudado de nuevo a Princeton para aceptar un trabajo como profesora asistente en 2007, presentó su idea de ImageNet, tuvo dificultades para conseguir que los miembros de la facultad la ayudaran. Finalmente, un profesor especializado en arquitectura informática aceptó unirse a ella como colaborador.
^ abcde Gershgorn, Dave (26 de julio de 2017). "Los datos que transformaron la investigación en IA y posiblemente el mundo". Quartz . Atlantic Media Co . Consultado el 26 de julio de 2017 . Después de leer sobre el enfoque de WordNet, Li se reunió con la profesora Christiane Fellbaum, una investigadora influyente en el trabajo continuo sobre WordNet, durante una visita a Princeton en 2006.
^ Biederman, Irving (1987). "Reconocimiento por componentes: una teoría de la comprensión de imágenes humanas". Psychological Review . 94 (2): 115–117. doi :10.1037//0033-295x.94.2.115. ISSN 0033-295X.
^ abc Lee, Timothy B. (11 de noviembre de 2024). «Cómo un científico informático testarudo lanzó accidentalmente el auge del aprendizaje profundo». Ars Technica . Consultado el 12 de noviembre de 2024 .
^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), "ImageNet: A Large-Scale Hierarchical Image Database" (PDF) , conferencia de 2009 sobre visión artificial y reconocimiento de patrones , archivado desde el original (PDF) el 15 de enero de 2021 , consultado el 26 de julio de 2017
^ Li, Fei-Fei (23 de marzo de 2015), Cómo enseñamos a las computadoras a entender imágenes , consultado el 16 de diciembre de 2018
^ "valores estándar y promedio para la normalización de imágenes diferentes de ImageNet · Número 20 · openai/CLIP". GitHub . Consultado el 19 de septiembre de 2024 .
^ "ImageNet". www.image-net.org . Consultado el 19 de octubre de 2022 .
^ Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (5 de agosto de 2021). "Preentrenamiento de ImageNet-21K para las masas". arXiv : 2104.10972 [cs.CV].
^ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (24 de mayo de 2019). "¿Los clasificadores de ImageNet se generalizan a ImageNet?". Actas de la 36.ª Conferencia internacional sobre aprendizaje automático . PMLR: 5389–5400.
^ Robbins, Martin (6 de mayo de 2016). "¿Es necesario que una IA haga el amor con la novia de Rembrandt para crear arte?". The Guardian . Consultado el 22 de junio de 2016 .
^ Markoff, John (10 de diciembre de 2015). "Un avance en el aprendizaje de la inteligencia artificial rivaliza con las capacidades humanas". The New York Times . Consultado el 22 de junio de 2016 .
^ Aron, Jacob (21 de septiembre de 2015). «Olvídense del test de Turing: hay mejores formas de juzgar la IA». New Scientist . Consultado el 22 de junio de 2016 .
^ Gershgorn, Dave (10 de septiembre de 2017). "La guía Quartz sobre inteligencia artificial: ¿Qué es, por qué es importante y deberíamos tenerle miedo?". Quartz . Consultado el 3 de febrero de 2018 .
^ Northcutt, Curtis G.; Athalye, Anish; Mueller, Jonas (7 de noviembre de 2021), Los errores generalizados de etiquetas en los conjuntos de pruebas desestabilizan los puntos de referencia del aprendizaje automático, doi : 10.48550/arXiv.2103.14749 , consultado el 13 de noviembre de 2024
^ Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alejandro; Zhai, Xiaohua; Oord, Aäron van den (12 de junio de 2020), ¿Hemos terminado con ImageNet?, doi :10.48550/arXiv.2006.07159 , consultado el 13 de noviembre de 2024
^ "La aplicación viral que te etiqueta no es exactamente lo que crees". Wired . ISSN 1059-1028 . Consultado el 22 de septiembre de 2019 .
^ Wong, Julia Carrie (18 de septiembre de 2019). «La aplicación viral de selfies ImageNet Roulette parecía divertida, hasta que me llamó con un insulto racista». The Guardian . ISSN 0261-3077 . Consultado el 22 de septiembre de 2019 .
^ Crawford, Kate; Paglen, Trevor (19 de septiembre de 2019). "Excavando la IA: la política de los conjuntos de entrenamiento para el aprendizaje automático". - . Consultado el 22 de septiembre de 2019 .
^ Lyons, Michael (24 de diciembre de 2020). "Excavando "Excavando IA": El elefante en la galería". arXiv : 2009.01215 . doi :10.5281/zenodo.4037538. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "Hacia conjuntos de datos más justos: filtrado y equilibrio de la distribución del subárbol People en la jerarquía de ImageNet". image-net.org . 17 de septiembre de 2019 . Consultado el 22 de septiembre de 2019 .

Enlaces externos

Sitio web oficial