El proyecto ImageNet es una gran base de datos visual diseñada para su uso en la investigación de software de reconocimiento visual de objetos . Más de 14 millones [1] [2] de imágenes han sido anotadas a mano por el proyecto para indicar qué objetos se muestran y en al menos un millón de las imágenes, también se proporcionan cuadros delimitadores. [3] ImageNet contiene más de 20.000 categorías, [2] con una categoría típica, como "globo" o "fresa", que consta de varios cientos de imágenes. [4] La base de datos de anotaciones de URL de imágenes de terceros está disponible de forma gratuita directamente desde ImageNet, aunque las imágenes reales no son propiedad de ImageNet. [5] Desde 2010, el proyecto ImageNet organiza un concurso anual de software, el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), donde los programas de software compiten para clasificar y detectar correctamente objetos y escenas. El desafío utiliza una lista "recortada" de mil clases que no se superponen. [6]
La investigadora de IA Fei-Fei Li comenzó a trabajar en la idea de ImageNet en 2006. En un momento en el que la mayoría de las investigaciones de IA se centraban en modelos y algoritmos, Li quería ampliar y mejorar los datos disponibles para entrenar algoritmos de IA. [7] En 2007, Li se reunió con la profesora de Princeton Christiane Fellbaum , una de las creadoras de WordNet , para hablar del proyecto. Como resultado de esta reunión, Li pasó a construir ImageNet a partir de los aproximadamente 22.000 sustantivos de WordNet y utilizando muchas de sus características. [8] También se inspiró en una estimación de 1987 [9] de que la persona promedio reconoce aproximadamente 30.000 tipos diferentes de objetos. [10]
Como profesor adjunto en Princeton , Li reunió a un equipo de investigadores para trabajar en el proyecto ImageNet. Utilizaron Amazon Mechanical Turk para ayudar con la clasificación de imágenes. El etiquetado comenzó en julio de 2008 y finalizó en abril de 2010. Se necesitaron dos años y medio para completar el etiquetado. [8] Contaban con presupuesto suficiente para etiquetar tres veces cada una de las 14 millones de imágenes. [10]
El plan original preveía 10.000 imágenes por categoría, para 40.000 categorías con 400 millones de imágenes, cada una verificada 3 veces. Descubrieron que los humanos pueden clasificar como máximo 2 imágenes por segundo. A este ritmo, se estimó que se necesitarían 19 años humanos de trabajo (sin descanso). [11]
Presentaron su base de datos por primera vez como póster en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones (CVPR) de 2009 en Florida, titulada "ImageNet: Una Vista Previa de un Conjunto de Datos Jerárquicos a Gran Escala". [12] [8] [13] [14] El póster fue reutilizado en la Vision Sciences Society de 2009. [15]
En 2009, Alex Berg sugirió añadir la localización de objetos como tarea. Li se acercó al concurso PASCAL Visual Object Classes en 2009 para colaborar. El resultado fue el posterior ImageNet Large Scale Visual Recognition Challenge , que comenzó en 2010 y cuenta con 1000 clases y localización de objetos, en comparación con PASCAL VOC, que tenía solo 20 clases y 19 737 imágenes (en 2010). [6] [8]
El 30 de septiembre de 2012, una red neuronal convolucional (CNN) llamada AlexNet [16] logró un error de 15,3 % en el top 5 del ImageNet 2012 Challenge, más de 10,8 puntos porcentuales menos que el del segundo clasificado. El uso de redes neuronales convolucionales fue posible gracias al uso de unidades de procesamiento gráfico (GPU) durante el entrenamiento, [16] un ingrediente esencial de la revolución del aprendizaje profundo . Según The Economist , "de repente, la gente empezó a prestar atención, no solo dentro de la comunidad de IA, sino en toda la industria tecnológica en su conjunto". [4] [17] [18]
En 2015, AlexNet fue superado por la CNN muy profunda de Microsoft con más de 100 capas, que ganó el concurso ImageNet 2015. [19]
ImageNet utiliza crowdsourcing para su proceso de anotación. Las anotaciones a nivel de imagen indican la presencia o ausencia de una clase de objeto en una imagen, como "hay tigres en esta imagen" o "no hay tigres en esta imagen". Las anotaciones a nivel de objeto proporcionan un cuadro delimitador alrededor de la parte visible del objeto indicado. ImageNet utiliza una variante del esquema amplio de WordNet para categorizar objetos, ampliado con 120 categorías de razas de perros para mostrar una clasificación detallada. [6]
En 2012, ImageNet fue el mayor usuario académico de Mechanical Turk en el mundo . El trabajador promedio identificó 50 imágenes por minuto. [2]
El plan original del ImageNet completo habría contado con aproximadamente 50 millones de imágenes limpias, diversas y de resolución completa distribuidas en aproximadamente 50 000 synsets. [13] Esto no se logró.
Las estadísticas resumidas proporcionadas el 30 de abril de 2010 son las siguientes: [20]
Las categorías de ImageNet se filtraron a partir de los conceptos de WordNet. Cada concepto, dado que puede contener varios sinónimos (por ejemplo, "gatito" y "gato joven"), se denomina "conjunto de sinónimos" o " conjunto de sinónimos ". En WordNet 3.0 había más de 100 000 conjuntos de sinónimos, la mayoría de los cuales son sustantivos (más de 80 000). El conjunto de datos de ImageNet los filtró a 21 841 conjuntos de sinónimos que son sustantivos contables que se pueden ilustrar visualmente.
Cada synset en WordNet 3.0 tiene un "WordNet ID" (wnid), que es una concatenación de una parte del discurso y un "offset" (un número de identificación único ). Cada wnid comienza con "n" porque ImageNet solo incluye sustantivos . Por ejemplo, el wnid del synset " perro, perro doméstico, Canis familiaris " es "n02084071". [21]
Las categorías en ImageNet se dividen en 9 niveles, desde el nivel 1 (como "mamífero") hasta el nivel 9 (como "pastor alemán"). [11]
Las imágenes se obtuvieron de búsquedas de imágenes en línea ( Google , Picsearch , MSN , Yahoo , Flickr , etc.) utilizando sinónimos en varios idiomas. Por ejemplo: pastor alemán, perro policía alemán, perro pastor alemán, alsaciano, ovejero alemán, pastore tedesco, 德国牧羊犬. [22]
ImageNet consta de imágenes en formato RGB con distintas resoluciones. Por ejemplo, en ImageNet 2012, categoría "pez", la resolución varía de 4288 x 2848 a 75 x 56. En el aprendizaje automático, estas imágenes suelen preprocesarse hasta alcanzar una resolución constante estándar y blanquearse antes de que las procesen más las redes neuronales.
Por ejemplo, en PyTorch, las imágenes ImageNet se normalizan de forma predeterminada dividiendo los valores de los píxeles de modo que se encuentren entre 0 y 1, luego restando por [0,485, 0,456, 0,406] y luego dividiendo por [0,229, 0,224, 0,225]. Estas son las desviaciones estándar y medias para ImageNet, por lo que blanquean los datos de entrada. [23]
Cada imagen está etiquetada con exactamente un wid.
Las características densas de SIFT (descriptores SIFT sin procesar, palabras de código cuantificadas y coordenadas de cada descriptor/palabra de código) para ImageNet-1K estaban disponibles para descargar, diseñadas para una bolsa de palabras visuales . [24]
Los cuadros delimitadores de objetos estaban disponibles para alrededor de 3000 synsets populares [25] con un promedio de 150 imágenes en cada synset. [26]
Además, algunas imágenes tienen atributos. Publicaron 25 atributos para aproximadamente 400 synsets populares: [27] [28]
El conjunto de datos original completo se denomina ImageNet-21K. ImageNet-21k contiene 14.197.122 imágenes divididas en 21.841 clases. Algunos artículos lo resumen y lo denominan ImageNet-22k. [29]
La versión completa de ImageNet-21k se publicó en otoño de 2011 como fall11_whole.tar
. No existe una división oficial de entrenamiento-validación-prueba para ImageNet-21k. Algunas clases contienen solo entre 1 y 10 muestras, mientras que otras contienen miles. [29]
Hay varios subconjuntos del conjunto de datos ImageNet que se utilizan en diversos contextos, a veces denominados "versiones". [16]
Uno de los subconjuntos más utilizados de ImageNet es el "conjunto de datos de localización y clasificación de imágenes ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017". En la literatura de investigación también se lo conoce como ImageNet-1K o ILSVRC2017, lo que refleja el desafío ILSVRC original que involucraba 1000 clases. ImageNet-1K contiene 1 281 167 imágenes de entrenamiento, 50 000 imágenes de validación y 100 000 imágenes de prueba. [30]
Cada categoría en ImageNet-1K es una categoría de hoja, lo que significa que no hay nodos secundarios debajo de ella, a diferencia de ImageNet-21K. Por ejemplo, en ImageNet-21K, hay algunas imágenes categorizadas simplemente como "mamífero", mientras que en ImageNet-1K, solo hay imágenes categorizadas como cosas como "pastor alemán", ya que no hay palabras secundarias debajo de "pastor alemán". [22]
En el invierno de 2021, se actualizó ImageNet-21k. Se filtraron 2702 categorías en el subárbol "persona" para evitar "comportamientos problemáticos" en un modelo entrenado. En 2021, se actualizó ImageNet-1k anotando los rostros que aparecen en las 997 categorías que no son de personas. Descubrieron que los modelos de entrenamiento en el conjunto de datos con estos rostros borrosos causaban una pérdida mínima en el rendimiento. [31]
ImageNetV2 fue un nuevo conjunto de datos que contenía tres conjuntos de prueba con 10 000 cada uno, construidos con la misma metodología que el ImageNet original. [32]
ImageNet-21K-P fue un subconjunto filtrado y limpio de ImageNet-21K, con 12.358.688 imágenes de 11.221 categorías. [29]
El ILSVRC tiene como objetivo "seguir los pasos" del desafío de menor escala PASCAL VOC, establecido en 2005, que contenía solo alrededor de 20.000 imágenes y veinte clases de objetos. [6] Para "democratizar" ImageNet, Fei-Fei Li propuso al equipo de PASCAL VOC una colaboración, a partir de 2010, en la que los equipos de investigación evaluarían sus algoritmos en el conjunto de datos dado y competirían para lograr una mayor precisión en varias tareas de reconocimiento visual. [8]
La competencia anual resultante se conoce ahora como el Desafío de reconocimiento visual a gran escala ImageNet (ILSVRC). El ILSVRC utiliza una lista "reducida" de solo 1000 categorías de imágenes o "clases", incluidas 90 de las 120 razas de perros clasificadas por el esquema completo de ImageNet. [6]
En la década de 2010 se produjo un progreso espectacular en el procesamiento de imágenes.
La primera competencia en 2010 tuvo 11 equipos participantes. El equipo ganador fue una máquina de vectores de soporte lineal (SVM). Las características son una cuadrícula densa de HoG y LBP , esparcidas por codificación y agrupación de coordenadas locales. [33] Logró un 52,9% en precisión de clasificación y un 71,8% en precisión entre los 5 primeros. Se entrenó durante 4 días en tres máquinas de 8 núcleos ( CPU Intel Xeon de 2 GHz de cuatro núcleos duales ). [34]
La segunda competencia en 2011 tuvo menos equipos, con otro SVM ganando con una tasa de error de top-5 del 25%. [10] El equipo ganador fue XRCE de Florent Perronnin, Jorge Sanchez. El sistema era otro SVM lineal, corriendo en vectores Fisher cuantificados [35] . [36] [37] Logró un 74.2% en precisión de top-5.
En 2012, una red neuronal convolucional profunda llamada AlexNet alcanzó un 84,7% de precisión entre las 5 primeras, un gran salto hacia adelante. [38] En los dos años siguientes, la precisión entre las 5 primeras aumentó a más del 90%. Si bien el avance de 2012 "combinó elementos que ya estaban todos allí", la espectacular mejora cuantitativa marcó el comienzo de un auge de la inteligencia artificial en toda la industria. [4]
En 2014, más de cincuenta instituciones participaron en el ILSVRC. [6] En 2017, 29 de los 38 equipos que compitieron tuvieron una precisión superior al 95 %. [39] En 2017, ImageNet declaró que lanzaría un nuevo desafío mucho más difícil en 2018 que implica clasificar objetos 3D utilizando lenguaje natural. Debido a que crear datos 3D es más costoso que anotar una imagen 2D preexistente, se espera que el conjunto de datos sea más pequeño. Las aplicaciones del progreso en esta área irían desde la navegación robótica hasta la realidad aumentada . [1]
En 2015, los investigadores de Microsoft informaron que sus CNN superaban la capacidad humana en las estrechas tareas ILSVRC. [19] [40] Sin embargo, como señaló en 2015 una de las organizadoras del desafío, Olga Russakovsky , el concurso solo abarca 1000 categorías; los humanos pueden reconocer una mayor cantidad de categorías y también (a diferencia de los programas) pueden juzgar el contexto de una imagen. [41]
Se estima que más del 6% de las etiquetas en el conjunto de validación de ImageNet-1k son erróneas. [42] También se encontró que alrededor del 10% de ImageNet-1k contiene etiquetas ambiguas o erróneas y que, cuando se les presenta la predicción de un modelo y la etiqueta original de ImageNet, los anotadores humanos prefieren la predicción de un modelo de última generación en 2020 entrenado en el ImageNet original, lo que sugiere que ImageNet-1k se ha saturado. [43]
Un estudio de la historia de las múltiples capas ( taxonomía , clases de objetos y etiquetado) de ImageNet y WordNet en 2019 describió cómo el sesgo [ aclaración necesaria ] está profundamente arraigado en la mayoría de los enfoques de clasificación para todo tipo de imágenes. [44] [45] [46] [47] ImageNet está trabajando para abordar varias fuentes de sesgo. [48]
Una desventaja del uso de WordNet es que las categorías pueden ser más "elevadas" de lo que sería óptimo para ImageNet: "La mayoría de la gente está más interesada en Lady Gaga o el iPod Mini que en esta rara especie de diplodocus ". [ aclaración necesaria ]
Cuando Li, que había regresado a Princeton para aceptar un trabajo como profesora asistente en 2007, presentó su idea de ImageNet, tuvo dificultades para conseguir que los miembros de la facultad la ayudaran. Finalmente, un profesor especializado en arquitectura informática aceptó unirse a ella como colaborador.
Después de leer sobre el enfoque de WordNet, Li se reunió con la profesora Christiane Fellbaum, una investigadora influyente en el trabajo continuo sobre WordNet, durante una visita a Princeton en 2006.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )