El proyecto ImageNet es una gran base de datos visual diseñada para su uso en la investigación de software de reconocimiento visual de objetos . Más de 14 millones [1] [2] de imágenes han sido anotadas a mano por el proyecto para indicar qué objetos se muestran y en al menos un millón de las imágenes, también se proporcionan cuadros delimitadores. [3] ImageNet contiene más de 20.000 categorías, [2] con una categoría típica, como "globo" o "fresa", que consta de varios cientos de imágenes. [4] La base de datos de anotaciones de URL de imágenes de terceros está disponible de forma gratuita directamente desde ImageNet, aunque las imágenes reales no son propiedad de ImageNet. [5] Desde 2010, el proyecto ImageNet organiza un concurso anual de software, el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), donde los programas de software compiten para clasificar y detectar correctamente objetos y escenas. El desafío utiliza una lista "recortada" de mil clases que no se superponen. [6]
El 30 de septiembre de 2012, una red neuronal convolucional (CNN) llamada AlexNet [7] logró un error de 15,3 % en el top 5 del ImageNet 2012 Challenge, más de 10,8 puntos porcentuales menos que el del segundo clasificado. El uso de redes neuronales convolucionales fue posible gracias al uso de unidades de procesamiento gráfico (GPU) durante el entrenamiento, [7] un ingrediente esencial de la revolución del aprendizaje profundo . Según The Economist , "de repente, la gente empezó a prestar atención, no solo dentro de la comunidad de IA, sino en toda la industria tecnológica en su conjunto". [4] [8] [9]
En 2015, AlexNet fue superado por la CNN muy profunda de Microsoft con más de 100 capas, que ganó el concurso ImageNet 2015. [10]
La investigadora de IA Fei-Fei Li comenzó a trabajar en la idea de ImageNet en 2006. En un momento en el que la mayoría de las investigaciones de IA se centraban en modelos y algoritmos, Li quería ampliar y mejorar los datos disponibles para entrenar algoritmos de IA. [11] En 2007, Li se reunió con la profesora de Princeton Christiane Fellbaum , una de las creadoras de WordNet , para hablar del proyecto. Como resultado de esta reunión, Li pasó a construir ImageNet a partir de los aproximadamente 22.000 sustantivos de WordNet y utilizando muchas de sus características. [12] También se inspiró en una estimación de 1987 [13] de que la persona promedio reconoce aproximadamente 30.000 tipos diferentes de objetos. [14]
Como profesor adjunto en Princeton , Li reunió a un equipo de investigadores para trabajar en el proyecto ImageNet. Utilizaron Amazon Mechanical Turk para ayudar con la clasificación de imágenes. Se necesitaron dos años y medio para completar el etiquetado. [12] Contaban con presupuesto suficiente para etiquetar tres veces cada una de las 14 millones de imágenes. [14]
Presentaron su base de datos por primera vez como póster en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones (CVPR) de 2009 en Florida. [12] [15] [16]
En 2009, Alex Berg sugirió añadir la localización de objetos como tarea. Li se acercó al concurso PASCAL Visual Object Classes en 2009 para colaborar. El resultado fue el posterior ImageNet Large Scale Visual Recognition Challenge , que comenzó en 2010 y cuenta con 1000 clases y localización de objetos, en comparación con PASCAL VOC, que tenía solo 20 clases. [12]
ImageNet utiliza crowdsourcing para su proceso de anotación. Las anotaciones a nivel de imagen indican la presencia o ausencia de una clase de objeto en una imagen, como "hay tigres en esta imagen" o "no hay tigres en esta imagen". Las anotaciones a nivel de objeto proporcionan un cuadro delimitador alrededor de la parte visible del objeto indicado. ImageNet utiliza una variante del esquema amplio de WordNet para categorizar objetos, ampliado con 120 categorías de razas de perros para mostrar una clasificación detallada. [6]
Una desventaja del uso de WordNet es que las categorías pueden ser más "elevadas" de lo que sería óptimo para ImageNet: "La mayoría de la gente está más interesada en Lady Gaga o el iPod Mini que en esta rara especie de diplodocus ". [ Aclaración necesaria ] En 2012, ImageNet fue el mayor usuario académico de Mechanical Turk del mundo . El trabajador promedio identificó 50 imágenes por minuto. [2]
ImageNet consta de imágenes en formato RGB con distintas resoluciones. Por ejemplo, en ImageNet 2012, categoría "pez", la resolución varía de 4288 x 2848 a 75 x 56. En el aprendizaje automático, estas imágenes suelen preprocesarse hasta alcanzar una resolución constante estándar y blanquearse antes de que las procesen más las redes neuronales.
Por ejemplo, en PyTorch, las imágenes ImageNet se normalizan de forma predeterminada dividiendo los valores de los píxeles de modo que se encuentren entre 0 y 1, luego restando por [0,485, 0,456, 0,406] y luego dividiendo por [0,229, 0,224, 0,225]. Estas son las desviaciones estándar y medias para ImageNet, por lo que blanquean los datos de entrada. [17]
Hay varios subconjuntos del conjunto de datos ImageNet que se utilizan en diversos contextos, a veces denominados "versiones". [7]
Uno de los subconjuntos más utilizados de ImageNet es el "conjunto de datos de localización y clasificación de imágenes ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017". En la literatura de investigación también se lo conoce como ImageNet-1K o ILSVRC2017, lo que refleja el desafío ILSVRC original que involucraba 1000 clases. ImageNet-1K contiene 1281167 imágenes de entrenamiento, 50 000 imágenes de validación y 100 000 imágenes de prueba. [18] El conjunto de datos original completo se conoce como ImageNet-21K. ImageNet-21k contiene 14 197 122 imágenes divididas en 21 841 clases. Algunos artículos lo resumen y lo denominan ImageNet-22k. [19]
ImageNetV2 fue un nuevo conjunto de datos que contenía tres conjuntos de prueba con 10 000 cada uno, construidos con la misma metodología que el ImageNet original. [20]
El ILSVRC pretende "seguir los pasos" del desafío de menor escala PASCAL VOC, establecido en 2005, que contenía sólo unas 20.000 imágenes y veinte clases de objetos. [6] Para "democratizar" ImageNet, Fei-Fei Li propuso al equipo de PASCAL VOC una colaboración, a partir de 2010, en la que los equipos de investigación evaluarían sus algoritmos en el conjunto de datos dado y competirían para lograr una mayor precisión en varias tareas de reconocimiento visual. [12]
La competencia anual resultante se conoce ahora como el Desafío de reconocimiento visual a gran escala de ImageNet (ILSVRC). El ILSVRC utiliza una lista "reducida" de solo 1000 categorías de imágenes o "clases", incluidas 90 de las 120 razas de perros clasificadas por el esquema completo de ImageNet. [6]
En la década de 2010 se produjeron avances espectaculares en el procesamiento de imágenes. En la primera competición participaron 11 equipos y ganó una máquina de vectores de soporte (SVM). En la segunda competición participaron menos equipos y ganó otra SVM con una tasa de error del 25 %. [14]
En 2012, una red neuronal convolucional profunda llamada AlexNet alcanzó un 16%; en los siguientes dos años, las tasas de error del top-5 cayeron a un pequeño porcentaje. [21] Si bien el avance de 2012 "combinó piezas que ya estaban todas allí", la dramática mejora cuantitativa marcó el comienzo de un auge de la inteligencia artificial en toda la industria. [4] Para 2015, los investigadores de Microsoft informaron que sus CNN excedían la capacidad humana en las estrechas tareas ILSVRC. [10] [22] Sin embargo, como señaló en 2015 una de las organizadoras del desafío, Olga Russakovsky , los programas solo tienen que identificar imágenes como pertenecientes a una de mil categorías; los humanos pueden reconocer un mayor número de categorías y también (a diferencia de los programas) pueden juzgar el contexto de una imagen. [23]
En 2014, más de cincuenta instituciones participaron en el ILSVRC. [6] En 2017, 29 de los 38 equipos que compitieron tuvieron una precisión superior al 95%. [24] En 2017, ImageNet declaró que lanzaría un nuevo desafío mucho más difícil en 2018 que implica clasificar objetos 3D utilizando lenguaje natural. Debido a que la creación de datos 3D es más costosa que la anotación de una imagen 2D preexistente, se espera que el conjunto de datos sea más pequeño. Las aplicaciones del progreso en esta área irían desde la navegación robótica hasta la realidad aumentada . [1]
Se estima que más del 6% de las etiquetas en el conjunto de validación de ImageNet-1k son erróneas. [25] También se encontró que alrededor del 10% de ImageNet-1k contiene etiquetas ambiguas o erróneas y que, cuando se les presenta la predicción de un modelo y la etiqueta original de ImageNet, los anotadores humanos prefieren la predicción de un modelo de última generación en 2020 entrenado en el ImageNet original, lo que sugiere que ImageNet-1k se ha saturado. [26]
Un estudio de la historia de las múltiples capas ( taxonomía , clases de objetos y etiquetado) de ImageNet y WordNet en 2019 describió cómo el sesgo [ aclaración necesaria ] está profundamente arraigado en la mayoría de los enfoques de clasificación para todo tipo de imágenes. [27] [28] [29] [30] ImageNet está trabajando para abordar varias fuentes de sesgo. [31]
Cuando Li, que se había mudado de nuevo a Princeton para aceptar un trabajo como profesora asistente en 2007, presentó su idea de ImageNet, tuvo dificultades para conseguir que los miembros de la facultad la ayudaran. Finalmente, un profesor especializado en arquitectura informática aceptó unirse a ella como colaborador.
Después de leer sobre el enfoque de WordNet, Li se reunió con la profesora Christiane Fellbaum, una investigadora influyente en el trabajo continuo sobre WordNet, durante una visita a Princeton en 2006.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )