stringtranslate.com

EtiquetaMe

LabelMe es un proyecto creado por el Laboratorio de Inteligencia Artificial y Ciencias de la Computación del MIT (CSAIL) que proporciona un conjunto de datos de imágenes digitales con anotaciones . El conjunto de datos es dinámico, de uso gratuito y abierto a la contribución pública. El uso más aplicable de LabelMe es en la investigación de visión artificial . Al 31 de octubre de 2010, LabelMe tenía 187.240 imágenes, 62.197 imágenes anotadas y 658.992 objetos etiquetados.

Motivación

La motivación detrás de la creación de LabelMe proviene de la historia de los datos disponibles públicamente para los investigadores de visión artificial. La mayoría de los datos disponibles se adaptaron a los problemas de un grupo de investigación específico y provocaron que los nuevos investigadores tuvieran que recopilar datos adicionales para resolver sus propios problemas. LabelMe se creó para resolver varias deficiencias comunes de los datos disponibles. A continuación, se incluye una lista de cualidades que distinguen a LabelMe de trabajos anteriores.

Herramienta de anotación

La herramienta de anotación LabelMe ofrece a los usuarios un medio para contribuir al proyecto. Se puede acceder a la herramienta de forma anónima o iniciando sesión en una cuenta gratuita. Para acceder a la herramienta, los usuarios deben tener un navegador web compatible con JavaScript . Cuando se carga la herramienta, elige una imagen aleatoria del conjunto de datos LabelMe y la muestra en la pantalla. Si la imagen ya tiene etiquetas de objetos asociadas, se superpondrán sobre la imagen en formato de polígono. Cada etiqueta de objeto distinta se muestra en un color diferente.

Si la imagen no está completamente etiquetada, el usuario puede usar el mouse para dibujar un polígono que contenga un objeto en la imagen. Por ejemplo, en la imagen adyacente, si una persona estuviera parada frente al edificio, el usuario podría hacer clic en un punto en el borde de la persona y continuar haciendo clic a lo largo del borde exterior hasta regresar al punto de inicio. Una vez que se cierra el polígono, aparece una burbuja en la pantalla que permite al usuario ingresar una etiqueta para el objeto. El usuario puede elegir la etiqueta que crea que describe mejor el objeto. Si el usuario no está de acuerdo con el etiquetado anterior de la imagen, puede hacer clic en el polígono de contorno de un objeto y eliminar el polígono por completo o editar la etiqueta de texto para darle un nuevo nombre.

Tan pronto como el usuario realiza cambios en la imagen, estos se guardan y están disponibles para que cualquiera los descargue del conjunto de datos de LabelMe. De esta manera, los datos siempre cambian gracias a las contribuciones de la comunidad de usuarios que utilizan la herramienta. Una vez que el usuario termina de usar una imagen, puede hacer clic en el enlace Muéstrame otra imagen y se seleccionará otra imagen aleatoria para mostrarle al usuario.

Problemas con los datos

El conjunto de datos LabelMe tiene algunos problemas. Algunos son inherentes a los datos, como que los objetos en las imágenes no están distribuidos de manera uniforme con respecto al tamaño y la ubicación de la imagen. Esto se debe a que las imágenes son tomadas principalmente por humanos que tienden a enfocar la cámara en objetos interesantes en una escena. Sin embargo, recortar y cambiar la escala de las imágenes de manera aleatoria puede simular una distribución uniforme. [1] Otros problemas son causados ​​por la cantidad de libertad que se les da a los usuarios de la herramienta de anotación. Algunos problemas que surgen son:

Los creadores de LabelMe decidieron dejar estas decisiones en manos del anotador. El motivo es que creen que la gente tenderá a anotar las imágenes según lo que creen que es el etiquetado natural de las imágenes. Esto también proporciona cierta variabilidad en los datos, lo que puede ayudar a los investigadores a ajustar sus algoritmos para tener en cuenta esta variabilidad. [2]

Ampliando los datos

Usando WordNet

Dado que las etiquetas de texto para los objetos proporcionados en LabelMe provienen de la entrada del usuario, existe una gran variación en las etiquetas utilizadas (como se describió anteriormente). Debido a esto, el análisis de objetos puede resultar difícil. Por ejemplo, una imagen de un perro podría etiquetarse como perro , canino , perro , perro o animal . Idealmente, al utilizar los datos, la clase de objeto perro en el nivel abstracto debería incorporar todas estas etiquetas de texto.

WordNet es una base de datos de palabras organizadas de forma estructural. Permite asignar una palabra a una categoría o, en el lenguaje de WordNet: a un sentido. La asignación de sentidos no es fácil de hacer de forma automática. Cuando los autores de LabelMe probaron la asignación automática de sentidos, descubrieron que era propensa a una alta tasa de error, por lo que en su lugar asignaron las palabras a los sentidos de forma manual. Al principio, esto puede parecer una tarea abrumadora, ya que se añaden nuevas etiquetas al proyecto LabelMe de forma continua. A la derecha [ aclaración necesaria ] hay un gráfico que compara el crecimiento de los polígonos con el crecimiento de las palabras (descripciones). Como puede ver, el crecimiento de las palabras es pequeño en comparación con el crecimiento continuo de los polígonos y, por lo tanto, es bastante fácil de mantener actualizado manualmente por el equipo de LabelMe. [3]

Una vez que se realiza la tarea de WordNet, las búsquedas en la base de datos LabelMe son mucho más efectivas. Por ejemplo, una búsqueda de animal puede generar imágenes de perros , gatos y serpientes . Sin embargo, dado que la tarea se realizó manualmente, una imagen de un ratón de computadora etiquetada como ratón no aparecería en una búsqueda de animales . Además, si los objetos están etiquetados con términos más complejos como perro caminando , WordNet aún permite que la búsqueda de perro devuelva estos objetos como resultados. WordNet hace que la base de datos LabelMe sea mucho más útil.

Jerarquía de objetos y partes

Tener un gran conjunto de datos de objetos donde se permite la superposición proporciona datos suficientes para intentar categorizar los objetos como parte de otro objeto. Por ejemplo, la mayoría de las etiquetas asignadas a rueda probablemente sean parte de objetos asignados a otras etiquetas como coche o bicicleta . Estas se denominan etiquetas de parte . Para determinar si la etiqueta P es una etiqueta de parte para la etiqueta O : [4]

Este algoritmo permite la clasificación automática de partes de un objeto cuando los objetos de las partes están frecuentemente contenidos dentro del objeto externo.

Ordenamiento de profundidad de objetos

Otro caso de superposición de objetos es cuando un objeto está encima de otro. Por ejemplo, una imagen puede contener una persona parada frente a un edificio. La persona no es una etiqueta de parte como se indicó anteriormente, ya que no es parte del edificio. En cambio, son dos objetos separados que se superponen. Para determinar automáticamente qué objeto está en primer plano y cuál en segundo plano, los autores de LabelMe proponen varias opciones: [5]

Caja de herramientas de Matlab

El proyecto LabelMe ofrece un conjunto de herramientas para utilizar el conjunto de datos LabelMe de Matlab. Dado que la investigación suele realizarse en Matlab, esto permite la integración del conjunto de datos con herramientas existentes en visión artificial. El conjunto de datos completo se puede descargar y utilizar sin conexión, o la caja de herramientas permite la descarga dinámica de contenido a pedido.

Véase también

Referencias

  1. ^ Russell et al. 2008, Sección 2.5
  2. ^ Russell et al. 2008, Sección 2.2
  3. ^ Russell et al. 2008, Sección 3.1
  4. ^ Russell et al. 2008, Sección 3.2
  5. ^ Russell et al. 2008, Sección 3.3
  6. ^ Swain y Ballard 1991
Bibliografía

Enlaces externos