Los datos etiquetados son un grupo de muestras que han sido etiquetadas con una o más etiquetas. El etiquetado normalmente toma un conjunto de datos sin etiquetar y aumenta cada parte con etiquetas informativas. Por ejemplo, una etiqueta de datos podría indicar si una fotografía contiene un caballo o una vaca, qué palabras se pronunciaron en una grabación de audio, qué tipo de acción se realiza en un vídeo, cuál es el tema de un artículo de noticias, cuál es el panorama general. qué sentimiento tiene un tweet, o si un punto en una radiografía es un tumor.
Las etiquetas se pueden obtener pidiendo a los humanos que emitan juicios sobre un determinado dato no etiquetado. [1] Los datos etiquetados son significativamente más costosos de obtener que los datos sin etiquetar.
La calidad de los datos etiquetados influye directamente en el rendimiento de los modelos de aprendizaje automático supervisados en funcionamiento, ya que estos modelos aprenden de las etiquetas proporcionadas. [2]
En 2006, Fei-Fei Li , codirector del Stanford Human-Centered AI Institute, inició una investigación para mejorar los modelos y algoritmos de inteligencia artificial para el reconocimiento de imágenes ampliando significativamente los datos de entrenamiento . Los investigadores descargaron millones de imágenes de la World Wide Web y un equipo de estudiantes universitarios comenzó a aplicar etiquetas a los objetos de cada imagen. En 2007, Li subcontrató el trabajo de etiquetado de datos en Amazon Mechanical Turk , un mercado en línea para trabajos digitales . Los 3,2 millones de imágenes etiquetadas por más de 49.000 trabajadores formaron la base de ImageNet , una de las bases de datos etiquetadas a mano más grandes para el reconocimiento de contornos de objetos . [3]
Después de obtener un conjunto de datos etiquetados, se pueden aplicar modelos de aprendizaje automático a los datos para que se puedan presentar nuevos datos sin etiquetar al modelo y se pueda adivinar o predecir una etiqueta probable para ese fragmento de datos sin etiquetar. [4]
La toma de decisiones algorítmica está sujeta al sesgo impulsado por el programador, así como al sesgo impulsado por los datos. Los datos de entrenamiento que se basan en datos etiquetados con sesgos darán lugar a prejuicios y omisiones en un modelo predictivo , a pesar de que el algoritmo de aprendizaje automático sea legítimo. Los datos etiquetados utilizados para entrenar un algoritmo de aprendizaje automático específico deben ser una muestra estadísticamente representativa para no sesgar los resultados. [5] Por ejemplo, en los sistemas de reconocimiento facial, los grupos subrepresentados a menudo se clasifican erróneamente si los datos etiquetados disponibles para entrenar no han sido representativos de la población. En 2018, un estudio de Joy Buolamwini y Timnit Gebru demostró que dos conjuntos de datos de análisis facial que se han utilizado para entrenar algoritmos de reconocimiento facial, IJB-A y Adience, están compuestos por un 79,6 % y un 86,2 % de humanos de piel más clara, respectivamente. [6]
Los anotadores humanos son propensos a cometer errores y sesgos al etiquetar datos. Esto puede dar lugar a etiquetas inconsistentes y afectar la calidad del conjunto de datos. La inconsistencia puede afectar la capacidad del modelo de aprendizaje automático para generalizar bien. [7]
Ciertos campos, como el análisis de documentos legales o las imágenes médicas , requieren anotadores con conocimientos especializados en el dominio. Sin la experiencia, las anotaciones o los datos etiquetados pueden ser inexactos, lo que afecta negativamente el rendimiento del modelo de aprendizaje automático en un escenario del mundo real. [8]