Los datos etiquetados son un grupo de muestras que han sido etiquetadas con una o más etiquetas. El etiquetado generalmente toma un conjunto de datos sin etiquetar y amplía cada parte de ellos con etiquetas informativas. Por ejemplo, una etiqueta de datos podría indicar si una foto contiene un caballo o una vaca, qué palabras se pronunciaron en una grabación de audio, qué tipo de acción se está realizando en un video, cuál es el tema de un artículo de noticias, cuál es el sentimiento general de un tuit o si un punto en una radiografía es un tumor.
Las etiquetas se pueden obtener pidiendo a los humanos que emitan juicios sobre una determinada pieza de datos no etiquetados. [1] Los datos etiquetados son significativamente más costosos de obtener que los datos sin etiquetar en bruto.
La calidad de los datos etiquetados influye directamente en el rendimiento de los modelos de aprendizaje automático supervisado en funcionamiento, ya que estos modelos aprenden de las etiquetas proporcionadas. [2]
En 2006, Fei-Fei Li , codirector del Instituto de IA Centrada en el Ser Humano de Stanford , inició una investigación para mejorar los modelos de inteligencia artificial y los algoritmos para el reconocimiento de imágenes ampliando significativamente los datos de entrenamiento . Los investigadores descargaron millones de imágenes de la World Wide Web y un equipo de estudiantes universitarios comenzó a aplicar etiquetas de objetos a cada imagen. En 2007, Li subcontrató el trabajo de etiquetado de datos en Amazon Mechanical Turk , un mercado en línea para trabajos digitales . Los 3,2 millones de imágenes que fueron etiquetadas por más de 49.000 trabajadores formaron la base de ImageNet , una de las bases de datos etiquetadas a mano más grandes para el esquema de reconocimiento de objetos . [3]
Después de obtener un conjunto de datos etiquetados, se pueden aplicar modelos de aprendizaje automático a los datos para que se puedan presentar nuevos datos no etiquetados al modelo y se pueda adivinar o predecir una etiqueta probable para esa parte de datos no etiquetados. [4]
La toma de decisiones algorítmica está sujeta a sesgos impulsados por el programador, así como a sesgos impulsados por los datos. Los datos de entrenamiento que se basan en datos etiquetados como sesgados darán como resultado prejuicios y omisiones en un modelo predictivo , a pesar de que el algoritmo de aprendizaje automático sea legítimo. Los datos etiquetados utilizados para entrenar un algoritmo de aprendizaje automático específico deben ser una muestra estadísticamente representativa para no sesgar los resultados. [5] Por ejemplo, en los sistemas de reconocimiento facial, los grupos subrepresentados suelen clasificarse erróneamente si los datos etiquetados disponibles para entrenar no han sido representativos de la población. En 2018, un estudio de Joy Buolamwini y Timnit Gebru demostró que dos conjuntos de datos de análisis facial que se han utilizado para entrenar algoritmos de reconocimiento facial, IJB-A y Adience, están compuestos por un 79,6% y un 86,2% de humanos de piel más clara respectivamente. [6]
Los anotadores humanos son propensos a errores y sesgos al etiquetar los datos. Esto puede generar etiquetas inconsistentes y afectar la calidad del conjunto de datos. La inconsistencia puede afectar la capacidad del modelo de aprendizaje automático para generalizar bien. [7]
Ciertos campos, como el análisis de documentos legales o las imágenes médicas , requieren anotadores con conocimientos especializados del dominio. Sin la experiencia, las anotaciones o los datos etiquetados pueden ser inexactos, lo que afecta negativamente el rendimiento del modelo de aprendizaje automático en un escenario del mundo real. [8]