Datos etiquetados

Los datos etiquetados son un grupo de muestras que han sido etiquetadas con una o más etiquetas. El etiquetado normalmente toma un conjunto de datos sin etiquetar y aumenta cada parte con etiquetas informativas. Por ejemplo, una etiqueta de datos podría indicar si una fotografía contiene un caballo o una vaca, qué palabras se pronunciaron en una grabación de audio, qué tipo de acción se realiza en un vídeo, cuál es el tema de un artículo de noticias, cuál es el panorama general. qué sentimiento tiene un tweet, o si un punto en una radiografía es un tumor.

Las etiquetas se pueden obtener pidiendo a los humanos que emitan juicios sobre un determinado dato no etiquetado. Los datos etiquetados son significativamente más costosos de obtener que los datos sin etiquetar.

Datos etiquetados de colaboración colectiva

En 2006, Fei-Fei Li , codirector del Stanford Human-Centered AI Institute, se propuso mejorar los modelos y algoritmos de inteligencia artificial para el reconocimiento de imágenes ampliando significativamente los datos de entrenamiento . Los investigadores descargaron millones de imágenes de la World Wide Web y un equipo de estudiantes universitarios comenzó a aplicar etiquetas a los objetos de cada imagen. En 2007, Li subcontrató el trabajo de etiquetado de datos en Amazon Mechanical Turk , un mercado en línea para trabajos digitales . Los 3,2 millones de imágenes etiquetadas por más de 49.000 trabajadores formaron la base de ImageNet , una de las bases de datos etiquetadas a mano más grandes para el reconocimiento de contornos de objetos . ^[1]

Etiquetado de datos automatizado

Después de obtener un conjunto de datos etiquetados, se pueden aplicar modelos de aprendizaje automático a los datos para que se puedan presentar nuevos datos sin etiquetar al modelo y se pueda adivinar o predecir una etiqueta probable para ese fragmento de datos sin etiquetar. ^[2]

Sesgo basado en datos

La toma de decisiones algorítmicas está sujeta al sesgo impulsado por los programadores, así como al sesgo impulsado por los datos. Los datos de entrenamiento que se basan en datos etiquetados con sesgos darán lugar a prejuicios y omisiones en un modelo predictivo , a pesar de que el algoritmo de aprendizaje automático sea legítimo. Los datos etiquetados utilizados para entrenar un algoritmo de aprendizaje automático específico deben ser una muestra estadísticamente representativa para no sesgar los resultados. ^[3] Debido a que los datos etiquetados disponibles para entrenar sistemas de reconocimiento facial no han sido representativos de una población, los grupos subrepresentados en los datos etiquetados a menudo se clasifican erróneamente posteriormente. En 2018, un estudio de Joy Buolamwini y Timnit Gebru demostró que dos conjuntos de datos de análisis facial que se han utilizado para entrenar algoritmos de reconocimiento facial, IJB-A y Adience, están compuestos por un 79,6 % y un 86,2 % de humanos de piel más clara, respectivamente. ^[4]

Referencias

^ María L. Gray; Siddharth Suri (2019). Trabajo fantasma: cómo evitar que Silicon Valley construya una nueva clase baja global . Houghton Mifflin Harcourt. pag. 7.ISBN 978-1-328-56628-7.
^ Johnson, Leif. "¿Cuál es la diferencia entre datos etiquetados y no etiquetados?", Stack Overflow , 4 de octubre de 2013. Recuperado el 13 de mayo de 2017. Este artículo incorpora texto de lmjohns3 disponible bajo la licencia CC BY-SA 3.0.
^ Xianhong Hu; Bhanu Neupane; Lucía Flores Echaiz; Prateek Sibal; Macarena Rivera Lam (2019). Dirigir la IA y las TIC avanzadas para las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Publicaciones de la UNESCO. pag. 64.ISBN 978-92-3-100363-9.
^ Xianhong Hu; Bhanu Neupane; Lucía Flores Echaiz; Prateek Sibal; Macarena Rivera Lam (2019). Dirigir la IA y las TIC avanzadas para las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Publicaciones de la UNESCO. pag. 66.ISBN 978-92-3-100363-9.