Datos etiquetados

Los datos etiquetados son un grupo de muestras que han sido etiquetadas con una o más etiquetas. El etiquetado normalmente toma un conjunto de datos sin etiquetar y aumenta cada parte con etiquetas informativas. Por ejemplo, una etiqueta de datos podría indicar si una fotografía contiene un caballo o una vaca, qué palabras se pronunciaron en una grabación de audio, qué tipo de acción se realiza en un vídeo, cuál es el tema de un artículo de noticias, cuál es el panorama general. qué sentimiento tiene un tweet, o si un punto en una radiografía es un tumor.

Las etiquetas se pueden obtener pidiendo a los humanos que emitan juicios sobre un determinado dato no etiquetado. ^[1] Los datos etiquetados son significativamente más costosos de obtener que los datos sin etiquetar.

La calidad de los datos etiquetados influye directamente en el rendimiento de los modelos de aprendizaje automático supervisados en funcionamiento, ya que estos modelos aprenden de las etiquetas proporcionadas. ^[2]

Datos etiquetados de colaboración colectiva

En 2006, Fei-Fei Li , codirector del Stanford Human-Centered AI Institute, inició una investigación para mejorar los modelos y algoritmos de inteligencia artificial para el reconocimiento de imágenes ampliando significativamente los datos de entrenamiento . Los investigadores descargaron millones de imágenes de la World Wide Web y un equipo de estudiantes universitarios comenzó a aplicar etiquetas a los objetos de cada imagen. En 2007, Li subcontrató el trabajo de etiquetado de datos en Amazon Mechanical Turk , un mercado en línea para trabajos digitales . Los 3,2 millones de imágenes etiquetadas por más de 49.000 trabajadores formaron la base de ImageNet , una de las bases de datos etiquetadas a mano más grandes para el reconocimiento de contornos de objetos . ^[3]

Etiquetado de datos automatizado

Después de obtener un conjunto de datos etiquetados, se pueden aplicar modelos de aprendizaje automático a los datos para que se puedan presentar nuevos datos sin etiquetar al modelo y se pueda adivinar o predecir una etiqueta probable para ese fragmento de datos sin etiquetar. ^[4]

Desafíos con datos etiquetados

Sesgo basado en datos

La toma de decisiones algorítmica está sujeta al sesgo impulsado por el programador, así como al sesgo impulsado por los datos. Los datos de entrenamiento que se basan en datos etiquetados con sesgos darán lugar a prejuicios y omisiones en un modelo predictivo , a pesar de que el algoritmo de aprendizaje automático sea legítimo. Los datos etiquetados utilizados para entrenar un algoritmo de aprendizaje automático específico deben ser una muestra estadísticamente representativa para no sesgar los resultados. ^[5] Por ejemplo, en los sistemas de reconocimiento facial, los grupos subrepresentados a menudo se clasifican erróneamente si los datos etiquetados disponibles para entrenar no han sido representativos de la población. En 2018, un estudio de Joy Buolamwini y Timnit Gebru demostró que dos conjuntos de datos de análisis facial que se han utilizado para entrenar algoritmos de reconocimiento facial, IJB-A y Adience, están compuestos por un 79,6 % y un 86,2 % de humanos de piel más clara, respectivamente. ^[6]

Error humano e inconsistencia

Los anotadores humanos son propensos a cometer errores y sesgos al etiquetar datos. Esto puede dar lugar a etiquetas inconsistentes y afectar la calidad del conjunto de datos. La inconsistencia puede afectar la capacidad del modelo de aprendizaje automático para generalizar bien. ^[7]

Experiencia en dominios

Ciertos campos, como el análisis de documentos legales o las imágenes médicas , requieren anotadores con conocimientos especializados en el dominio. Sin la experiencia, las anotaciones o los datos etiquetados pueden ser inexactos, lo que afecta negativamente el rendimiento del modelo de aprendizaje automático en un escenario del mundo real. ^[8]

Referencias

^ "¿Qué es el etiquetado de datos? - Explicación del etiquetado de datos - AWS". Servicios web de Amazon, Inc. Consultado el 16 de julio de 2024 .
^ Fredriksson, Teodor; Mattos, David Issa; Bosch, enero; Olsson, Helena Holmström (2020), Morisio, Maurizio; Torchiano, Marco; Jedlitschka, Andreas (eds.), "Etiquetado de datos: una investigación empírica sobre desafíos industriales y estrategias de mitigación", Mejora de procesos de software centrado en productos , vol. 12562, Cham: Springer International Publishing, págs. 202–216, doi :10.1007/978-3-030-64148-1_13, ISBN 978-3-030-64147-4, recuperado el 13 de julio de 2024
^ María L. Gray; Siddharth Suri (2019). Trabajo fantasma: cómo evitar que Silicon Valley construya una nueva clase baja global . Houghton Mifflin Harcourt. pag. 7.ISBN 978-1-328-56628-7.
^ Johnson, Leif. "¿Cuál es la diferencia entre datos etiquetados y no etiquetados?", Stack Overflow , 4 de octubre de 2013. Recuperado el 13 de mayo de 2017. Este artículo incorpora texto de lmjohns3 disponible bajo la licencia CC BY-SA 3.0.
^ Xianhong Hu; Bhanu Neupane; Lucía Flores Echaiz; Prateek Sibal; Macarena Rivera Lam (2019). Dirigir la IA y las TIC avanzadas para las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Publicaciones de la UNESCO. pag. 64.ISBN 978-92-3-100363-9.
^ Xianhong Hu; Bhanu Neupane; Lucía Flores Echaiz; Prateek Sibal; Macarena Rivera Lam (2019). Dirigir la IA y las TIC avanzadas para las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Publicaciones de la UNESCO. pag. 66.ISBN 978-92-3-100363-9.
^ Geiger, R. Estuardo; Hacer frente, Dominique; Ip, Jamie; Lotosh, Marsha; Shah, Aayush; Weng, Jenny; Tang, Rebeca (5 de noviembre de 2021). ""Basura que entra, basura que sale "revisada: ¿Qué informan los artículos sobre aplicaciones de aprendizaje automático sobre los datos de entrenamiento etiquetados por humanos?". Estudios de ciencias cuantitativas . 2 (3): 795–827. arXiv : 2107.02278 . doi :10.1162/qss_a_00144. ISSN 2641-3337.
^ Alzubaidi, Laith; Bai, Jinshuai; Al-Sabaawi, Aiman; Santamaría, José; Albahri, AS; Al-dabbagh, Bashar Sami Nayyef; Fadhel, Mohammed A.; Manoufali, Mohamed; Zhang, Jinglan; Al-Timemy, Ali H.; Duan, Ye; Abdullah, Amjed; Farhan, Laith; Lu, Yi; Gupta, Ashish (14 de abril de 2023). "Una encuesta sobre herramientas de aprendizaje profundo que abordan la escasez de datos: definiciones, desafíos, soluciones, consejos y aplicaciones". Revista de Big Data . 10 (1): 46. doi : 10.1186/s40537-023-00727-2 . ISSN 2196-1115.