stringtranslate.com

Datos etiquetados

Los datos etiquetados son un grupo de muestras que han sido etiquetadas con una o más etiquetas. El etiquetado generalmente toma un conjunto de datos sin etiquetar y amplía cada parte de ellos con etiquetas informativas. Por ejemplo, una etiqueta de datos podría indicar si una foto contiene un caballo o una vaca, qué palabras se pronunciaron en una grabación de audio, qué tipo de acción se está realizando en un video, cuál es el tema de un artículo de noticias, cuál es el sentimiento general de un tuit o si un punto en una radiografía es un tumor.

Las etiquetas se pueden obtener pidiendo a los humanos que emitan juicios sobre una determinada pieza de datos no etiquetados. [1] Los datos etiquetados son significativamente más costosos de obtener que los datos sin etiquetar en bruto.

La calidad de los datos etiquetados influye directamente en el rendimiento de los modelos de aprendizaje automático supervisado en funcionamiento, ya que estos modelos aprenden de las etiquetas proporcionadas. [2]

Datos etiquetados obtenidos mediante colaboración colectiva

En 2006, Fei-Fei Li , codirector del Instituto de IA Centrada en el Ser Humano de Stanford , inició una investigación para mejorar los modelos de inteligencia artificial y los algoritmos para el reconocimiento de imágenes ampliando significativamente los datos de entrenamiento . Los investigadores descargaron millones de imágenes de la World Wide Web y un equipo de estudiantes universitarios comenzó a aplicar etiquetas de objetos a cada imagen. En 2007, Li subcontrató el trabajo de etiquetado de datos en Amazon Mechanical Turk , un mercado en línea para trabajos digitales . Los 3,2 millones de imágenes que fueron etiquetadas por más de 49.000 trabajadores formaron la base de ImageNet , una de las bases de datos etiquetadas a mano más grandes para el esquema de reconocimiento de objetos . [3]

Etiquetado automático de datos

Después de obtener un conjunto de datos etiquetados, se pueden aplicar modelos de aprendizaje automático a los datos para que se puedan presentar nuevos datos no etiquetados al modelo y se pueda adivinar o predecir una etiqueta probable para esa parte de datos no etiquetados. [4]

Desafíos con los datos etiquetados

Sesgo basado en datos

La toma de decisiones algorítmica está sujeta a sesgos impulsados ​​por el programador, así como a sesgos impulsados ​​por los datos. Los datos de entrenamiento que se basan en datos etiquetados como sesgados darán como resultado prejuicios y omisiones en un modelo predictivo , a pesar de que el algoritmo de aprendizaje automático sea legítimo. Los datos etiquetados utilizados para entrenar un algoritmo de aprendizaje automático específico deben ser una muestra estadísticamente representativa para no sesgar los resultados. [5] Por ejemplo, en los sistemas de reconocimiento facial, los grupos subrepresentados suelen clasificarse erróneamente si los datos etiquetados disponibles para entrenar no han sido representativos de la población. En 2018, un estudio de Joy Buolamwini y Timnit Gebru demostró que dos conjuntos de datos de análisis facial que se han utilizado para entrenar algoritmos de reconocimiento facial, IJB-A y Adience, están compuestos por un 79,6% y un 86,2% de humanos de piel más clara respectivamente. [6]

Error humano e inconsistencia

Los anotadores humanos son propensos a errores y sesgos al etiquetar los datos. Esto puede generar etiquetas inconsistentes y afectar la calidad del conjunto de datos. La inconsistencia puede afectar la capacidad del modelo de aprendizaje automático para generalizar bien. [7]

Experiencia en el dominio

Ciertos campos, como el análisis de documentos legales o las imágenes médicas , requieren anotadores con conocimientos especializados del dominio. Sin la experiencia, las anotaciones o los datos etiquetados pueden ser inexactos, lo que afecta negativamente el rendimiento del modelo de aprendizaje automático en un escenario del mundo real. [8]


Referencias

  1. ^ "¿Qué es el etiquetado de datos? - Explicación del etiquetado de datos - AWS". Amazon Web Services, Inc. Recuperado el 16 de julio de 2024 .
  2. ^ Fredriksson, Teodor; Mattos, David Issa; Bosch, Jan; Olsson, Helena Holmström (2020), Morisio, Maurizio; Torchiano, Marco; Jedlitschka, Andreas (eds.), "Etiquetado de datos: una investigación empírica sobre los desafíos industriales y las estrategias de mitigación", Product-Focused Software Process Improvement , vol. 12562, Cham: Springer International Publishing, págs. 202–216, doi :10.1007/978-3-030-64148-1_13, ISBN 978-3-030-64147-4, consultado el 13 de julio de 2024
  3. ^ Mary L. Gray; Siddharth Suri (2019). Trabajo fantasma: cómo impedir que Silicon Valley construya una nueva subclase global . Houghton Mifflin Harcourt. pág. 7. ISBN 978-1-328-56628-7.
  4. ^ Johnson, Leif. "¿Cuál es la diferencia entre datos etiquetados y no etiquetados?", Stack Overflow , 4 de octubre de 2013. Recuperado el 13 de mayo de 2017. Este artículo incorpora texto de lmjohns3 disponible bajo la licencia CC BY-SA 3.0.
  5. ^ Xianhong Hu; Bhanu Neupane; Lucia Flores Echaiz; Prateek Sibal; Macarena Rivera Lam (2019). La IA y las TIC avanzadas en pos de las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Ediciones UNESCO. p. 64. ISBN 978-92-3-100363-9.
  6. ^ Xianhong Hu; Bhanu Neupane; Lucia Flores Echaiz; Prateek Sibal; Macarena Rivera Lam (2019). La IA y las TIC avanzadas en pos de las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Ediciones UNESCO. p. 66. ISBN 978-92-3-100363-9.
  7. ^ Geiger, R. Stuart; Cope, Dominique; Ip, Jamie; Lotosh, Marsha; Shah, Aayush; Weng, Jenny; Tang, Rebekah (5 de noviembre de 2021). "Revisión de "Basura que entra, basura que sale": ¿qué informan los artículos sobre aplicaciones de aprendizaje automático sobre los datos de entrenamiento etiquetados por humanos?". Estudios de ciencia cuantitativa . 2 (3): 795–827. arXiv : 2107.02278 . doi :10.1162/qss_a_00144. ISSN  2641-3337.
  8. ^ Alzubaidi, Laith; Bai, Jinshuai; Al-Sabaawi, Aiman; Santamaría, José; Albahri, AS; Al-dabbagh, Bashar Sami Nayyef; Fadhel, Mohammed A.; Manoufali, Mohamed; Zhang, Jinglan; Al-Timemy, Ali H.; Duan, Ye; Abdullah, Amjed; Farhan, Laith; Lu, Yi; Gupta, Ashish (14 de abril de 2023). "Una encuesta sobre herramientas de aprendizaje profundo que abordan la escasez de datos: definiciones, desafíos, soluciones, consejos y aplicaciones". Revista de Big Data . 10 (1): 46. doi : 10.1186/s40537-023-00727-2 . ISSN  2196-1115.