stringtranslate.com

Datos sintéticos

Los datos sintéticos son información generada artificialmente en lugar de producida por eventos del mundo real. Los datos sintéticos, que suelen crearse mediante algoritmos, se pueden utilizar para validar modelos matemáticos y entrenar modelos de aprendizaje automático. [1]

Los datos generados por una simulación por ordenador pueden considerarse datos sintéticos. Esto abarca la mayoría de las aplicaciones de modelado físico, como los sintetizadores musicales o los simuladores de vuelo. El resultado de estos sistemas se aproxima al real, pero se genera completamente mediante algoritmos.

Los datos sintéticos se utilizan en diversos campos como filtro de información que, de otro modo, comprometería la confidencialidad de determinados aspectos de los datos. En muchas aplicaciones sensibles, los conjuntos de datos existen teóricamente, pero no pueden divulgarse al público en general; [2] los datos sintéticos evitan los problemas de privacidad que surgen del uso de información real de los consumidores sin permiso ni compensación.

Utilidad

Los datos sintéticos se generan para satisfacer necesidades específicas o ciertas condiciones que pueden no encontrarse en los datos reales originales. Uno de los obstáculos en la aplicación de enfoques de aprendizaje automático actualizados para tareas científicas complejas es la escasez de datos etiquetados, una brecha que se supera de manera eficaz mediante el uso de datos sintéticos, que replican fielmente los datos experimentales reales. [3] Esto puede ser útil al diseñar muchos sistemas, desde simulaciones basadas en valores teóricos hasta procesadores de bases de datos, etc. Esto ayuda a detectar y resolver problemas inesperados, como limitaciones de procesamiento de información. Los datos sintéticos a menudo se generan para representar los datos auténticos y permiten establecer una línea de base. [4] Otro beneficio de los datos sintéticos es proteger la privacidad y la confidencialidad de los datos auténticos, al tiempo que permiten su uso en sistemas de prueba.

El resumen de un artículo científico, citado a continuación, describe un software que genera datos sintéticos para probar sistemas de detección de fraudes. "Esto nos permite crear perfiles de comportamiento realistas para usuarios y atacantes. Los datos se utilizan para entrenar al propio sistema de detección de fraudes , creando así la adaptación necesaria del sistema a un entorno específico". [4] En contextos militares y de defensa, los datos sintéticos se consideran una herramienta potencialmente valiosa para desarrollar y mejorar sistemas de IA complejos, particularmente en contextos donde los datos del mundo real de alta calidad son escasos. [5] Al mismo tiempo, los datos sintéticos junto con el enfoque de prueba pueden brindar la capacidad de modelar

Historia

El modelado científico de sistemas físicos, que permite ejecutar simulaciones en las que se pueden estimar, calcular y generar puntos de datos que no se han observado en la realidad real, tiene una larga historia que transcurre simultáneamente con la historia de la física misma. Por ejemplo, la investigación sobre la síntesis de audio y voz se remonta a la década de 1930 y antes, impulsada por los avances, por ejemplo, del teléfono y la grabación de audio. La digitalización dio lugar a los sintetizadores de software a partir de la década de 1970.

En el contexto del análisis estadístico que preserva la privacidad, en 1993, Rubin creó la idea de los datos originales totalmente sintéticos . [6] Rubin diseñó originalmente esto para sintetizar las respuestas del formulario largo del Censo Decenal para los hogares con formulario corto. Luego publicó muestras que no incluían ningún registro real del formulario largo; con esto preservó el anonimato del hogar. [7] Más tarde ese año, Little creó la idea de los datos originales parcialmente sintéticos. Little utilizó esta idea para sintetizar los valores sensibles en el archivo de uso público. [8]

En 1994, Fienberg propuso la idea del refinamiento crítico, en el que utilizó una distribución predictiva posterior paramétrica (en lugar de un bootstrap de Bayes) para realizar el muestreo. [7] Más tarde, otros contribuyentes importantes al desarrollo de la generación de datos sintéticos fueron Trivellore Raghunathan, Jerry Reiter, Donald Rubin , John M. Abowd y Jim Woodcock . En conjunto, propusieron una solución para tratar los datos parcialmente sintéticos con datos faltantes. De manera similar, propusieron la técnica de imputación multivariante de regresión secuencial . [7]

Cálculos

Los investigadores prueban el marco en datos sintéticos, que son "la única fuente de verdad fundamental con la que pueden evaluar objetivamente el rendimiento de sus algoritmos ". [9]

Los datos sintéticos se pueden generar mediante el uso de líneas aleatorias, con diferentes orientaciones y posiciones iniciales. [10] Los conjuntos de datos pueden volverse bastante complicados. Se puede generar un conjunto de datos más complicado mediante una construcción de sintetizador. Para crear una construcción de sintetizador, primero use los datos originales para crear un modelo o ecuación que se ajuste mejor a los datos. Este modelo o ecuación se llamará construcción de sintetizador. Esta construcción se puede utilizar para generar más datos. [11]

La construcción de un sintetizador implica la construcción de un modelo estadístico . En un ejemplo de línea de regresión lineal , se pueden representar gráficamente los datos originales y se puede crear una línea lineal de mejor ajuste a partir de los datos. Esta línea es un sintetizador creado a partir de los datos originales. El siguiente paso será generar más datos sintéticos a partir de la construcción del sintetizador o de esta ecuación de línea lineal. De esta manera, los nuevos datos se pueden utilizar para estudios e investigaciones, y se protege la confidencialidad de los datos originales. [11]

David Jensen, del Knowledge Discovery Laboratory, explica cómo generar datos sintéticos: "Los investigadores necesitan con frecuencia explorar los efectos de ciertas características de los datos en su modelo de datos ". [11] Para ayudar a construir conjuntos de datos que exhiban propiedades específicas, como autocorrelación o disparidad de grados, la proximidad puede generar datos sintéticos que tengan uno de varios tipos de estructura gráfica: gráficos aleatorios que se generan mediante algún proceso aleatorio ; gráficos reticulares que tienen una estructura de anillo; gráficos reticulares que tienen una estructura de cuadrícula, etc. [11] En todos los casos, el proceso de generación de datos sigue el mismo proceso:

  1. Generar la estructura gráfica vacía .
  2. Generar valores de atributos basados ​​en probabilidades previas proporcionadas por el usuario.

Dado que los valores de los atributos de un objeto pueden depender de los valores de los atributos de objetos relacionados, el proceso de generación de atributos asigna valores colectivamente. [11]

Aplicaciones

Sistemas de detección de fraude y confidencialidad

Los sistemas de detección de fraudes y de confidencialidad se prueban y entrenan utilizando datos sintéticos. Se diseñan algoritmos y generadores específicos para crear datos realistas [12] , que luego ayudan a enseñarle al sistema cómo reaccionar ante determinadas situaciones o criterios. Por ejemplo, el software de detección de intrusiones se prueba utilizando datos sintéticos. Estos datos son una representación de los datos auténticos y pueden incluir instancias de intrusión que no se encuentran en los datos auténticos. Los datos sintéticos permiten que el software reconozca estas situaciones y reaccione en consecuencia. Si no se utilizaran datos sintéticos, el software solo se entrenaría para reaccionar ante las situaciones proporcionadas por los datos auténticos y podría no reconocer otro tipo de intrusión [4] .

Investigación científica

Los investigadores que realizan ensayos clínicos o cualquier otra investigación pueden generar datos sintéticos para ayudar a crear una base para estudios y pruebas futuros.

Los datos reales pueden contener información que los investigadores no quieren que se divulgue, [13] por lo que a veces se utilizan datos sintéticos para proteger la privacidad y la confidencialidad de un conjunto de datos. El uso de datos sintéticos reduce los problemas de confidencialidad y privacidad, ya que no contienen información personal y no se puede rastrear a ningún individuo.

Aprendizaje automático

Los datos sintéticos se utilizan cada vez más para aplicaciones de aprendizaje automático : se entrena un modelo en un conjunto de datos generados sintéticamente con la intención de transferir el aprendizaje a datos reales. Se han hecho esfuerzos para permitir más experimentos de ciencia de datos mediante la construcción de generadores de datos sintéticos de propósito general, como Synthetic Data Vault. [14] En general, los datos sintéticos tienen varias ventajas naturales:

Este uso de datos sintéticos se ha propuesto para aplicaciones de visión por computadora, en particular la detección de objetos , donde el entorno sintético es un modelo 3D del objeto, [15] y el aprendizaje para navegar en entornos mediante información visual.

Al mismo tiempo, el aprendizaje por transferencia sigue siendo un problema no trivial y los datos sintéticos aún no se han vuelto omnipresentes. Los resultados de las investigaciones indican que agregar una pequeña cantidad de datos reales mejora significativamente el aprendizaje por transferencia con datos sintéticos. Los avances en las redes generativas antagónicas (GAN) conducen a la idea natural de que uno puede producir datos y luego usarlos para entrenamiento. Desde al menos 2016, este entrenamiento antagónico se ha utilizado con éxito para producir datos sintéticos de calidad suficiente para producir resultados de vanguardia en algunos dominios, sin siquiera tener que volver a mezclar datos reales con los datos sintéticos generados. [16]

Ejemplos

En 1987, un vehículo autónomo Navlab utilizó 1200 imágenes sintéticas de carreteras como método de entrenamiento. [17]

En 2021, Microsoft publicó una base de datos de 100.000 rostros sintéticos basados ​​en (500 rostros reales) que afirma "coincidir con los datos reales en precisión". [17] [18]

Véase también

Referencias

  1. ^ "¿Qué son los datos sintéticos? - Definición de WhatIs.com". SearchCIO . Consultado el 8 de septiembre de 2022 .
  2. ^ Nikolenko, Sergey I. (2021). Datos sintéticos para aprendizaje profundo. Optimización de Springer y sus aplicaciones. Vol. 174. doi :10.1007/978-3-030-75178-4. ISBN 978-3-030-75177-7.S2CID202750227  .​
  3. ^ Zivenko, Oleksii; Walton, Noah AW; Fritsch, William; Forbes, Jacob; Lewis, Amanda M.; Clark, Aaron; Brown, Jesse M.; Sobes, Vladimir (3 de junio de 2024). "Validación de la evaluación de resonancia automatizada con datos sintéticos". arXiv : 2406.01754 [physics.comp-ph].
  4. ^ abc Barse, EL; Kvarnström, H.; Jonsson, E. (2003). Sintetización de datos de prueba para sistemas de detección de fraudes . Actas de la 19.ª Conferencia Anual sobre Aplicaciones de Seguridad Informática. IEEE. doi :10.1109/CSAC.2003.1254343.
  5. ^ Deng, Harry (30 de noviembre de 2023). "Explorando datos sintéticos para inteligencia artificial y sistemas autónomos: una introducción". Instituto de las Naciones Unidas de Investigación sobre el Desarme .
  6. ^ "Discusión: Limitación de la divulgación estadística". Revista de estadísticas oficiales . 9 : 461–468. 1993.
  7. ^ abc Abowd, John M. "Protección de la confidencialidad de los microdatos de las ciencias sociales: datos sintéticos y métodos relacionados. [Diapositivas de PowerPoint]" . Consultado el 17 de febrero de 2011 .
  8. ^ "Análisis estadístico de datos enmascarados". Revista de estadísticas oficiales . 9 : 407–426. 1993.
  9. ^ Jackson, Charles; Murphy, Robert F.; Kovačević, Jelena (septiembre de 2009). "Adquisición inteligente y aprendizaje de modelos de datos de microscopios de fluorescencia" (PDF) . IEEE Transactions on Image Processing . 18 (9): 2071–84. Bibcode :2009ITIP...18.2071J. doi :10.1109/TIP.2009.2024580. PMID  19502128. S2CID  3718670.
  10. ^ Wang, Aiqi; Qiu, Tianshuang; Shao, Longtan (julio de 2009). "Un método simple de corrección de distorsión radial con estimación del centro de distorsión". Revista de imágenes y visión matemática . 35 (3): 165–172. doi :10.1007/s10851-009-0162-1. S2CID  207175690.
  11. ^ abcde David Jensen (2004). "6. Uso de scripts". Tutorial de Proximity 4.3 .
  12. ^ Deng, Robert H.; Bao, Feng; Zhou, Jianying (diciembre de 2002). Seguridad de la información y las comunicaciones. Actas de la 4.ª Conferencia internacional, ICICS 2002, Singapur. ISBN 9783540361596.
  13. ^ Abowd, John M.; Lane, Julia (9–11 de junio de 2004). Nuevos enfoques para la protección de la confidencialidad: datos sintéticos, acceso remoto y centros de datos de investigación . Privacidad en bases de datos estadísticas: Conferencia final del proyecto CASC, Actas. Barcelona, ​​España. doi :10.1007/978-3-540-25955-8_22.
  14. ^ Patki, Neha; Wedge, Roy; Veeramachaneni, Kalyan. La bóveda de datos sintéticos . Ciencia de datos y análisis avanzados (DSAA) 2016. IEEE. doi :10.1109/DSAA.2016.49.
  15. ^ Peng, Xingchao; Sun, Baochen; Ali, Karim; Saenko, Kate (2015). "Aprendizaje de detectores de objetos profundos a partir de modelos 3D". arXiv : 1412.7122 [cs.CV].
  16. ^ Shrivastava, Ashish; Pfister, Tomas; Tuzel, Oncel; Susskind, Josh; Wang, Wenda; Webb, Russ (2016). "Aprendizaje a partir de imágenes simuladas y no supervisadas mediante entrenamiento adversarial". arXiv : 1612.07828 [cs.CV].
  17. ^ ab "Las redes neuronales necesitan datos para aprender. Incluso si son falsos". Junio ​​de 2023. Consultado el 17 de junio de 2023 .
  18. ^ Wood, Erroll; Baltrušaitis, Tadas; Hewitt, Charlie; Dziadzio, Sebastian; Cashman, Thomas J.; Shotton, Jamie (2021). "Fingir hasta que lo consigas: análisis de rostros en la naturaleza utilizando solo datos sintéticos". Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computador (ICCV) : 3681–3691. arXiv : 2109.15102 .

Lectura adicional