La agricultura de datos es el proceso de utilizar experimentos computacionales diseñados para “cultivar” datos, que luego pueden analizarse mediante técnicas estadísticas y de visualización para obtener información sobre sistemas complejos. Estos métodos se pueden aplicar a cualquier modelo computacional.
La agricultura de datos se diferencia de la minería de datos , como lo indican las siguientes metáforas:
Los mineros buscan valiosas pepitas de mineral enterradas en la tierra, pero no tienen control sobre lo que hay ahí afuera ni sobre lo difícil que es extraer las pepitas de su entorno. ... De manera similar, los mineros de datos buscan descubrir valiosas pepitas de información enterradas en cantidades masivas de datos. Las técnicas de minería de datos utilizan medidas estadísticas y gráficas para tratar de identificar correlaciones o grupos interesantes en el conjunto de datos.
Los agricultores cultivan la tierra para maximizar su rendimiento. Manipulan el medio ambiente en su beneficio mediante el riego, el control de plagas, la rotación de cultivos, los fertilizantes y más. Los experimentos diseñados a pequeña escala les permiten determinar si estos tratamientos son eficaces. De manera similar, los agricultores de datos manipulan los modelos de simulación en su beneficio, utilizando la experimentación diseñada a gran escala para generar datos de sus modelos de una manera que les permita extraer fácilmente información útil. ... los resultados pueden revelar relaciones de causa y efecto fundamentales entre los factores de entrada del modelo y las respuestas del modelo, además de ricas vistas gráficas y estadísticas de estas relaciones. [1]
Un grupo de trabajo de modelado y simulación de la OTAN ha documentado el proceso de cultivo de datos en el Informe Final del MSG-088. [2] En este caso, el cultivo de datos utiliza procesos colaborativos que combinan la creación rápida de prototipos de escenarios, el modelado de simulación, el diseño de experimentos, la informática de alto rendimiento y el análisis y la visualización en un ciclo iterativo de ciclos. [3]
La ciencia del diseño de experimentos (DOE, por sus siglas en inglés) existe desde hace más de un siglo, y fue iniciada por RA Fisher para estudios agrícolas. Muchos de los diseños de experimentos clásicos se pueden utilizar en estudios de simulación. Sin embargo, los experimentos computacionales tienen muchas menos restricciones que los experimentos del mundo real en términos de costos, número de factores, tiempo requerido, capacidad de replicación, capacidad de automatización, etc. En consecuencia, se justifica un marco orientado específicamente a los experimentos de simulación a gran escala.
Los experimentos computacionales se han llevado a cabo desde que existen las computadoras. El término “cultivo de datos” es más reciente, acuñado en 1998 [4] en conjunto con el Proyecto Albert del Cuerpo de Marines, [5] en el que se crearon pequeños modelos de destilación basados en agentes (un tipo de simulación estocástica) para capturar desafíos militares específicos. Estos modelos se ejecutaron miles o millones de veces en el Centro de Computación de Alto Rendimiento de Maui [6] y otras instalaciones. Los analistas del Proyecto Albert trabajarían con los expertos en la materia militar para refinar los modelos e interpretar los resultados.
Inicialmente, el uso de diseños factoriales completos (en cuadrícula) de fuerza bruta implicaba que las simulaciones debían ejecutarse muy rápidamente y los estudios requerían computación de alto rendimiento . Aun así, solo se pudo investigar una pequeña cantidad de factores (en una cantidad limitada de niveles), debido a la maldición de la dimensionalidad .
El Centro SEED para el cultivo de datos [7] de la Escuela Naval de Posgrado [8] también trabajó en estrecha colaboración con el Proyecto Albert en la generación de modelos, el análisis de resultados y la creación de nuevos diseños experimentales para aprovechar mejor las capacidades informáticas de Maui y otras instalaciones. Los últimos avances en diseños desarrollados específicamente para el cultivo de datos se pueden encontrar en [9] [10] , entre otros.
Desde 1998, el Centro de Agricultura de Datos de SEED ha organizado una serie de talleres internacionales sobre agricultura de datos. [11] El primer taller internacional sobre agricultura de datos se celebró en 1991 y, desde entonces, se han celebrado 16 talleres más. En los talleres ha participado una gran variedad de países, como Canadá, Singapur, México, Turquía y Estados Unidos. [12]
Los talleres internacionales sobre cultivo de datos funcionan mediante la colaboración entre varios equipos de expertos. En el taller más reciente, celebrado en 2008, participaron más de 100 equipos. A los equipos de agricultores de datos se les asigna un área de estudio específica, como robótica , seguridad nacional y ayuda en caso de desastres . Cada grupo experimenta y utiliza diferentes formas de cultivo de datos, como el ABM de Pitágoras , el modelo de comando de batalla logístico y el modelo de sensor-efector basado en agentes (ABSEM). [12]