Los modelos basados en datos son una clase de modelos computacionales que se basan principalmente en datos históricos recopilados a lo largo de la vida útil de un sistema o proceso para establecer relaciones entre las variables de entrada, internas y de salida. Los modelos basados en datos, que se encuentran comúnmente en numerosos artículos y publicaciones, han evolucionado a partir de modelos estadísticos anteriores , superando las limitaciones planteadas por suposiciones estrictas sobre distribuciones de probabilidad. Estos modelos han ganado prominencia en varios campos, particularmente en la era del big data , la inteligencia artificial y el aprendizaje automático , donde ofrecen información y predicciones valiosas basadas en los datos disponibles.
Estos modelos han evolucionado a partir de modelos estadísticos anteriores , que se basaban en ciertos supuestos sobre distribuciones de probabilidad que a menudo resultaban ser demasiado restrictivos. [1] La aparición de modelos basados en datos en las décadas de 1950 y 1960 coincidió con el desarrollo de las computadoras digitales , los avances en la investigación de inteligencia artificial y la introducción de nuevos enfoques en el modelado no conductual, como el reconocimiento de patrones y la clasificación automática. [2]
Los modelos basados en datos abarcan una amplia gama de técnicas y metodologías que tienen como objetivo procesar y analizar de forma inteligente grandes conjuntos de datos. Algunos ejemplos son la lógica difusa , los conjuntos difusos y aproximados para el manejo de la incertidumbre, [3] las redes neuronales para aproximar funciones, [4] la optimización global y la computación evolutiva , [5] la teoría del aprendizaje estadístico , [6] y los métodos bayesianos . [7] Estos modelos han encontrado aplicaciones en diversos campos, como la economía, la gestión de las relaciones con los clientes, los servicios financieros, la medicina y el ejército, entre otros. [8]
El aprendizaje automático , un subcampo de la inteligencia artificial , está estrechamente relacionado con el modelado basado en datos, ya que también se centra en el uso de datos históricos para crear modelos que puedan hacer predicciones e identificar patrones. [9] De hecho, muchos modelos basados en datos incorporan técnicas de aprendizaje automático, como algoritmos de regresión , clasificación y agrupamiento , para procesar y analizar datos. [10]
En los últimos años, el concepto de modelos basados en datos ha ganado una considerable atención en el campo de los recursos hídricos, con numerosas aplicaciones, cursos académicos y publicaciones científicas que utilizan el término como una generalización para los modelos que se basan en datos en lugar de en la física. [11] Esta clasificación ha aparecido en varias publicaciones e incluso ha estimulado el desarrollo de modelos híbridos en la última década. Los modelos híbridos intentan cuantificar el grado de información basada en la física que se utiliza en los modelos hidrológicos y determinar si el proceso de construcción del modelo está impulsado principalmente por la física o se basa puramente en datos. Como resultado, los modelos basados en datos se han convertido en un tema esencial de discusión y exploración en la gestión y la investigación de los recursos hídricos. [12]
El término "modelado basado en datos" (DDM) se refiere al paradigma general de utilizar datos históricos junto con técnicas computacionales avanzadas, incluido el aprendizaje automático y la inteligencia artificial, para crear modelos que puedan revelar tendencias y patrones subyacentes y, en algunos casos, hacer predicciones [13]. Los modelos basados en datos se pueden construir con o sin conocimiento detallado de los procesos subyacentes que rigen el comportamiento del sistema, lo que los hace particularmente útiles cuando dicho conocimiento falta o está fragmentado. [14]