En matemáticas , estadística y modelado computacional , un modelo de caja gris [1] [2] [3] [4] combina una estructura teórica parcial con datos para completar el modelo. La estructura teórica puede variar desde información sobre la suavidad de los resultados hasta modelos que solo necesitan valores de parámetros de los datos o la literatura existente. [5] Por lo tanto, casi todos los modelos son modelos de caja gris en oposición a la caja negra donde no se asume ninguna forma de modelo o modelos de caja blanca que son puramente teóricos. Algunos modelos asumen una forma especial como una regresión lineal [6] [7] o una red neuronal . [8] [9] Estos tienen métodos de análisis especiales. En particular, las técnicas de regresión lineal [10] son mucho más eficientes que la mayoría de las técnicas no lineales. [11] [12] El modelo puede ser determinista o estocástico (es decir, que contiene componentes aleatorios) dependiendo de su uso planificado.
El caso general es un modelo no lineal con una estructura teórica parcial y algunas partes desconocidas derivadas de los datos. Los modelos con estructuras teóricas diferentes deben evaluarse individualmente, [1] [13] [14] posiblemente utilizando recocido simulado o algoritmos genéticos .
Dentro de una estructura de modelo particular, puede ser necesario encontrar parámetros [14] [15] o relaciones de parámetros variables [5] [16] . Para una estructura particular, se supone arbitrariamente que los datos consisten en conjuntos de vectores de alimentación f , vectores de producto p y vectores de condición de operación c . [5] Normalmente c contendrá valores extraídos de f , así como otros valores. En muchos casos, un modelo se puede convertir en una función de la forma: [5] [17] [18]
donde la función vectorial m proporciona los errores entre los datos p y las predicciones del modelo. El vector q proporciona algunos parámetros variables que son las partes desconocidas del modelo.
Los parámetros q varían con las condiciones de operación c de una manera a determinar. [5] [17] Esta relación puede especificarse como q = Ac donde A es una matriz de coeficientes desconocidos, y c como en la regresión lineal [6] [7] incluye un término constante y posiblemente valores transformados de las condiciones de operación originales para obtener relaciones no lineales [19] [20] entre las condiciones de operación originales y q . Entonces es una cuestión de seleccionar qué términos en A son distintos de cero y asignar sus valores. La finalización del modelo se convierte en un problema de optimización para determinar los valores distintos de cero en A que minimizan los términos de error m(f,p,Ac) sobre los datos. [1] [16] [21] [22] [23]
Una vez que se realiza una selección de valores distintos de cero, los coeficientes restantes en A se pueden determinar minimizando m ( f , p , Ac ) sobre los datos con respecto a los valores distintos de cero en A , típicamente mediante mínimos cuadrados no lineales . La selección de los términos distintos de cero se puede realizar mediante métodos de optimización como recocido simulado y algoritmos evolutivos . Además, los mínimos cuadrados no lineales pueden proporcionar estimaciones de precisión [11] [15] para los elementos de A que se pueden usar para determinar si son significativamente diferentes de cero, proporcionando así un método de selección de términos . [24] [25]
A veces es posible calcular valores de q para cada conjunto de datos, directamente o mediante mínimos cuadrados no lineales . Luego, se puede utilizar la regresión lineal más eficiente para predecir q utilizando c, seleccionando así los valores distintos de cero en A y estimando sus valores. Una vez que se encuentran los valores distintos de cero, se pueden utilizar mínimos cuadrados no lineales en el modelo original m(f,p,Ac) para refinar estos valores. [16] [21] [22]
Un tercer método es la inversión del modelo , [5] [17] [18] que convierte la m no lineal ( f , p , Ac ) en una forma lineal aproximada en los elementos de A , que se puede examinar utilizando una selección de términos eficiente [24] [25] y la evaluación de la regresión lineal. [10] Para el caso simple de un único valor q ( q = a T c ) y una estimación q* de q . Poniendo d q = a T c − q* se obtiene
de modo que una T está ahora en una posición lineal con todos los demás términos conocidos, y por lo tanto puede ser analizada mediante técnicas de regresión lineal . Para más de un parámetro el método se extiende de manera directa. [5] [18] [17] Después de comprobar que el modelo ha sido mejorado este proceso puede repetirse hasta la convergencia. Este enfoque tiene las ventajas de que no necesita que los parámetros q puedan determinarse a partir de un conjunto de datos individual y la regresión lineal se realiza sobre los términos de error originales [5]
Cuando se dispone de datos suficientes, se recomienda dividir los datos en un conjunto de construcción de modelos independiente y uno o dos conjuntos de evaluación . Esto se puede repetir utilizando múltiples selecciones del conjunto de construcción y los modelos resultantes se pueden promediar o utilizar para evaluar las diferencias de predicción.
Una prueba estadística como la prueba de chi-cuadrado sobre los residuos no es particularmente útil. [26] La prueba de chi-cuadrado requiere desviaciones estándar conocidas que rara vez están disponibles, y las pruebas fallidas no dan ninguna indicación de cómo mejorar el modelo. [11] Hay una variedad de métodos para comparar modelos anidados y no anidados. Estos incluyen la comparación de predicciones del modelo con datos repetidos.
Un intento de predecir los residuos m(, ) con las condiciones de operación c mediante regresión lineal mostrará si los residuos pueden predecirse. [21] [22] Los residuos que no pueden predecirse ofrecen pocas perspectivas de mejorar el modelo utilizando las condiciones de operación actuales. [5] Los términos que predicen los residuos son términos prospectivos para incorporar al modelo para mejorar su desempeño. [21]
La técnica de inversión del modelo anterior se puede utilizar como método para determinar si un modelo se puede mejorar. En este caso, la selección de términos distintos de cero no es tan importante y la predicción lineal se puede realizar utilizando los vectores propios significativos de la matriz de regresión . Los valores en A determinados de esta manera deben sustituirse en el modelo no lineal para evaluar las mejoras en los errores del modelo. La ausencia de una mejora significativa indica que los datos disponibles no pueden mejorar la forma actual del modelo utilizando los parámetros definidos. [5] Se pueden insertar parámetros adicionales en el modelo para que esta prueba sea más completa.