La validación y conciliación de datos de procesos industriales , o más brevemente, la conciliación de datos de procesos (PDR) , es una tecnología que utiliza información de procesos y métodos matemáticos para garantizar automáticamente la validación y conciliación de datos mediante la corrección de mediciones en procesos industriales. El uso de PDR permite extraer información precisa y confiable sobre el estado de los procesos industriales a partir de datos de medición sin procesar y produce un único conjunto consistente de datos que representan la operación de proceso más probable.
Los procesos industriales, por ejemplo los procesos químicos o termodinámicos en plantas químicas, refinerías, sitios de producción de petróleo o gas o centrales eléctricas, a menudo se representan mediante dos medios fundamentales:
Los modelos pueden tener distintos niveles de detalle, por ejemplo, se pueden incorporar balances de masa o de compuestos simples, o modelos termodinámicos más avanzados que incluyan leyes de conservación de energía. Matemáticamente, el modelo se puede expresar mediante un sistema no lineal de ecuaciones en las variables , que incorpora todas las restricciones del sistema mencionadas anteriormente (por ejemplo, los balances de masa o calor alrededor de una unidad). Una variable podría ser la temperatura o la presión en un lugar determinado de la planta.
Los datos se originan típicamente a partir de mediciones tomadas en diferentes lugares a lo largo del sitio industrial, por ejemplo, mediciones de temperatura, presión, caudal volumétrico, etc. Para comprender los principios básicos de PDR, es importante reconocer primero que las mediciones de planta nunca son 100% correctas, es decir, la medición en bruto no es una solución del sistema no lineal . Cuando se utilizan mediciones sin corrección para generar balances de planta, es común tener incoherencias. Los errores de medición se pueden clasificar en dos tipos básicos:
Los errores aleatorios significan que la medición es una variable aleatoria con media , donde es el valor verdadero que normalmente no se conoce. Un error sistemático , por otro lado, se caracteriza por una medición que es una variable aleatoria con media , que no es igual al valor verdadero . Para facilitar la derivación e implementación de una solución de estimación óptima, y con base en argumentos de que los errores son la suma de muchos factores (de modo que el teorema del límite central tiene algún efecto), la conciliación de datos supone que estos errores se distribuyen normalmente .
Otras fuentes de errores al calcular los balances de la planta incluyen fallas de proceso como fugas, pérdidas de calor no modeladas, propiedades físicas incorrectas u otros parámetros físicos utilizados en ecuaciones y estructura incorrecta como líneas de derivación no modeladas. Otros errores incluyen dinámicas de planta no modeladas como cambios de retención y otras inestabilidades en las operaciones de la planta que violan los modelos de estado estable (algebraicos). Surgen errores dinámicos adicionales cuando las mediciones y las muestras no se toman al mismo tiempo, especialmente análisis de laboratorio.
La práctica habitual de utilizar promedios de tiempo para la entrada de datos reduce en parte los problemas dinámicos. Sin embargo, eso no resuelve por completo las inconsistencias de tiempo para datos que se muestrean con poca frecuencia, como los análisis de laboratorio.
Este uso de valores promedio, como un promedio móvil , actúa como un filtro de paso bajo , por lo que el ruido de alta frecuencia se elimina en su mayor parte. El resultado es que, en la práctica, la conciliación de datos consiste principalmente en realizar ajustes para corregir errores sistemáticos como sesgos.
ISA-95 es el estándar internacional para la integración de sistemas empresariales y de control [1] Afirma que:
La conciliación de datos es un tema serio para la integración del control empresarial. Los datos deben ser válidos para ser útiles para el sistema empresarial. Los datos a menudo deben determinarse a partir de mediciones físicas que tienen factores de error asociados. Por lo general, estos deben convertirse en valores exactos para el sistema empresarial. Esta conversión puede requerir una conciliación manual o inteligente de los valores convertidos [...]. Los sistemas deben configurarse para garantizar que se envíen datos precisos a producción y desde producción. Los errores involuntarios del operador o del personal administrativo pueden dar como resultado demasiada producción, muy poca producción, producción incorrecta, inventario incorrecto o inventario faltante.
La PDR se ha vuelto cada vez más importante debido a los procesos industriales que se están volviendo cada vez más complejos. La PDR comenzó a principios de la década de 1960 con aplicaciones destinadas a cerrar balances de materiales en procesos de producción donde estaban disponibles mediciones brutas para todas las variables . [2] Al mismo tiempo, se ha presentado el problema de la identificación y eliminación de errores brutos . [3] A fines de la década de 1960 y en la década de 1970, las variables no medidas se tomaron en cuenta en el proceso de conciliación de datos., [4] [5] La PDR también se volvió más madura al considerar sistemas de ecuaciones no lineales generales provenientes de modelos termodinámicos., [6] , [7] [8] La dinámica de estado estacionario cuasi para el filtrado y la estimación simultánea de parámetros a lo largo del tiempo fue introducida en 1977 por Stanley y Mah. [7] La PDR dinámica fue formulada como un problema de optimización no lineal por Liebman et al. en 1992. [9]
La conciliación de datos es una técnica que tiene como objetivo corregir errores de medición que se deben al ruido de medición, es decir, errores aleatorios . Desde un punto de vista estadístico, el supuesto principal es que no existen errores sistemáticos en el conjunto de mediciones, ya que pueden sesgar los resultados de la conciliación y reducir la solidez de la misma.
Dadas las mediciones , la conciliación de datos se puede expresar matemáticamente como un problema de optimización de la siguiente forma:
donde es el valor reconciliado de la -ésima medición ( ), es el valor medido de la -ésima medición ( ), es la -ésima variable no medida ( ), y es la desviación estándar de la -ésima medición ( ), son las restricciones de igualdad del proceso y son los límites de las variables medidas y no medidas.
El término se denomina penalidad de medida i . La función objetivo es la suma de las penalidades, que se denotará en lo sucesivo por .
En otras palabras, se desea minimizar la corrección general (medida en el término de mínimos cuadrados) que se necesita para satisfacer las restricciones del sistema . Además, cada término de mínimos cuadrados se pondera por la desviación estándar de la medición correspondiente. La desviación estándar está relacionada con la precisión de la medición. Por ejemplo, con un nivel de confianza del 95 %, la desviación estándar es aproximadamente la mitad de la precisión.
La conciliación de datos se basa en gran medida en el concepto de redundancia para corregir las mediciones lo menos posible con el fin de satisfacer las restricciones del proceso. Aquí, la redundancia se define de forma diferente a la redundancia en la teoría de la información . En cambio, la redundancia surge de la combinación de datos de sensores con el modelo (restricciones algebraicas), a veces llamada más específicamente "redundancia espacial", [7] "redundancia analítica" o "redundancia topológica".
La redundancia puede deberse a la redundancia de sensores , donde los sensores se duplican para tener más de una medición de la misma cantidad. La redundancia también surge cuando una sola variable se puede estimar de varias maneras independientes a partir de conjuntos separados de mediciones en un momento dado o período de promedio de tiempo, utilizando las restricciones algebraicas.
La redundancia está vinculada al concepto de observabilidad . Una variable (o sistema) es observable si los modelos y las mediciones de los sensores se pueden utilizar para determinar de forma única su valor (estado del sistema). Un sensor es redundante si su eliminación no provoca pérdida de observabilidad. Stanley y Mah [10] establecieron definiciones rigurosas de observabilidad, calculabilidad y redundancia, junto con criterios para determinarla, para estos casos con restricciones establecidas, como ecuaciones algebraicas y desigualdades. A continuación, ilustramos algunos casos especiales:
La redundancia topológica está íntimamente relacionada con los grados de libertad ( ) de un sistema matemático, [11] es decir, el número mínimo de piezas de información (es decir, mediciones) que se requieren para calcular todas las variables del sistema. Por ejemplo, en el ejemplo anterior, la conservación del flujo requiere que . Es necesario conocer el valor de dos de las 3 variables para calcular la tercera. Los grados de libertad del modelo en ese caso son iguales a 2. Se necesitan al menos 2 mediciones para estimar todas las variables, y se necesitarían 3 para la redundancia.
Cuando hablamos de redundancia topológica tenemos que distinguir entre variables medidas y no medidas. A continuación, denotemos por las variables no medidas y las variables medidas. Entonces, el sistema de restricciones del proceso se convierte en , que es un sistema no lineal en y . Si el sistema es calculable con las mediciones dadas, entonces el nivel de redundancia topológica se define como , es decir, el número de mediciones adicionales que están disponibles además de las mediciones que se requieren para calcular el sistema. Otra forma de ver el nivel de redundancia es utilizar la definición de , que es la diferencia entre el número de variables (medidas y no medidas) y el número de ecuaciones. Entonces se obtiene
es decir, la redundancia es la diferencia entre el número de ecuaciones y el número de variables no medidas . El nivel de redundancia total es la suma de la redundancia del sensor y la redundancia topológica. Hablamos de redundancia positiva si el sistema es calculable y la redundancia total es positiva. Se puede ver que el nivel de redundancia topológica simplemente depende del número de ecuaciones (cuantas más ecuaciones, mayor redundancia) y del número de variables no medidas (cuantas más variables no medidas, menor redundancia) y no del número de variables medidas.
Los recuentos simples de variables, ecuaciones y mediciones son inadecuados para muchos sistemas, y fallan por varias razones: (a) Algunas partes de un sistema pueden tener redundancia, mientras que otras no, y algunas partes pueden incluso no ser posibles de calcular, y (b) Las no linealidades pueden llevar a conclusiones diferentes en diferentes puntos de operación. Como ejemplo, considere el siguiente sistema con 4 corrientes y 2 unidades.
Incorporamos únicamente restricciones de conservación de flujo y obtenemos y . Es posible que el sistema no sea calculable, aunque .
Si tenemos medidas para y , pero no para y , entonces no se puede calcular el sistema (el conocimiento no da información sobre y ). Por otro lado, si se conocen y , pero no y , entonces se puede calcular el sistema.
En 1981, se probaron los criterios de observabilidad y redundancia para este tipo de redes de flujo que involucran solo restricciones de balance de masa y energía. [12] Después de combinar todas las entradas y salidas de la planta en un "nodo de entorno", la pérdida de observabilidad corresponde a ciclos de corrientes no medidas. Esto se ve en el segundo caso anterior, donde las corrientes a y b están en un ciclo de corrientes no medidas. La clasificación de redundancia sigue, probando un camino de corrientes no medidas, ya que eso conduciría a un ciclo no medido si se eliminara la medición. Las mediciones c y d son redundantes en el segundo caso anterior, aunque parte del sistema no es observable.
La redundancia se puede utilizar como fuente de información para verificar y corregir las mediciones y aumentar su precisión y exactitud: por un lado, se concilian Además, el problema de conciliación de datos presentado anteriormente también incluye variables no medidas . Con base en la redundancia de información, se pueden calcular estimaciones para estas variables no medidas junto con sus precisiones. En los procesos industriales, estas variables no medidas que proporciona la conciliación de datos se denominan sensores blandos o sensores virtuales, donde no se instalan sensores de hardware.
La validación de datos denota todas las acciones de validación y verificación antes y después del paso de conciliación.
El filtrado de datos es el proceso de tratamiento de los datos medidos de forma que los valores adquieran significado y se encuentren dentro del rango de valores esperados. El filtrado de datos es necesario antes del proceso de conciliación para aumentar la solidez de este último. Existen varias formas de filtrar datos, por ejemplo, tomando el promedio de varios valores medidos durante un período de tiempo bien definido.
La validación de resultados es el conjunto de acciones de validación o verificación que se llevan a cabo después del proceso de conciliación y que tiene en cuenta las variables medidas y no medidas, así como los valores conciliados. La validación de resultados abarca, entre otras cosas, el análisis de penalizaciones para determinar la fiabilidad de la conciliación o las comprobaciones de límites para garantizar que los valores conciliados se encuentren dentro de un determinado rango, por ejemplo, la temperatura debe estar dentro de unos límites razonables.
La validación de resultados puede incluir pruebas estadísticas para validar la fiabilidad de los valores conciliados, comprobando si existen errores graves en el conjunto de valores medidos. Estas pruebas pueden ser, por ejemplo:
Si no existen errores graves en el conjunto de valores medidos, entonces cada término de penalización en la función objetivo es una variable aleatoria que se distribuye normalmente con media igual a 0 y varianza igual a 1. En consecuencia, la función objetivo es una variable aleatoria que sigue una distribución de chi-cuadrado , ya que es la suma del cuadrado de variables aleatorias distribuidas normalmente. Comparar el valor de la función objetivo con un percentil dado de la función de densidad de probabilidad de una distribución de chi-cuadrado (por ejemplo, el percentil 95 para una confianza del 95%) da una indicación de si existe un error grave: Si , entonces no existen errores graves con una probabilidad del 95%. La prueba de chi cuadrado da solo una indicación aproximada sobre la existencia de errores graves, y es fácil de realizar: solo hay que comparar el valor de la función objetivo con el valor crítico de la distribución de chi cuadrado.
La prueba individual compara cada término de penalización en la función objetivo con los valores críticos de la distribución normal. Si el término de penalización -ésimo está fuera del intervalo de confianza del 95 % de la distribución normal, entonces hay motivos para creer que esta medición tiene un error grave.
La conciliación avanzada de datos de proceso (PDR) es un enfoque integrado de combinación de técnicas de conciliación y validación de datos, que se caracteriza por
Los modelos simples incluyen únicamente balances de masa. Al añadir restricciones termodinámicas como balances de energía al modelo, su alcance y el nivel de redundancia aumentan. De hecho, como hemos visto anteriormente, el nivel de redundancia se define como , donde es el número de ecuaciones. Incluir balances de energía significa añadir ecuaciones al sistema, lo que da como resultado un mayor nivel de redundancia (siempre que se disponga de suficientes mediciones o, equivalentemente, no queden demasiadas variables sin medir).
Los errores graves son errores sistemáticos de medición que pueden sesgar los resultados de la conciliación. Por lo tanto, es importante identificar y eliminar estos errores graves del proceso de conciliación. Después de la conciliación, se pueden aplicar pruebas estadísticas que indiquen si existe o no un error grave en algún lugar del conjunto de mediciones. Estas técnicas de corrección de errores graves se basan en dos conceptos:
La eliminación de errores graves determina una medición que está sesgada por un error sistemático y descarta esta medición del conjunto de datos. La determinación de la medición que se debe descartar se basa en diferentes tipos de términos de penalización que expresan cuánto se desvían los valores medidos de los valores conciliados. Una vez que se detectan los errores graves, se descartan de las mediciones y la conciliación se puede realizar sin estas mediciones defectuosas que arruinan el proceso de conciliación. Si es necesario, la eliminación se repite hasta que no exista ningún error grave en el conjunto de mediciones.
La relajación del error bruto tiene como objetivo relajar la estimación de la incertidumbre de las mediciones sospechosas de modo que el valor conciliado se encuentre en el intervalo de confianza del 95 %. La relajación suele aplicarse cuando no es posible determinar qué medición en torno a una unidad es responsable del error bruto (equivalencia de errores brutos). En ese caso, aumentan las incertidumbres de las mediciones involucradas.
Es importante destacar que la remediación de errores graves reduce la calidad de la conciliación, ya sea porque disminuye la redundancia (eliminación) o porque aumenta la incertidumbre de los datos medidos (relajación). Por lo tanto, solo se puede aplicar cuando el nivel inicial de redundancia es lo suficientemente alto como para garantizar que la conciliación de datos aún se pueda realizar (ver Sección 2, [11] ).
Las soluciones PDR avanzadas ofrecen una integración de las técnicas mencionadas anteriormente:
El resultado de un procedimiento PDR avanzado es un conjunto coherente de datos de proceso validados y reconciliados.
La PDR se utiliza principalmente en sectores industriales en los que las mediciones no son precisas o incluso no existen, como por ejemplo en el sector upstream , donde los medidores de caudal son difíciles o costosos de colocar (véase [13] ); o donde los datos precisos son de gran importancia, por ejemplo por razones de seguridad en las centrales nucleares (véase [14] ). Otro campo de aplicación es la monitorización del rendimiento y de los procesos (véase [15] ) en la refinación de petróleo o en la industria química.
Como el PDR permite calcular estimaciones incluso para variables no medidas de manera confiable, la Sociedad Alemana de Ingeniería (VDI Gesellschaft Energie und Umwelt) ha aceptado la tecnología PDR como un medio para reemplazar sensores costosos en la industria de la energía nuclear (ver norma VDI 2048, [11] ).