Formato de intercambio de modelos predictivos
El lenguaje de marcado de modelos predictivos ( PMML ) es un formato de intercambio de modelos predictivos basado en XML concebido por Robert Lee Grossman , entonces director del Centro Nacional de Minería de Datos de la Universidad de Illinois en Chicago . PMML proporciona una forma para que las aplicaciones analíticas describan e intercambien modelos predictivos producidos por algoritmos de minería de datos y aprendizaje automático . Admite modelos comunes como la regresión logística y otras redes neuronales de propagación hacia adelante . La versión 0.9 se publicó en 1998. [1] Las versiones posteriores han sido desarrolladas por el Grupo de Minería de Datos. [2]
Dado que PMML es un estándar basado en XML, la especificación se presenta en forma de esquema XML . PMML en sí es un estándar maduro con más de 30 organizaciones que han anunciado productos que lo admiten. [3]
Componentes de PMML
Un archivo PMML se puede describir mediante los siguientes componentes: [4] [5]
- Encabezado : contiene información general sobre el documento PMML, como información sobre los derechos de autor del modelo, su descripción e información sobre la aplicación utilizada para generar el modelo, como el nombre y la versión. También contiene un atributo para una marca de tiempo que se puede utilizar para especificar la fecha de creación del modelo.
- Diccionario de datos : contiene definiciones de todos los campos posibles que utiliza el modelo. Aquí se define un campo como continuo, categórico u ordinal (atributo optype). Según esta definición, se definen los rangos de valores adecuados, así como el tipo de datos (por ejemplo, cadena o doble).
- Transformaciones de datos : las transformaciones permiten mapear los datos del usuario en una forma más conveniente para que el modelo de minería los use. PMML define varios tipos de transformaciones de datos simples.
- Normalización: asigna valores a números, la entrada puede ser continua o discreta.
- Discretización: asignar valores continuos a valores discretos.
- Mapeo de valores: asigna valores discretos a valores discretos.
- Funciones (personalizadas e integradas): derivan un valor aplicando una función a uno o más parámetros.
- Agregación: se utiliza para resumir o recopilar grupos de valores.
- Modelo : contiene la definición del modelo de minería de datos. Por ejemplo, una red neuronal de propagación hacia adelante de múltiples capas se representa en PMML mediante un elemento "NeuralNetwork" que contiene atributos como:
- Nombre del modelo (atributo modelName)
- Nombre de la función (atributo functionName)
- Nombre del algoritmo (atributo algorithmName)
- Función de activación (atributo activationFunction)
- Número de capas (atributo numberOfLayers)
- A esta información le siguen tres tipos de capas neuronales que especifican la arquitectura del modelo de red neuronal que se representa en el documento PMML. Estos atributos son NeuralInputs, NeuralLayer y NeuralOutputs. Además de las redes neuronales, PMML permite la representación de muchos otros tipos de modelos, entre los que se incluyen máquinas de vectores de soporte , reglas de asociación , clasificadores Naive Bayes , modelos de agrupamiento, modelos de texto , árboles de decisión y diferentes modelos de regresión .
- Esquema de minería : una lista de todos los campos utilizados en el modelo. Puede ser un subconjunto de los campos definidos en el diccionario de datos. Contiene información específica sobre cada campo, como por ejemplo:
- Nombre (nombre del atributo): debe hacer referencia a un campo en el diccionario de datos
- Tipo de uso (atributo usageType): define la forma en que se utilizará un campo en el modelo. Los valores típicos son: activo, predicho y complementario. Los campos predichos son aquellos cuyos valores son predichos por el modelo.
- Tratamiento de valores atípicos (atributo de valores atípicos): define el tratamiento de valores atípicos que se utilizará. En PMML, los valores atípicos se pueden tratar como valores faltantes, como valores extremos (según la definición de valores altos y bajos para un campo en particular) o tal como son.
- Política de reemplazo de valores faltantes (atributo missingValueReplacement): si se especifica este atributo, el valor faltante se reemplaza automáticamente por los valores dados.
- Tratamiento del valor faltante (atributo missingValueTreatment): indica cómo se derivó el reemplazo del valor faltante (por ejemplo, como valor, media o mediana).
- Objetivos : permite el posprocesamiento del valor predicho en formato de escala si la salida del modelo es continua. Los objetivos también se pueden utilizar para tareas de clasificación. En este caso, el atributo priorProbability especifica una probabilidad predeterminada para la categoría objetivo correspondiente. Se utiliza si la lógica de predicción en sí no produjo un resultado. Esto puede suceder, por ejemplo, si falta un valor de entrada y no hay otro método para tratar los valores faltantes.
- Salida : este elemento se puede utilizar para nombrar todos los campos de salida deseados que se esperan del modelo. Estas son características del campo predicho y, por lo tanto, suelen ser el valor predicho en sí, la probabilidad, la afinidad de clúster (para modelos de agrupamiento), el error estándar, etc. La última versión de PMML, PMML 4.1, amplió la salida para permitir el posprocesamiento genérico de las salidas del modelo. En PMML 4.1, todas las funciones integradas y personalizadas que originalmente estaban disponibles solo para el preprocesamiento también estuvieron disponibles para el posprocesamiento.
PMML 4.0, 4.1, 4.2 y 4.3
PMML 4.0 se lanzó el 16 de junio de 2009. [6] [7] [8]
Algunos ejemplos de nuevas características incluyen:
PMML 4.1 se lanzó el 31 de diciembre de 2011. [9] [10]
Nuevas características incluidas:
- Nuevos elementos del modelo para representar cuadros de mando, k vecinos más cercanos ( KNN ) y modelos de línea base.
- Simplificación de múltiples modelos. En PMML 4.1, se utiliza el mismo elemento para representar la segmentación, el ensamble y el encadenamiento de modelos.
- Definición general del alcance del campo y los nombres de los campos.
- Un nuevo atributo que identifica para cada elemento del modelo si el modelo está listo o no para su implementación en producción.
- Capacidades de posprocesamiento mejoradas (a través del elemento Salida).
PMML 4.2 se lanzó el 28 de febrero de 2014. [11] [12]
Las nuevas características incluyen:
- Transformaciones: Nuevos elementos para implementar minería de texto
- Nuevas funciones integradas para implementar expresiones regulares: coincidencias, concatenación y reemplazo
- Salidas simplificadas para posprocesamiento
- Mejoras en los elementos del modelo Scorecard y Naive Bayes
PMML 4.3 se lanzó el 23 de agosto de 2016. [13] [14]
Las nuevas características incluyen:
- Nuevos tipos de modelos:
- Proceso gaussiano
- Red bayesiana
- Nuevas funciones integradas
- Aclaraciones de uso
- Mejoras en la documentación
La versión 4.4 se lanzó en noviembre de 2019. [15] [16]
Historial de versiones
Grupo de Minería de Datos
El Data Mining Group es un consorcio administrado por el Center for Computational Science Research, Inc., una organización sin fines de lucro fundada en 2008. [17] El Data Mining Group también desarrolló un estándar llamado Portable Format for Analytics , o PFA, que es complementario a PMML.
Véase también
Referencias
- ^ "La gestión y minería de múltiples modelos predictivos utilizando el lenguaje de marcado de modelado predictivo". ResearchGate . doi :10.1016/S0950-5849(99)00022-1 . Consultado el 21 de diciembre de 2015 .
- ^ "Data Mining Group" . Consultado el 14 de diciembre de 2017 .
El DMG se enorgullece de albergar a los grupos de trabajo que desarrollan el
lenguaje de marcado de modelos predictivos (PMML)
y el
formato portátil para análisis (PFA)
, dos estándares complementarios que simplifican la implementación de modelos analíticos.
- ^ "PMML Powered". Grupo de Minería de Datos . Consultado el 14 de diciembre de 2017 .
- ^ A. Guazzelli, M. Zeller, W. Chen y G. Williams. PMML: un estándar abierto para compartir modelos. The R Journal , volumen 1/1, mayo de 2009.
- ^ A. Guazzelli, W. Lin, T. Jena (2010). PMML en acción (2.ª edición): Liberando el poder de los estándares abiertos para la minería de datos y el análisis predictivo. CreateSpace.
- ^ Sitio web de Data Mining Group | PMML 4.0 - Cambios con respecto a PMML 3.2 Archivado el 28 de julio de 2012 en archive.today
- ^ "Sitio web de Zementis | ¡PMML 4.0 ya está aquí!". Archivado desde el original el 2011-10-03 . Consultado el 2009-06-17 .
- ^ R. Pechter. ¿Qué es PMML y qué hay de nuevo en PMML 4.0? Boletín de exploraciones de ACM SIGKDD , volumen 11/1, julio de 2009.
- ^ Sitio web de Data Mining Group | PMML 4.1 - Cambios con respecto a PMML 4.0
- ^ Sitio web de información de análisis predictivo | ¡PMML 4.1 ya está aquí!
- ^ Sitio web de Data Mining Group | PMML 4.2 - Cambios con respecto a PMML 4.1 Archivado el 20 de mayo de 2014 en archive.today
- ^ Sitio web de información de análisis predictivo | ¡PMML 4.2 ya está aquí!
- ^ Sitio web de Data Mining Group | PMML 4.3 - Cambios respecto de PMML 4.2.1
- ^ Sitio web del producto Predictive Model Markup Language | Actividad del proyecto
- ^ "El grupo de minería de datos lanza el lenguaje de marcado de modelos predictivos v4.4" . Consultado el 12 de julio de 2021 .
- ^ "PMML 4.4.1 - Estructura general". Data Mining Group . Consultado el 12 de julio de 2021 .
- ^ "2008 EO 990" . Consultado el 16 de octubre de 2014 .
Enlaces externos
- Preprocesamiento de datos en PMML y ADAPA: una introducción
- Vídeo de la presentación de PMML de Alex Guazzelli para el grupo de minería de datos de ACM (alojado en LinkedIn)
- Especificación PMML 3.2
- Especificación PMML 4.0
- Especificación PMML 4.1
- Especificación PMML 4.2.1
- Especificación PMML 4.4
- Representación de soluciones predictivas en PMML: pasar de los datos sin procesar a las predicciones - Artículo publicado en el sitio web IBM developerWorks.
- Análisis predictivo en atención sanitaria: la importancia de los estándares abiertos - Artículo publicado en el sitio web IBM developerWorks.