Modelado predictivo

Los modelos predictivos utilizan estadísticas para predecir resultados. ^[1] La mayoría de las veces, el evento que se desea predecir ocurre en el futuro, pero los modelos predictivos se pueden aplicar a cualquier tipo de evento desconocido, independientemente de cuándo haya ocurrido. Por ejemplo, los modelos predictivos se utilizan a menudo para detectar delitos e identificar sospechosos después de que el delito haya tenido lugar. ^[2]

En muchos casos, el modelo se elige sobre la base de la teoría de detección para intentar adivinar la probabilidad de un resultado dada una cantidad determinada de datos de entrada, por ejemplo, dado un correo electrónico, determinar la probabilidad de que sea spam .

Los modelos pueden utilizar uno o más clasificadores para intentar determinar la probabilidad de que un conjunto de datos pertenezca a otro conjunto. Por ejemplo, un modelo puede utilizarse para determinar si un correo electrónico es spam o no.

Dependiendo de los límites de definición, el modelado predictivo es sinónimo o se superpone en gran medida con el campo del aprendizaje automático , como se lo conoce más comúnmente en contextos académicos o de investigación y desarrollo. Cuando se implementa comercialmente, el modelado predictivo a menudo se denomina análisis predictivo .

El modelado predictivo se contrasta a menudo con el modelado/análisis causal . En el primero, uno puede estar completamente satisfecho con hacer uso de indicadores o sustitutos del resultado de interés. En el segundo, uno busca determinar verdaderas relaciones de causa y efecto. Esta distinción ha dado lugar a una creciente literatura en los campos de los métodos de investigación y las estadísticas y a la afirmación común de que " la correlación no implica causalidad ".

Modelos

Casi cualquier modelo estadístico puede utilizarse con fines de predicción. En términos generales, existen dos clases de modelos predictivos: paramétricos y no paramétricos . Una tercera clase, los modelos semiparamétricos , incluye características de ambos. Los modelos paramétricos hacen "suposiciones específicas con respecto a uno o más de los parámetros de población que caracterizan la(s) distribución(es) subyacente(s)". ^[3] Los modelos no paramétricos "normalmente implican menos suposiciones de estructura y forma distributiva [que los modelos paramétricos] pero suelen contener fuertes suposiciones sobre independencias". ^[4]

Aplicaciones

Modelado de elevación

El modelado de mejora es una técnica para modelar el cambio en la probabilidad causado por una acción. Normalmente, se trata de una acción de marketing, como una oferta para comprar un producto, para usar un producto más o para volver a firmar un contrato. Por ejemplo, en una campaña de retención, desea predecir el cambio en la probabilidad de que un cliente siga siendo cliente si se lo contacta. Un modelo del cambio en la probabilidad permite que la campaña de retención se oriente a aquellos clientes para quienes el cambio en la probabilidad será beneficioso. Esto permite que el programa de retención evite provocar una pérdida innecesaria de clientes sin desperdiciar dinero contactando a personas que actuarían de todos modos.

Arqueología

El modelado predictivo en arqueología tiene sus bases en el trabajo de mediados de los años cincuenta de Gordon Willey en el valle de Virú en Perú. ^[5] Se realizaron estudios completos e intensivos y luego se determinó la covariabilidad entre los restos culturales y las características naturales, como la pendiente y la vegetación. El desarrollo de métodos cuantitativos y una mayor disponibilidad de datos aplicables llevaron al crecimiento de la disciplina en la década de 1960 y, a fines de la década de 1980, los principales administradores de tierras en todo el mundo habían logrado un progreso sustancial.

En general, el modelado predictivo en arqueología consiste en establecer relaciones causales o covariables estadísticamente válidas entre indicadores naturales como los tipos de suelo, la elevación, la pendiente, la vegetación, la proximidad al agua, la geología, la geomorfología, etc., y la presencia de características arqueológicas. Mediante el análisis de estos atributos cuantificables de tierras que han sido objeto de estudios arqueológicos, a veces se puede anticipar la "sensibilidad arqueológica" de áreas no estudiadas basándose en los indicadores naturales de esas áreas. Los grandes administradores de tierras de los Estados Unidos, como la Oficina de Administración de Tierras (BLM), el Departamento de Defensa (DOD), ^[6]^[7] y numerosas agencias de carreteras y parques, han empleado esta estrategia con éxito. Al utilizar el modelado predictivo en sus planes de gestión de recursos culturales, pueden tomar decisiones más informadas al planificar actividades que tienen el potencial de requerir la alteración del suelo y, posteriormente, afectar a los sitios arqueológicos.

Gestión de la relación con el cliente

El modelado predictivo se utiliza ampliamente en la gestión analítica de las relaciones con los clientes y en la minería de datos para generar modelos a nivel de cliente que describan la probabilidad de que un cliente realice una determinada acción. Las acciones suelen estar relacionadas con las ventas, el marketing y la retención de clientes .

Por ejemplo, una gran organización de consumidores, como un operador de telecomunicaciones móviles, tendrá un conjunto de modelos predictivos para la venta cruzada de productos , la venta profunda de productos (o upselling ) y la pérdida de clientes . Ahora también es más común que una organización de este tipo tenga un modelo de salvabilidad utilizando un modelo de mejora . Este predice la probabilidad de que un cliente pueda salvarse al final de un período de contrato (el cambio en la probabilidad de pérdida de clientes) en contraposición al modelo de predicción de pérdida de clientes estándar.

Seguro de auto

El modelado predictivo se utiliza en el seguro de vehículos para asignar el riesgo de incidentes a los asegurados a partir de la información obtenida de los mismos. Esto se emplea ampliamente en soluciones de seguros basadas en el uso , donde los modelos predictivos utilizan datos basados en telemetría para construir un modelo de riesgo predictivo para la probabilidad de reclamo. ^{[ cita requerida ]} Los modelos predictivos de seguros de automóviles de caja negra utilizan solo la entrada de un sensor GPS o acelerómetro . ^{[ cita requerida ]} Algunos modelos incluyen una amplia gama de información predictiva más allá de la telemetría básica, que incluye comportamiento de conducción avanzado, registros de accidentes independientes, historial de carreteras y perfiles de usuario para proporcionar modelos de riesgo mejorados. ^{[ cita requerida ]}

Cuidado de la salud

En 2009, Parkland Health & Hospital System comenzó a analizar los registros médicos electrónicos con el fin de utilizar modelos predictivos para ayudar a identificar a los pacientes con alto riesgo de readmisión. Inicialmente, el hospital se centró en pacientes con insuficiencia cardíaca congestiva, pero el programa se ha ampliado para incluir a pacientes con diabetes, infarto agudo de miocardio y neumonía. ^[8]

En 2018, Banerjee et al. ^[9] propusieron un modelo de aprendizaje profundo para estimar la expectativa de vida a corto plazo (>3 meses) de los pacientes mediante el análisis de notas clínicas de texto libre en el registro médico electrónico, mientras se mantiene la secuencia de visitas temporales. El modelo se entrenó en un gran conjunto de datos (10,293 pacientes) y se validó en un conjunto de datos separado (1818 pacientes). Logró un área bajo la curva ROC ( Receiver Operating Characteristic ) de 0.89. Para proporcionar capacidad de explicación, desarrollaron una herramienta gráfica interactiva que puede mejorar la comprensión del médico de la base de las predicciones del modelo. La alta precisión y capacidad de explicación del modelo PPES-Met puede permitir que el modelo se use como una herramienta de apoyo a la toma de decisiones para personalizar el tratamiento del cáncer metastásico y brindar una valiosa asistencia a los médicos.

Las primeras directrices de presentación de informes de modelos de predicción clínica se publicaron en 2015 (Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD)), y desde entonces se han actualizado. ^[10]

Se ha utilizado modelos predictivos para estimar la duración de la cirugía .

Comercio algorítmico

El modelado predictivo en el trading es un proceso de modelado en el que se predice la probabilidad de un resultado utilizando un conjunto de variables predictoras . Se pueden crear modelos predictivos para diferentes activos como acciones, futuros, divisas, materias primas, etc. ^{[ cita requerida ]} Las empresas de trading aún utilizan ampliamente el modelado predictivo para diseñar estrategias y operar. Utiliza software matemáticamente avanzado para evaluar indicadores de precio, volumen, interés abierto y otros datos históricos, para descubrir patrones repetibles. ^[11]

Sistemas de seguimiento de clientes potenciales

Los modelos predictivos brindan a los generadores de oportunidades de venta una ventaja al pronosticar resultados basados en datos para cada campaña potencial. Este método ahorra tiempo y expone posibles puntos ciegos para ayudar al cliente a tomar decisiones más inteligentes. ^[12]

Fallos notables del modelado predictivo

Aunque no se habla mucho de ella en la comunidad convencional de modelos predictivos, se trata de una metodología que se ha utilizado ampliamente en el sector financiero en el pasado y algunos de los principales fallos contribuyeron a la crisis financiera de 2007-2008 . Estos fallos ejemplifican el peligro de confiar exclusivamente en modelos que, en esencia, miran al pasado. Los siguientes ejemplos no son, en modo alguno, una lista completa:

Calificación de bonos. S&P , Moody's y Fitch cuantifican la probabilidad de impago de los bonos con variables discretas llamadas calificación. La calificación puede adoptar valores discretos desde AAA hasta D. La calificación es un predictor del riesgo de impago basado en una variedad de variables asociadas con el prestatario y datos macroeconómicos históricos. Las agencias de calificación fallaron con sus calificaciones en el mercado de Obligaciones de Deuda Colateralizadas ( CDO ) respaldadas por hipotecas de US$600 mil millones . Casi todo el sector AAA (y el sector super-AAA, una nueva calificación que las agencias de calificación proporcionaron para representar una inversión súper segura) del mercado de CDO incumplió o se redujo drásticamente durante 2008, muchos de los cuales obtuvieron sus calificaciones menos de un año antes. ^{[ cita requerida ]}
Hasta el momento, no se ha considerado que ningún modelo estadístico que intente predecir los precios del mercado de valores basándose en datos históricos sea capaz de realizar predicciones correctas de forma consistente a largo plazo. Un fracaso especialmente memorable es el de Long Term Capital Management , un fondo que contrató a analistas altamente cualificados, entre ellos un premio Nobel de Economía , para desarrollar un sofisticado modelo estadístico que predecía los diferenciales de precios entre distintos valores. Los modelos produjeron beneficios impresionantes hasta que se produjo una debacle importante que hizo que el entonces presidente de la Reserva Federal, Alan Greenspan, interviniera para negociar un plan de rescate por parte de los agentes de bolsa de Wall Street con el fin de evitar un colapso del mercado de bonos. ^{[ cita requerida ]}

Posibles limitaciones fundamentales de los modelos predictivos basados en el ajuste de datos

La historia no siempre puede predecir con precisión el futuro. El uso de relaciones derivadas de datos históricos para predecir el futuro supone implícitamente que existen ciertas condiciones o constantes duraderas en un sistema complejo. Esto casi siempre conduce a cierta imprecisión cuando el sistema involucra a personas. ^{[ cita requerida ]}

Las incógnitas desconocidas son un problema. En toda recopilación de datos, el recopilador define primero el conjunto de variables para las que se recopilan los datos. Sin embargo, independientemente de lo exhaustiva que considere la selección de las variables, siempre existe la posibilidad de que haya nuevas variables que no se hayan considerado o ni siquiera definido, pero que sean fundamentales para el resultado. ^{[ cita requerida ]}

Los algoritmos pueden ser derrotados por adversarios. Una vez que un algoritmo se convierte en un estándar de medición aceptado, puede ser aprovechado por personas que lo entienden y tienen el incentivo de engañar o manipular el resultado. Esto es lo que sucedió con la calificación de CDO descrita anteriormente. Los intermediarios de CDO cumplieron activamente con los requisitos de las agencias de calificación para alcanzar una calificación AAA o super-AAA en el CDO que estaban emitiendo, manipulando hábilmente variables que eran "desconocidas" para los "sofisticados" modelos de las agencias de calificación. ^{[ cita requerida ]}

Véase también

Referencias

^ Geisser, Seymour (1993). Inferencia predictiva: una introducción . Chapman & Hall . p. ^{[ página necesaria ]} . ISBN . 978-0-412-03471-8.
^ Finlay, Steven (2014). Análisis predictivo, minería de datos y big data. Mitos, conceptos erróneos y métodos (1.ª ed.). Palgrave Macmillan . p. 237. ISBN 978-1137379276.
^ Sheskin, David J. (27 de abril de 2011). Manual de procedimientos estadísticos paramétricos y no paramétricos . CRC Press . pág. 109. ISBN. 978-1439858011.
^ Cox, DR (2006). Principios de inferencia estadística . Cambridge University Press . pág. 2.
^ Willey, Gordon R. (1953), "Patrones de asentamiento prehistórico en el valle de Virú, Perú", Boletín 155. Oficina de Etnología Estadounidense
^ Heidelberg, Kurt, et al. "Una evaluación del programa de estudio de muestras arqueológicas en el campo de pruebas y entrenamiento de Nevada", Informe técnico del SRI 02-16, 2002
^ Jeffrey H. Altschul, Lynne Sebastian y Kurt Heidelberg, "Modelado predictivo en el ámbito militar: objetivos similares, caminos divergentes", Preservation Research Series 1, SRI Foundation, 2004
^ "El hospital utiliza análisis de datos y modelos predictivos para identificar y asignar recursos escasos a pacientes de alto riesgo, lo que genera menos reingresos". Agencia para la Investigación y la Calidad de la Atención Sanitaria . 2014-01-29 . Consultado el 2019-03-19 .
^ Banerjee, Imon; et al. (3 de julio de 2018). "Estimaciones pronósticas probabilísticas de supervivencia en pacientes con cáncer metastásico (PPES-Met) utilizando narrativas clínicas de texto libre". Scientific Reports . 8 (10037 (2018)): 10037. Bibcode :2018NatSR...810037B. doi :10.1038/s41598-018-27946-5. PMC 6030075 . PMID 29968730.
^ Collins, Gary; et al. (16 de abril de 2024). "Declaración TRIPOD+AI: guía actualizada para informar modelos de predicción clínica que utilizan métodos de regresión o aprendizaje automático". BMJ . doi :10.1136/bmj-2023-078378. PMC 11019967 . PMID 38626948.
^ "Sistemas de trading basados en modelos predictivos, parte 1: Éxito de los traders de sistemas". Éxito de los traders de sistemas . 2013-07-22 . Consultado el 2016-11-25 .
^ "Modelado predictivo para el seguimiento de llamadas". Phonexa . 2019-08-22 . Consultado el 2021-02-25 .

Lectura adicional

Clarke, Bertrand S.; Clarke, Jennifer L. (2018), Estadística predictiva , Cambridge University Press
Iglesias, Pilar; Sandoval, Mónica C.; Pereira, Carlos Alberto de Bragança (1993), "Probabilidad predictiva en poblaciones finitas", Revista Brasileña de Probabilidad y Estadística , 7 (1): 65–82, JSTOR 43600831
Kelleher, John D.; Mac Namee, Brian; D'Arcy, Aoife (2015), Fundamentos del aprendizaje automático para el análisis predictivo de datos: algoritmos, ejemplos prácticos y estudios de casos , MIT Press
Kuhn, Max; Johnson, Kjell (2013), Modelado predictivo aplicado , Springer
Shmueli, G. (2010), "¿Explicar o predecir?", Statistical Science , 25 (3): 289–310, arXiv : 1101.0891 , doi :10.1214/10-STS330, S2CID 15900983