Modelado predictivo

El modelado predictivo utiliza estadísticas para predecir resultados. ^[1] La mayoría de las veces, el evento que uno quiere predecir es en el futuro, pero el modelado predictivo se puede aplicar a cualquier tipo de evento desconocido, independientemente de cuándo ocurrió. Por ejemplo, los modelos predictivos se utilizan a menudo para detectar delitos e identificar sospechosos una vez cometido el delito. ^[2]

En muchos casos, el modelo se elige sobre la base de la teoría de detección para intentar adivinar la probabilidad de un resultado dada una cantidad determinada de datos de entrada, por ejemplo, dado un correo electrónico , determinando la probabilidad de que sea spam .

Los modelos pueden utilizar uno o más clasificadores para intentar determinar la probabilidad de que un conjunto de datos pertenezca a otro conjunto. Por ejemplo, se podría utilizar un modelo para determinar si un correo electrónico es spam o "ham" (no spam).

Dependiendo de los límites de las definiciones, el modelado predictivo es sinónimo o se superpone en gran medida con el campo del aprendizaje automático , como se le conoce más comúnmente en contextos académicos o de investigación y desarrollo. Cuando se implementa comercialmente, el modelado predictivo a menudo se denomina análisis predictivo .

El modelado predictivo a menudo se contrasta con el modelado /análisis causal . En el primero, uno puede estar completamente satisfecho con el uso de indicadores o sustitutos del resultado de interés. En este último, se busca determinar verdaderas relaciones de causa y efecto. Esta distinción ha dado lugar a una creciente literatura en los campos de los métodos de investigación y la estadística y a la afirmación común de que " correlación no implica causalidad ".

Modelos

Casi cualquier modelo estadístico se puede utilizar con fines de predicción. A grandes rasgos, existen dos clases de modelos predictivos: paramétricos y no paramétricos . Una tercera clase, los modelos semiparamétricos , incluye características de ambos. Los modelos paramétricos hacen "supuestos específicos con respecto a uno o más de los parámetros poblacionales que caracterizan las distribuciones subyacentes". ^[3] Los modelos no paramétricos "normalmente implican menos supuestos de estructura y forma distributiva [que los modelos paramétricos] pero normalmente contienen supuestos sólidos sobre las independencias". ^[4]

Aplicaciones

Modelado de elevación

El modelado de elevación es una técnica para modelar el cambio en la probabilidad causado por una acción. Normalmente se trata de una acción de marketing, como una oferta para comprar un producto, utilizar más un producto o volver a firmar un contrato. Por ejemplo, en una campaña de retención desea predecir el cambio en la probabilidad de que un cliente siga siendo cliente si se le contacta. Un modelo del cambio en la probabilidad permite que la campaña de retención se dirija a aquellos clientes para quienes el cambio en la probabilidad será beneficioso. Esto permite que el programa de retención evite provocar abandonos innecesarios o desgaste de clientes sin desperdiciar dinero contactando a personas que actuarían de todos modos.

Arqueología

El modelado predictivo en arqueología tiene sus fundamentos en el trabajo de Gordon Willey de mediados de los años cincuenta en el Valle de Virú en Perú. ^[5] Se realizaron estudios completos e intensivos y luego se determinó la covariabilidad entre los restos culturales y las características naturales como la pendiente y la vegetación. El desarrollo de métodos cuantitativos y una mayor disponibilidad de datos aplicables condujeron al crecimiento de la disciplina en la década de 1960 y, a finales de la década de 1980, los principales administradores de tierras en todo el mundo habían logrado avances sustanciales.

Generalmente, el modelado predictivo en arqueología establece relaciones causales o covariables estadísticamente válidas entre indicadores naturales como tipos de suelo, elevación, pendiente, vegetación, proximidad al agua, geología, geomorfología, etc., y la presencia de elementos arqueológicos. A través del análisis de estos atributos cuantificables de tierras que han sido sometidas a estudios arqueológicos, a veces se puede anticipar la "sensibilidad arqueológica" de áreas no investigadas basándose en los indicadores naturales de esas áreas. Los grandes administradores de tierras en los Estados Unidos, como la Oficina de Administración de Tierras (BLM), el Departamento de Defensa (DOD), ^[6]^[7] y numerosas agencias de carreteras y parques, han empleado con éxito esta estrategia. Al utilizar modelos predictivos en sus planes de gestión de recursos culturales, son capaces de tomar decisiones más informadas al planificar actividades que tienen el potencial de requerir perturbaciones del suelo y posteriormente afectar los sitios arqueológicos.

Gestión de relaciones con el cliente.

El modelado predictivo se utiliza ampliamente en la gestión analítica de las relaciones con los clientes y la minería de datos para producir modelos a nivel de cliente que describen la probabilidad de que un cliente realice una acción particular. Las acciones suelen estar relacionadas con ventas, marketing y retención de clientes .

Por ejemplo, una gran organización de consumidores , como un operador de telecomunicaciones móviles, tendrá un conjunto de modelos predictivos para la venta cruzada de productos , la venta profunda (o venta adicional ) de productos y la deserción . Ahora también es más común que una organización de este tipo tenga un modelo de salvabilidad que utilice un modelo de elevación . Esto predice la probabilidad de que un cliente pueda salvarse al final del período de un contrato (el cambio en la probabilidad de abandono) a diferencia del modelo estándar de predicción de abandono.

Seguro de auto

El modelado predictivo se utiliza en seguros de vehículos para asignar el riesgo de incidentes a los asegurados a partir de la información obtenida de los asegurados. Esto se emplea ampliamente en soluciones de seguros basadas en el uso donde los modelos predictivos utilizan datos basados en telemetría para construir un modelo de riesgo predictivo para la probabilidad de reclamo. ^{[ cita necesaria ]} Los modelos predictivos de seguros de automóviles de caja negra utilizan únicamente la entrada del sensor de acelerómetro o GPS . ^[^{cita necesaria}^] Algunos modelos incluyen una amplia gama de datos predictivos más allá de la telemetría básica, incluido el comportamiento de conducción avanzado, registros de accidentes independientes, historial de carreteras y perfiles de usuario para proporcionar modelos de riesgo mejorados. ^[^{cita necesaria}^]

Cuidado de la salud

En 2009, Parkland Health & Hospital System comenzó a analizar registros médicos electrónicos para utilizar modelos predictivos que ayuden a identificar a los pacientes con alto riesgo de reingreso. Inicialmente, el hospital se centró en pacientes con insuficiencia cardíaca congestiva, pero el programa se expandió para incluir pacientes con diabetes, infarto agudo de miocardio y neumonía. ^[8]

En 2018, Banerjee et al. ^[9] propusieron un modelo de aprendizaje profundo para estimar la esperanza de vida a corto plazo (>3 meses) de los pacientes mediante el análisis de notas clínicas de texto libre en la historia clínica electrónica, manteniendo al mismo tiempo la secuencia temporal de las visitas. El modelo se entrenó en un gran conjunto de datos (10 293 pacientes) y se validó en un conjunto de datos separado (1818 pacientes). Logró un área bajo la curva ROC ( Receiver Operating Characteristic ) de 0,89. Para proporcionar capacidad de explicación, desarrollaron una herramienta gráfica interactiva que puede mejorar la comprensión de los médicos sobre la base de las predicciones del modelo. La alta precisión y capacidad de explicación del modelo PPES-Met pueden permitir que se utilice como herramienta de apoyo a la toma de decisiones para personalizar el tratamiento del cáncer metastásico y brindar asistencia valiosa a los médicos.

Las primeras directrices para la presentación de informes sobre modelos de predicción clínica se publicaron en 2015 (Informe transparente de un modelo de predicción multivariable para pronóstico o diagnóstico individual (TRIPOD)) y desde entonces se han actualizado. ^[10]

Se han utilizado modelos predictivos para estimar la duración de la cirugía .

Comercio algorítmico

El modelado predictivo en el comercio es un proceso de modelado en el que la probabilidad de un resultado se predice utilizando un conjunto de variables predictivas . Se pueden crear modelos predictivos para diferentes activos como acciones, futuros, divisas, materias primas, etc. ^{[ cita necesaria ]} Las empresas comerciales todavía utilizan ampliamente el modelado predictivo para diseñar estrategias y comerciar. Utiliza software matemáticamente avanzado para evaluar indicadores de precio, volumen, interés abierto y otros datos históricos, para descubrir patrones repetibles. ^[11]

Sistemas de seguimiento de clientes potenciales

El modelado predictivo brinda a los generadores de oportunidades de venta una ventaja al pronosticar resultados basados en datos para cada campaña potencial. Este método ahorra tiempo y expone posibles puntos ciegos para ayudar al cliente a tomar decisiones más inteligentes. ^[12]

Fallos notables del modelado predictivo

Aunque no es ampliamente discutido por la comunidad principal de modelos predictivos, el modelado predictivo es una metodología que se ha utilizado ampliamente en la industria financiera en el pasado y algunos de los principales fracasos contribuyeron a la crisis financiera de 2007-2008 . Estos fracasos ejemplifican el peligro de confiar exclusivamente en modelos que son esencialmente retrospectivo por naturaleza. Los siguientes ejemplos no son de ninguna manera una lista completa:

Calificación de los bonos. S&P , Moody's y Fitch cuantifican la probabilidad de impago de los bonos con variables discretas denominadas rating. La calificación puede adoptar valores discretos desde AAA hasta D. La calificación es un predictor del riesgo de incumplimiento basado en una variedad de variables asociadas con el prestatario y datos macroeconómicos históricos. Las agencias de calificación fracasaron con sus calificaciones en el mercado de Obligaciones de Deuda Colateralizadas ( CDO ) respaldadas por hipotecas de 600 mil millones de dólares . Casi todo el sector AAA (y el sector súper AAA, una nueva calificación que las agencias de calificación otorgaron para representar una inversión súper segura) del mercado de CDO incumplió o bajó severamente su calificación durante 2008, muchos de los cuales obtuvieron sus calificaciones menos de un año antes. ^{[ cita necesaria ]}
Hasta el momento, no se considera que ningún modelo estadístico que intente predecir los precios del mercado de valores basándose en datos históricos haga predicciones correctas de manera consistente a largo plazo. Un fracaso particularmente memorable es el de Long Term Capital Management , un fondo que contrató a analistas altamente calificados, incluido un ganador del Premio Nobel de Ciencias Económicas , para desarrollar un sofisticado modelo estadístico que predijo los diferenciales de precios entre diferentes valores. Los modelos produjeron ganancias impresionantes hasta que se produjo una gran debacle que hizo que el entonces presidente de la Reserva Federal, Alan Greenspan, interviniera para negociar un plan de rescate por parte de los corredores de bolsa de Wall Street para evitar un colapso del mercado de bonos. ^{[ cita necesaria ]}

Posibles limitaciones fundamentales de los modelos predictivos basados en el ajuste de datos

La historia no siempre puede predecir con precisión el futuro. El uso de relaciones derivadas de datos históricos para predecir el futuro supone implícitamente que existen ciertas condiciones o constantes duraderas en un sistema complejo. Esto casi siempre conduce a cierta imprecisión cuando el sistema involucra a personas. ^{[ cita necesaria ]}

Las incógnitas desconocidas son un problema. En toda recopilación de datos, el recopilador primero define el conjunto de variables para las cuales se recopilan datos. Sin embargo, no importa qué tan exhaustiva sea la selección de variables que el recolector considere, siempre existe la posibilidad de que aparezcan nuevas variables que no han sido consideradas o ni siquiera definidas, pero que son críticas para el resultado. ^{[ cita necesaria ]}

Los algoritmos pueden ser derrotados adversamente. Una vez que un algoritmo se convierte en un estándar de medición aceptado, las personas que lo entienden y tienen el incentivo de engañar o manipular el resultado pueden aprovecharlo. Esto es lo que sucedió con la calificación CDO descrita anteriormente. Los operadores de CDO cumplieron activamente con el aporte de las agencias de calificación para alcanzar una AAA o súper AAA en el CDO que estaban emitiendo, manipulando hábilmente variables que eran "desconocidas" para los modelos "sofisticados" de las agencias de calificación. ^{[ cita necesaria ]}

Ver también

Referencias

^ Geisser, Seymour (1993). Inferencia predictiva: una introducción . Chapman y salón . pag. ^{[ página necesaria ]} . ISBN 978-0-412-03471-8.
^ Finlay, Steven (2014). Análisis Predictivo, Minería de Datos y Big Data. Mitos, conceptos erróneos y métodos (1ª ed.). Palgrave Macmillan . pag. 237.ISBN 978-1137379276.
^ Sheskin, David J. (27 de abril de 2011). Manual de procedimientos estadísticos paramétricos y no paramétricos . Prensa CRC . pag. 109.ISBN 978-1439858011.
^ Cox, DR (2006). Principios de inferencia estadística . Prensa de la Universidad de Cambridge . pag. 2.
^ Willey, Gordon R. (1953), "Patrones de asentamiento prehistórico en el valle de Virú, Perú", Boletín 155. Oficina de Etnología Estadounidense
^ Heidelberg, Kurt y col. "Una evaluación del programa de estudio de muestras arqueológicas en el campo de entrenamiento y pruebas de Nevada", Informe técnico del SRI 16 de febrero de 2002
^ Jeffrey H. Altschul, Lynne Sebastian y Kurt Heidelberg, "Modelado predictivo en el ejército: objetivos similares, caminos divergentes", Preservation Research Series 1, Fundación SRI, 2004
^ "El hospital utiliza análisis de datos y modelos predictivos para identificar y asignar recursos escasos a pacientes de alto riesgo, lo que genera menos reingresos". Agencia de Investigación y Calidad Sanitaria . 29 de enero de 2014 . Consultado el 19 de marzo de 2019 .
^ Banerjee, Imón; et al. (03 de julio de 2018). "Estimaciones de pronóstico probabilístico de supervivencia en pacientes con cáncer metastásico (PPES-Met) utilizando narrativas clínicas de texto libre". Informes científicos . 8 (10037 (2018)): 10037. Código bibliográfico : 2018NatSR...810037B. doi :10.1038/s41598-018-27946-5. PMC 6030075 . PMID 29968730.
^ Collins, Gary; et al. (2024-04-16). "Declaración TRIPOD + AI: guía actualizada para informar modelos de predicción clínica que utilizan métodos de regresión o aprendizaje automático". BMJ . doi :10.1136/bmj-2023-078378. PMC 11019967 . PMID 38626948.
^ "Sistemas comerciales basados en modelos predictivos, parte 1: éxito del comerciante del sistema". Éxito del comerciante del sistema . 22 de julio de 2013 . Consultado el 25 de noviembre de 2016 .
^ "Modelado predictivo para el seguimiento de llamadas". Phonexa . 2019-08-22 . Consultado el 25 de febrero de 2021 .

Otras lecturas

Clarke, Bertrand S.; Clarke, Jennifer L. (2018), Estadísticas predictivas , Cambridge University Press
Iglesias, Pilar; Sandoval, Mónica C.; Pereira, Carlos Alberto de Bragança (1993), "Probabilidad predictiva en poblaciones finitas", Revista Brasileña de Probabilidad y Estadística , 7 (1): 65–82, JSTOR 43600831
Kelleher, John D.; Mac Namee, Brian; D'Arcy, Aoife (2015), Fundamentos del aprendizaje automático para el análisis de datos predictivos: algoritmos, ejemplos resueltos y estudios de casos , MIT Press
Kuhn, Max; Johnson, Kjell (2013), Modelado predictivo aplicado , Springer
Shmueli, G. (2010), "¿Explicar o predecir?", Ciencia estadística , 25 (3): 289–310, arXiv : 1101.0891 , doi :10.1214/10-STS330, S2CID 15900983