stringtranslate.com

Probit

Gráfica de la función probit

En teoría de probabilidad y estadística , la función probit es la función cuantil asociada a la distribución normal estándar . Tiene aplicaciones en el análisis de datos y el aprendizaje automático, en particular en gráficos estadísticos exploratorios y modelos de regresión especializados de variables de respuesta binarias .

Matemáticamente, el probit es la inversa de la función de distribución acumulativa de la distribución normal estándar, que se denota como , por lo que el probit se define como

.

En gran medida debido al teorema del límite central , la distribución normal estándar desempeña un papel fundamental en la teoría de la probabilidad y la estadística. Si consideramos el hecho conocido de que la distribución normal estándar sitúa el 95% de la probabilidad entre −1,96 y 1,96 y es simétrica alrededor de cero, se deduce que

La función probit proporciona el cálculo "inverso", generando un valor de una variable aleatoria normal estándar, asociada con una probabilidad acumulada especificada. Continuando con el ejemplo,

.

En general,

y

Desarrollo conceptual

La idea de la función probit fue publicada por Chester Ittner Bliss en un artículo de 1934 en Science sobre cómo tratar datos como el porcentaje de una plaga eliminada por un pesticida . [ 1] Bliss propuso transformar el porcentaje eliminado en una " unidad de probabilidad " (o "probit") que estaba relacionada linealmente con la definición moderna (la definió arbitrariamente como igual a 0 para 0,0001 y 1 para 0,9999): [2]

Estas unidades de probabilidad arbitrarias se han denominado "probits"...

Incluyó una tabla para ayudar a otros investigadores a convertir sus porcentajes de muerte a su probit, que luego podían representar gráficamente frente al logaritmo de la dosis y, de ese modo, se esperaba, obtener una línea más o menos recta. Este modelo, llamado probit, sigue siendo importante en toxicología, así como en otros campos. El enfoque se justifica en particular si la variación de la respuesta se puede racionalizar como una distribución lognormal de tolerancias entre los sujetos en prueba, donde la tolerancia de un sujeto en particular es la dosis suficiente para la respuesta de interés.

El método introducido por Bliss fue aplicado en Probit Analysis , un importante texto sobre aplicaciones toxicológicas de DJ Finney . [3] [4] Los valores tabulados por Finney pueden derivarse de probits como se definen aquí agregando un valor de 5. Collett resume esta distinción (p. 55): [5] "La definición original de un probit [con 5 agregado] era principalmente para evitar tener que trabajar con probits negativos; ... Esta definición todavía se usa en algunos sectores, pero en los principales paquetes de software estadístico para lo que se conoce como análisis probit , los probits se definen sin la adición de 5". La metodología probit, incluida la optimización numérica para el ajuste de funciones probit, se introdujo antes de la disponibilidad generalizada de la computación electrónica. Al usar tablas, era conveniente tener probits uniformemente positivos. Las áreas comunes de aplicación no requieren probits positivos.

Diagnóstico de la desviación de una distribución respecto de la normalidad

Además de proporcionar una base para tipos importantes de regresión, la función probit es útil en el análisis estadístico para diagnosticar la desviación de la normalidad, de acuerdo con el método de trazado Q-Q. Si un conjunto de datos es en realidad una muestra de una distribución normal , un gráfico de los valores contra sus puntuaciones probit será aproximadamente lineal. Desviaciones específicas de la normalidad, como asimetría , colas pesadas o bimodalidad, se pueden diagnosticar en función de la detección de desviaciones específicas de la linealidad. Si bien el gráfico Q-Q se puede utilizar para la comparación con cualquier familia de distribución (no solo la normal), el gráfico Q-Q normal es un procedimiento de análisis de datos exploratorios relativamente estándar porque el supuesto de normalidad es a menudo un punto de partida para el análisis.

Cálculo

La distribución normal CDF y su inversa no están disponibles en forma cerrada y su cálculo requiere un uso cuidadoso de procedimientos numéricos. Sin embargo, las funciones están ampliamente disponibles en software para estadística y modelado de probabilidad, y en hojas de cálculo. En Microsoft Excel , por ejemplo, la función probit está disponible como norm.s.inv(p). En entornos informáticos donde están disponibles implementaciones numéricas de la función de error inversa , la función probit se puede obtener como

Un ejemplo es MATLAB , donde está disponible la función 'erfinv'. El lenguaje Mathematica implementa 'InverseErf'. Otros entornos implementan directamente la función probit como se muestra en la siguiente sesión en el lenguaje de programación R.

> qnorm ( 0,025 ) [1] -1,959964 > pnorm ( -1,96 ) [1] 0,02499790

Los detalles para calcular la función de error inverso se pueden encontrar en [1]. Wichura ofrece un algoritmo rápido para calcular la función probit con 16 decimales; esto se utiliza en R para generar variables aleatorias para la distribución normal. [6]

Una ecuación diferencial ordinaria para la función probit

Otro medio de cálculo se basa en la formación de una ecuación diferencial ordinaria no lineal (EDO) para probit, según el método de Steinbrecher y Shaw. [7] Abreviando la función probit como , la EDO es

donde es la función de densidad de probabilidad de w .

En el caso del gaussiano:

Diferenciando de nuevo:

con las condiciones centrales (iniciales)

Esta ecuación se puede resolver mediante varios métodos, incluido el método clásico de series de potencias. A partir de este método, se pueden desarrollar soluciones con una precisión arbitrariamente alta basándose en el método de Steinbrecher para las series de la función de error inversa. La solución de la serie de potencias viene dada por

donde los coeficientes satisfacen la recurrencia no lineal

con . En esta forma la razón es .

Logit

Comparación de la función logit con un probit escalado (es decir, la CDF inversa de la distribución normal ), comparando vs. , que hace que las pendientes sean las mismas en el origen.

La función logit y el modelo logit están estrechamente relacionados con la función probit (y el modelo probit ) . La inversa de la función logística está dada por

De manera análoga al modelo probit, podemos suponer que dicha cantidad está relacionada linealmente con un conjunto de predictores, lo que da como resultado el modelo logit , la base en particular del modelo de regresión logística , la forma más frecuente de análisis de regresión para datos de respuesta categórica. En la práctica estadística actual, los modelos de regresión probit y logit se manejan a menudo como casos del modelo lineal generalizado .

Véase también

Referencias

  1. ^ Bliss, CI (1934). "El método de probits". Science . 79 (2037): 38–39. Bibcode :1934Sci....79...38B. doi :10.1126/science.79.2037.38. JSTOR  1659792. PMID  17813446.
  2. ^ Bliss 1934, pág. 39.
  3. ^ Finney, DJ (1947), Análisis Probit . (1.ª edición) Cambridge University Press, Cambridge, Reino Unido.
  4. ^ Finney, DJ (1971). Análisis Probit (3.ª ed.). Cambridge University Press, Cambridge, Reino Unido. ISBN 0-521-08041-X.OCLC 174198382  .
  5. ^ Collett, D. (1991). Modelado de datos binarios . Chapman y Hall / CRC.
  6. ^ Wichura, MJ (1988). "Algoritmo AS241: Los puntos porcentuales de la distribución normal". Estadística Aplicada . 37 (3). Blackwell Publishing: 477–484. doi :10.2307/2347330. JSTOR  2347330.
  7. ^ Steinbrecher, G., Shaw, WT (2008). "Mecánica cuantil". Revista Europea de Matemáticas Aplicadas . 19 (2): 87–112. doi :10.1017/S0956792508007341. S2CID  6899308.{{cite journal}}: CS1 maint: multiple names: authors list (link)

Enlaces externos