probit

En teoría de probabilidad y estadística , la función probit es la función cuantil asociada a la distribución normal estándar . Tiene aplicaciones en análisis de datos y aprendizaje automático, en particular gráficos estadísticos exploratorios y modelado de regresión especializado de variables de respuesta binaria .

Matemáticamente, el probit es la inversa de la función de distribución acumulativa de la distribución normal estándar, que se denota como , por lo que el probit se define como $\Phi (z)$

\operatorname {probit} (p)=\Phi ^{-1}(p)\quad {\text{for}}\quad p\in (0,1)

En gran parte debido al teorema del límite central , la distribución normal estándar juega un papel fundamental en la teoría de la probabilidad y la estadística. Si consideramos el hecho familiar de que la distribución normal estándar sitúa el 95% de la probabilidad entre −1,96 y 1,96, y es simétrica alrededor de cero, se deduce que

\Phi (-1.96)=0.025=1-\Phi (1.96).\,\!

La función probit proporciona el cálculo "inverso", generando un valor de una variable aleatoria normal estándar, asociada con una probabilidad acumulativa especificada. Siguiendo con el ejemplo,

\operatorname {probit} (0.025)=-1.96=-\operatorname {probit} (0.975)

En general,

\Phi (\operatorname {probit} (p))=p

\operatorname {probit} (\Phi (z))=z.

Desarrollo conceptual

La idea de la función probit fue publicada por Chester Ittner Bliss en un artículo de 1934 en Science sobre cómo tratar datos como el porcentaje de una plaga muerta por un pesticida . ^[1] Bliss propuso transformar el porcentaje de muertos en una " unidad de probabilidad " ( o "probit") que estaba linealmente relacionada con la definición moderna (la definió arbitrariamente como igual a 0 para 0,0001 y 1 para 0,9999): ^{[2 ]}

Estas unidades de probabilidad arbitrarias se han denominado "probits"...

Incluyó una tabla para ayudar a otros investigadores a convertir sus porcentajes de muerte a su probit, que luego podrían representar frente al logaritmo de la dosis y así, se esperaba, obtener una línea más o menos recta. El llamado modelo probit sigue siendo importante en toxicología, así como en otros campos. El enfoque se justifica en particular si la variación de la respuesta puede racionalizarse como una distribución lognormal de tolerancias entre los sujetos en la prueba, donde la tolerancia de un sujeto en particular es la dosis suficiente para la respuesta de interés.

El método introducido por Bliss se desarrolló en Probit Analysis , un texto importante sobre aplicaciones toxicológicas de DJ Finney . ^[3]^[4] Los valores presentados por Finney se pueden derivar de probits como se define aquí agregando un valor de 5. Collett (p. 55) resume esta distinción: ^[5] "La definición original de un probit [con 5 agregado] fue principalmente para evitar tener que trabajar con probits negativos;... Esta definición todavía se usa en algunos sectores, pero en los principales paquetes de software estadístico para lo que se conoce como análisis probit , los probits se definen sin la adición de 5. " Cabe señalar que la metodología probit, incluida la optimización numérica para el ajuste de funciones probit, se introdujo antes de que se generalizara la informática electrónica. Al utilizar tablas, era conveniente tener probits uniformemente positivos. Las áreas de aplicación comunes no requieren probits positivos.

Diagnóstico de desviación de una distribución de la normalidad.

Además de proporcionar una base para tipos importantes de regresión, la función probit es útil en el análisis estadístico para diagnosticar la desviación de la normalidad, según el método de trazado Q-Q. Si un conjunto de datos es en realidad una muestra de una distribución normal , una gráfica de los valores frente a sus puntuaciones probit será aproximadamente lineal. Las desviaciones específicas de la normalidad, como la asimetría , las colas pesadas o la bimodalidad, se pueden diagnosticar basándose en la detección de desviaciones específicas de la linealidad. Si bien el gráfico Q-Q se puede utilizar para comparar con cualquier familia de distribución (no solo la normal), el gráfico Q-Q normal es un procedimiento de análisis de datos exploratorio relativamente estándar porque el supuesto de normalidad es a menudo un punto de partida para el análisis.

Cálculo

La distribución normal CDF y su inversa no están disponibles en forma cerrada y el cálculo requiere un uso cuidadoso de procedimientos numéricos. Sin embargo, las funciones están ampliamente disponibles en software para estadísticas y modelos de probabilidad, y en hojas de cálculo. En Microsoft Excel , por ejemplo, la función probit está disponible como norm.s.inv(p). En entornos informáticos donde se encuentran disponibles implementaciones numéricas de la función de error inverso , la función probit se puede obtener como

\operatorname {probit} (p)={\sqrt {2}}\,\operatorname {erf} ^{-1}(2p-1).

Un ejemplo es MATLAB , donde está disponible una función 'erfinv'. El lenguaje Mathematica implementa 'InverseErf'. Otros entornos implementan directamente la función probit como se muestra en la siguiente sesión en el lenguaje de programación R.

> qnorm ( 0.025 ) [1] -1.959964 > pnorm ( -1.96 ) [1] 0.02499790

Los detalles para calcular la función de error inverso se pueden encontrar en [1]. Wichura ofrece un algoritmo rápido para calcular la función probit con 16 decimales; esto se usa en R para generar variables aleatorias para la distribución normal. ^[6]

Una ecuación diferencial ordinaria para la función probit.

Otra forma de cálculo se basa en formar una ecuación diferencial ordinaria (EDO) no lineal para probit, según el método de Steinbrecher y Shaw. ^[7] Abreviando la función probit como , la EDO es $w(p)$

{\frac {dw}{dp}}={\frac {1}{f(w)}}

¿ Dónde está la función de densidad de probabilidad de $w$ ? $f(w)$

En el caso del Gaussiano:

{\frac {dw}{dp}}={\sqrt {2\pi }}\ e^{\frac {w^{2}}{2}}

Diferenciando nuevamente:

{\frac {d^{2}w}{dp^{2}}}=w\left({\frac {dw}{dp}}\right)^{2}

con las condiciones centrales (iniciales)

w\left(1/2\right)=0,

w'\left(1/2\right)={\sqrt {2\pi }}.

Esta ecuación se puede resolver mediante varios métodos, incluido el enfoque clásico de series de potencias. A partir de esto, se pueden desarrollar soluciones de precisión arbitrariamente alta basadas en el enfoque de Steinbrecher para las series para la función de error inversa. La solución en serie de potencias está dada por

w(p)={\sqrt {\frac {\pi }{2}}}\sum _{k=0}^{\infty }{\frac {d_{k}}{(2k+1)}}(2p-1)^{(2k+1)}

donde los coeficientes satisfacen la recurrencia no lineal $d_{k}$

d_{k+1}={\frac {\pi }{4}}\sum _{j=0}^{k}{\frac {d_{j}d_{k-j}}{(j+1)(2j+1)}}

con . De esta forma, la relación es . $d_{0}=1$ $d_{k+1}/d_{k}\rightarrow 1$ $k\rightarrow \infty$

Logit

Estrechamente relacionados con la función probit (y el modelo probit ) están la función logit y el modelo logit . La inversa de la función logística está dada por

\operatorname {logit} (p)=\log \left({\frac {p}{1-p}}\right).

De manera análoga al modelo probit, podemos suponer que dicha cantidad está relacionada linealmente con un conjunto de predictores, lo que da como resultado el modelo logit , la base en particular del modelo de regresión logística , la forma más frecuente de análisis de regresión para datos de respuesta categórica. En la práctica estadística actual, los modelos de regresión probit y logit a menudo se manejan como casos del modelo lineal generalizado .

Ver también

Gráficos de compensación de errores de detección (gráficos DET, una alternativa al ROC)
Regresión logística (también conocida como modelo logit)
Logit
modelo probit
Probit multinomial
Gráfico Q-Q
Función continua
función monótona
Función cuantil
función sigmoidea
Análisis Rankit , también desarrollado por Chester Bliss
Puntuación ridícula

Referencias

^ Bienaventuranza, CI (1934). "El método de los probits". Ciencia . 79 (2037): 38–39. Código Bib : 1934 Ciencia.... 79... 38B. doi :10.1126/ciencia.79.2037.38. JSTOR 1659792. PMID 17813446.
^ Bienaventuranza 1934, pag. 39.
^ Finney, DJ (1947), Análisis probit . (1.ª edición) Cambridge University Press, Cambridge, Reino Unido.
^ Finney, DJ (1971). Análisis Probit (3ª ed.). Cambridge University Press, Cambridge, Reino Unido. ISBN 0-521-08041-X. OCLC 174198382.
^ Collett, D. (1991). Modelado de datos binarios . Chapman y Hall/CRC.
^ Wichura, MJ (1988). "Algoritmo AS241: los puntos porcentuales de la distribución normal". Estadísticas aplicadas . Publicación Blackwell. 37 (3): 477–484. doi :10.2307/2347330. JSTOR 2347330.
^ Steinbrecher, G., Shaw, WT (2008). "Mecánica de cuantiles". Revista Europea de Matemáticas Aplicadas . 19 (2): 87-112. doi :10.1017/S0956792508007341. S2CID 6899308.{{cite journal}}: CS1 maint: multiple names: authors list (link)

enlaces externos

¿Qué función de enlace: Logit, Probit o Cloglog? 12.04.2023