Método estadístico
Una de las aplicaciones de la prueba t de Student es probar la ubicación de una secuencia de variables aleatorias independientes e idénticamente distribuidas . Si queremos probar las ubicaciones de múltiples secuencias de tales variables, se debe aplicar la corrección de Šidák para calibrar el nivel de la prueba t de Student. Además, si queremos probar las ubicaciones de casi infinitas secuencias de variables, entonces se debe utilizar la corrección de Šidák, pero con precaución. Más específicamente, la validez de la corrección de Šidák depende de qué tan rápido llega al infinito el número de secuencias.
Introducción
Supongamos que estamos interesados en m diferentes hipótesis, y nos gustaría comprobar si todas ellas son ciertas. Ahora el esquema de prueba de hipótesis se convierte en![{\displaystyle H_{1},...,H_{m}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
: todas son ciertas;![{\ Displaystyle H_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
: al menos uno de es falso.![{\ Displaystyle H_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Sea el nivel de esta prueba (el error tipo I), es decir, la probabilidad de que rechacemos falsamente cuando es verdadera. ![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle H_ {null}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Nuestro objetivo es diseñar una prueba con cierto nivel . ![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Supongamos que al probar cada hipótesis , el estadístico de prueba que utilizamos es . ![{\ Displaystyle H_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle t_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Si estos son independientes, entonces se puede desarrollar una prueba mediante el siguiente procedimiento, conocido como corrección de Šidák.![{\ Displaystyle t_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle H_ {null}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- Paso 1, probamos cada una de las m hipótesis nulas en el nivel .
![{\displaystyle 1-(1-\alpha )^{\frac {1}{m}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- Paso 2, si se rechaza alguna de estas m hipótesis nulas, rechazamos .
![{\ Displaystyle H_ {null}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
caso finito
Para un número finito de pruebas t, supongamos que para cada i , están distribuidas de forma independiente e idéntica, para cada j son independientes pero no necesariamente distribuidas de forma idéntica y tienen un cuarto momento finito.![{\displaystyle Y_{ij}=\mu _{i}+\epsilon _{ij},i=1,...,N,j=1,...,n,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \epsilon _{1j},...,\epsilon _{Nj}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \epsilon _ {ij}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Nuestro objetivo es diseñar una prueba con nivel α . Esta prueba puede basarse en el estadístico t de cada secuencia, es decir,![{\displaystyle H_{null}:\mu _{i}=0,\forall i=1,...,N}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle t_{i}={\frac {{\bar {Y}}_{i}}{S_{i}/{\sqrt {n}}}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde:
![{\displaystyle {\bar {Y}}_{i}={\frac {1}{n}}\sum _{j=1}^{n}Y_{ij},\qquad S_{i}^{ 2}={\frac {1}{n}}\sum _{j=1}^{n}(Y_{ij}-{\bar {Y}}_{i})^{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Utilizando la corrección de Šidák, rechazamos si alguna de las pruebas t basadas en los estadísticos t anteriores rechaza al nivel. Más específicamente, rechazamos cuando![{\ Displaystyle H_ {null}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle 1-(1-\alpha )^{\frac {1}{N}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle H_ {null}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \exists i\in \{1,\ldots ,N\}:|t_{i}|>\zeta _ {\alpha ,N},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
![{\displaystyle P(|Z|>\zeta _{\alpha ,N})=1-(1-\alpha )^{\frac {1}{N}},\qquad Z\sim N(0,1 )}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La prueba definida anteriormente tiene un nivel asintótico α , porque
![{\displaystyle {\begin{aligned}{\text{level}}&=P_{null}\left({\text{reject }}H_{null}\right)\\&=P_{null}\left( \exists i\in \{1,\ldots ,N\}:|t_{i}|>\zeta _{\alpha ,N}\right)\\&=1-P_{null}\left(\forall i\in \{1,\ldots ,N\}:|t_{i}|\leq \zeta _{\alpha ,N}\right)\\&=1-\prod _{i=1}^{ N}P_{null}\left(|t_{i}|\leq \zeta _{\alpha ,N}\right)\\&\to 1-\prod _{i=1}^{N}P\ left(|Z_{i}|\leq \zeta _{\alpha ,N}\right)&&Z_{i}\sim N(0,1)\\&=\alpha \end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
caso infinito
En algunos casos, el número de secuencias aumenta a medida que aumenta el tamaño de los datos de cada secuencia. En particular, supongamos . Si esto es cierto, entonces necesitaremos probar un nulo que incluya infinitas hipótesis, es decir![{\displaystyle N}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle n}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle N(n)\rightarrow \infty {\text{ como }}n\rightarrow \infty }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H_{null}:{\text{ todos }}H_{i}{\text{ son verdaderos, }}i=1,2,....}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Para diseñar una prueba, se puede aplicar la corrección de Šidák , como en el caso de un número finito de pruebas t. Sin embargo, cuando , la corrección de Šidák para la prueba t puede no alcanzar el nivel que queremos, es decir, es posible que el nivel verdadero de la prueba no converja al nivel nominal cuando n tiende a infinito. Este resultado está relacionado con estadísticas de alta dimensión y lo demuestran Fan, Hall y Yao (2007). [1] Específicamente, si queremos que el nivel real de la prueba converja al nivel nominal , entonces necesitamos una restricción sobre la velocidad . En efecto,![{\displaystyle N(n)\rightarrow \infty {\text{ como }}n\rightarrow \infty }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle N(n)\rightarrow \infty }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- Cuando todos tienen una distribución simétrica con respecto a cero, entonces es suficiente exigir para garantizar que el nivel verdadero converja a .
![{\displaystyle \epsilon _ {ij}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \log N=o(n^{1/3})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- Cuando las distribuciones de son asimétricas, entonces es necesario imponer para garantizar que el nivel verdadero converja a .
![{\displaystyle \epsilon _ {ij}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \log N=o(n^{1/2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- En realidad, si aplicamos el método bootstrapping a la calibración del nivel, solo lo necesitaremos incluso si tiene una distribución asimétrica.
![{\displaystyle \log N=o(n^{1/3})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \epsilon _ {ij}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Los resultados anteriores se basan en el teorema del límite central . Según el teorema del límite central, cada uno de nuestros estadísticos t posee una distribución normal estándar asintótica, por lo que la diferencia entre la distribución de cada uno y la distribución normal estándar es asintóticamente insignificante. La pregunta es, si agregamos todas las diferencias entre la distribución de cada una y la distribución normal estándar, ¿esta agregación de diferencias sigue siendo asintóticamente ignorable?![{\ Displaystyle t_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle t_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle t_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Cuando tenemos un número finito , la respuesta es sí. Pero cuando tenemos infinitos , la respuesta en algún momento es no. Esto se debe a que en el último caso estamos sumando infinitos términos infinitesimales. Si el número de términos llega al infinito demasiado rápido, es decir, demasiado rápido, entonces la suma puede no ser cero, la distribución del estadístico t no puede aproximarse mediante la distribución normal estándar, el nivel verdadero no converge a el nivel nominal y luego falla la corrección de Šidák.![{\ Displaystyle t_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle t_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle N(n)\rightarrow \infty }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ver también
Referencias
- ^ Fanático, Jianqing; Salón, Pedro; Yao, Qiwei (2007). "A cuántas pruebas de hipótesis simultáneas se puede aplicar la calibración normal, t de Student o Bootstrap". Revista de la Asociación Estadounidense de Estadística . 102 (480): 1282-1288. arXiv : matemáticas/0701003 . doi :10.1198/016214507000000969. S2CID 8622675.