Variables aleatorias independientes e idénticamente distribuidas.

En teoría de probabilidad y estadística , un conjunto de variables aleatorias es independiente y está distribuida idénticamente si cada variable aleatoria tiene la misma distribución de probabilidad que las demás y todas son mutuamente independientes . ^[1] Esta propiedad suele abreviarse como iid , iid o IID . IID se definió por primera vez en estadística y encuentra aplicación en diferentes campos como la minería de datos y el procesamiento de señales .

Introducción

La estadística suele trabajar con muestras aleatorias. Se puede considerar una muestra aleatoria como un conjunto de objetos que se eligen al azar. Más formalmente, es "una secuencia de puntos de datos aleatorios independientes y distribuidos idénticamente (IID) ".

En otras palabras, los términos muestra aleatoria e IID son sinónimos. En estadística, " muestra aleatoria " es la terminología típica, pero en probabilidad es más común decir " IID ".

Distribución idéntica significa que no hay tendencias generales: la distribución no fluctúa y todos los elementos de la muestra se toman de la misma distribución de probabilidad .
Independiente significa que todos los elementos de la muestra son eventos independientes. En otras palabras, no están conectados entre sí de ninguna manera; ^[2] el conocimiento del valor de una variable no da información sobre el valor de la otra y viceversa.

Solicitud

A menudo se utilizan como supuesto variables aleatorias independientes e idénticamente distribuidas, lo que tiende a simplificar las matemáticas subyacentes. Sin embargo, en las aplicaciones prácticas de modelado estadístico , esta suposición puede ser realista o no. ^[3]

El supuesto iid también se utiliza en el teorema del límite central , que establece que la distribución de probabilidad de la suma (o promedio) de variables iid con varianza finita se aproxima a una distribución normal . ^[4]

El supuesto iid surge frecuentemente en el contexto de secuencias de variables aleatorias. Entonces, "independiente e idénticamente distribuido" implica que un elemento de la secuencia es independiente de las variables aleatorias que lo precedieron. De esta manera, una secuencia iid es diferente de una secuencia de Markov , donde la distribución de probabilidad para la $enésima$ variable aleatoria es una función de la variable aleatoria anterior en la secuencia (para una secuencia de Markov de primer orden). Una secuencia iid no implica que las probabilidades de todos los elementos del espacio muestral o del espacio de eventos deban ser las mismas. ^[5] Por ejemplo, los lanzamientos repetidos de dados cargados producirán una secuencia iid, a pesar de que los resultados estén sesgados.

En procesamiento de señales y procesamiento de imágenes , la noción de transformación a iid implica dos especificaciones, la parte "id" y la "i". parte:

identificación . – El nivel de la señal debe estar equilibrado en el eje del tiempo.

i . – El espectro de la señal debe aplanarse, es decir, transformarse mediante filtrado (como la deconvolución ) en una señal de ruido blanco (es decir, una señal en la que todas las frecuencias están igualmente presentes).

Definición

Definición de dos variables aleatorias

Supongamos que las variables aleatorias y están definidas para asumir valores en . Sean y las funciones de distribución acumulativa de y , respectivamente, y denotemos su función de distribución acumulativa conjunta por . $X$ $Y$ $I\subseteq \mathbb {R}$ $F_{X}(x)=\operatorname {P} (X\leq x)$ $F_{Y}(y)=\operatorname {P} (Y\leq y)$ $X$ $Y$ $F_{X,Y}(x,y)=\operatorname {P} (X\leq x\land Y\leq y)$

Dos variables aleatorias y están distribuidas idénticamente si y sólo si ^[6] . $X$ $Y$ $F_{X}(x)=F_{Y}(x)\,\forall x\in I$

Dos variables aleatorias y son independientes si y sólo si . (Ver más Independencia (teoría de la probabilidad) § Dos variables aleatorias ). $X$ $Y$ $F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,\forall x,y\in I$

Dos variables aleatorias y son iid si son independientes y están distribuidas idénticamente, es decir, si y sólo si $X$ $Y$

Definición para más de dos variables aleatorias

La definición se extiende naturalmente a más de dos variables aleatorias. Decimos que las variables aleatorias son iid si son independientes (ver más adelante Independencia (teoría de la probabilidad) § Más de dos variables aleatorias ) y están distribuidas idénticamente, es decir, si y solo si $n$ $X_{1},\ldots ,X_{n}$

ECUACIÓN

donde denota la función de distribución acumulativa conjunta de . $F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})$ $X_{1},\ldots ,X_{n}$

Definición de independencia

En teoría de la probabilidad, dos eventos, y , se llaman independientes si y sólo si . En lo sucesivo, es la abreviatura de . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})}$

Supongamos que hay dos eventos del experimento y . Si , existe la posibilidad . Generalmente, la ocurrencia de tiene un efecto sobre la probabilidad de ; esto se llama probabilidad condicional. Además, sólo cuando la aparición de no tiene ningún efecto sobre la aparición de , existe . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle P({\color {red}A})>0}$ ${\textstyle P({\color {green}B}|{\color {red}A})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {green}B}|{\color {red}A})=P({\color {green}B})}$

Nota: Si y , entonces y son mutuamente independientes y no pueden establecerse como mutuamente incompatibles al mismo tiempo; es decir, la independencia debe ser compatible y la exclusión mutua debe estar relacionada. ${\textstyle P({\color {red}A})>0}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {Green}B})>0}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$

Supongamos que , y son tres eventos. Si , , y se satisfacen, entonces los eventos , , y son mutuamente independientes. ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {green}B}{\color {blue}C})=P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}P({\color {red}A}{\color {blue}C})=P({\color {red}A})P({\color {blue}C})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {red}A}{\color {green}B}{\color {blue}C})=P({\color {red}A})P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$

Una definición más general es que hay eventos . Si las probabilidades de los eventos producto de cualquier evento son iguales al producto de las probabilidades de cada evento, entonces los eventos son independientes entre sí. ${\textstyle n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$ ${\textstyle 2,3,\ldots ,n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$

Ejemplos

Ejemplo 1

Una secuencia de resultados de giros de una ruleta justa o injusta es iid . Una implicación de esto es que si la bola de la ruleta cae en "rojo", por ejemplo, 20 veces seguidas, es ni más ni menos probable que el siguiente giro sea "negro" que en cualquier otro giro (ver la falacia del jugador ). .

Ejemplo 2

Lanza una moneda 10 veces y registra cuántas veces cae cara.

Independiente : cada resultado del aterrizaje no afectará al otro resultado, lo que significa que los 10 resultados son independientes entre sí.
Distribuida de forma idéntica : independientemente de si la moneda es justa (probabilidad de 1/2 de cara) o injusta, siempre que se utilice la misma moneda en cada lanzamiento, cada lanzamiento tendrá la misma probabilidad que el resto.

Esta secuencia de dos posibles resultados iid también se denomina proceso de Bernoulli .

Ejemplo 3

Tira un dado 10 veces y anota cuántas veces el resultado es 1.

Independiente : cada resultado de la tirada del dado no afectará al siguiente, lo que significa que los 10 resultados son independientes entre sí.
Distribuido de forma idéntica : independientemente de si el dado es justo o ponderado, cada tirada tendrá la misma probabilidad que cualquier otra tirada. Por el contrario, lanzar 10 dados diferentes, algunos de los cuales están ponderados y otros no, no produciría variables iid.

Ejemplo 4

Elija una carta de una baraja de cartas estándar que contenga 52 cartas y luego vuelva a colocar la carta en la baraja. Repita esto 52 veces. Anota el número de reyes que aparecen.

Independiente : cada resultado de la tarjeta no afectará al siguiente, lo que significa que los 52 resultados son independientes entre sí. Por el contrario, si cada carta robada se mantiene fuera de la baraja, los sorteos posteriores se verían afectados (sacar un rey haría menos probable sacar un segundo rey) y el resultado no sería independiente.
Distribuida de forma idéntica : después de sacar una carta de ella, cada vez la probabilidad de que salga un rey es 4/52, lo que significa que la probabilidad es idéntica cada vez.

Generalizaciones

Muchos resultados se probaron por primera vez bajo el supuesto de que las variables aleatorias son iid . Se ha demostrado que son ciertos incluso bajo un supuesto distributivo más débil.

Variables aleatorias intercambiables

La noción más general que comparte las principales propiedades de las variables iid es la de variables aleatorias intercambiables , introducida por Bruno de Finetti . ^{[ cita necesaria ]} Intercambiabilidad significa que, si bien las variables pueden no ser independientes, las futuras se comportan como las pasadas; formalmente, cualquier valor de una secuencia finita es tan probable como cualquier permutación de esos valores; la distribución de probabilidad conjunta es invariante bajo el grupo simétrico .

Esto proporciona una generalización útil; por ejemplo, el muestreo sin reemplazo no es independiente, sino intercambiable.

proceso de levy

En cálculo estocástico , las variables iid se consideran un proceso de Lévy en tiempo discreto : cada variable indica cuánto cambia de un momento a otro. Por ejemplo, una secuencia de ensayos de Bernoulli se interpreta como el proceso de Bernoulli .

Se puede generalizar esto para incluir procesos de Lévy en tiempo continuo , y muchos procesos de Lévy pueden verse como límites de variables iid; por ejemplo, el proceso de Wiener es el límite del proceso de Bernoulli.

En el aprendizaje automático

El aprendizaje automático utiliza las grandes cantidades de datos disponibles actualmente para ofrecer resultados más rápidos y precisos. ^[7] Para entrenar modelos de aprendizaje automático de manera efectiva, es crucial utilizar datos históricos que sean ampliamente generalizables. Si los datos de entrenamiento no son representativos de la situación general, el rendimiento del modelo con datos nuevos e invisibles puede ser inexacto.

La iid , o hipótesis independiente e idénticamente distribuida, permite una reducción significativa en el número de casos individuales necesarios en la muestra de entrenamiento.

Esta suposición simplifica los cálculos matemáticos de maximización. En los problemas de optimización, el supuesto de una distribución idéntica e independiente simplifica el cálculo de la función de verosimilitud. Debido al supuesto de independencia, la función de verosimilitud se puede expresar como:

l(\theta )=P(x_{1},x_{2},x_{3},...,x_{n}|\theta )=P(x_{1}|\theta )P(x_{2}|\theta )P(x_{3}|\theta )...P(x_{n}|\theta )

Para maximizar la probabilidad del evento observado, se aplica la función log para maximizar el parámetro . En concreto, calcula: ${\textstyle \theta }$

\mathop {\rm {argmax}} \limits _{\theta }\log(l(\theta ))

dónde

\log(l(\theta ))=\log(P(x_{1}|\theta ))+\log(P(x_{2}|\theta ))+\log(P(x_{3}|\theta ))+...+\log(P(x_{n}|\theta ))

Las computadoras son muy eficientes para realizar sumas múltiples, pero no tan eficientes para realizar multiplicaciones. Esta simplificación mejora la eficiencia computacional. La transformación logarítmica, en el proceso de maximización, convierte muchas funciones exponenciales en funciones lineales.

Hay dos razones principales por las que esta hipótesis es prácticamente útil con el teorema del límite central:

Incluso si la muestra se origina a partir de una distribución compleja no gaussiana, se puede aproximar bien porque el teorema del límite central permite simplificarla a una distribución gaussiana. Para una gran cantidad de muestras observables, "la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal".
La segunda razón es que la precisión del modelo depende de la simplicidad y el poder de representación de la unidad del modelo, así como de la calidad de los datos. La simplicidad de la unidad hace que sea fácil de interpretar y escalar, mientras que el poder de representación y la escalabilidad mejoran la precisión del modelo. En una red neuronal profunda, por ejemplo, cada neurona es simple pero poderosa en su representación, capa por capa, capturando características más complejas para mejorar la precisión del modelo.

Ver también

Referencias

^ Clauset, Aaron (2011). "Una breve introducción a las distribuciones de probabilidad" (PDF) . Instituto Santa Fe . Archivado desde el original (PDF) el 20 de enero de 2012 . Consultado el 29 de noviembre de 2011 .
^ Stephanie (11 de mayo de 2016). "Estadísticas IID: definición y ejemplos independientes y distribuidos idénticamente". Estadísticas Cómo . Consultado el 9 de diciembre de 2021 .
^ Hampel, Frank (1998), "¿Son las estadísticas demasiado difíciles?", Canadian Journal of Statistics , 26 (3): 497–513, doi :10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR 3315772, S2CID 53117661(§8).
^ Blum, JR; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "Teoremas del límite central para procesos intercambiables". Revista Canadiense de Matemáticas . 10 : 222–229. doi : 10.4153/CJM-1958-026-0 . S2CID 124843240.
^ Portada, TM; Thomas, JA (2006). Elementos de la teoría de la información . Wiley-Interscience . págs. 57–58. ISBN 978-0-471-24195-9.
^ Casella y Berger 2002, Teorema 1.5.10
^ "¿Qué es el aprendizaje automático? Una definición". Experto.ai . 2020-05-05 . Consultado el 16 de diciembre de 2021 .

Otras lecturas

Casella, George ; Berger, Roger L. (2002), Inferencia estadística , Serie avanzada de Duxbury