Variables aleatorias independientes e idénticamente distribuidas.

En teoría de probabilidad y estadística , un conjunto de variables aleatorias es independiente y está distribuida idénticamente si cada variable aleatoria tiene la misma distribución de probabilidad que las demás y todas son mutuamente independientes . ^[1] Esta propiedad suele abreviarse como iid , iid o IID . IID se definió por primera vez en estadística y encuentra aplicación en diferentes campos, como la minería de datos y el procesamiento de señales.

Introducción

La estadística suele trabajar con muestras aleatorias. Se puede considerar una muestra aleatoria como un conjunto de objetos que se eligen al azar. Más formalmente, es "una secuencia de puntos de datos aleatorios independientes y distribuidos idénticamente (IID)".

En otras palabras, los términos muestra aleatoria e IID son básicamente lo mismo. En estadística, "muestra aleatoria" es la terminología típica, pero en probabilidad es más común decir "IID".

Distribución idéntica significa que no hay tendencias generales: la distribución no fluctúa y todos los elementos de la muestra se toman de la misma distribución de probabilidad.
Independiente significa que todos los elementos de la muestra son eventos independientes. En otras palabras, no están conectados entre sí de ninguna manera; ^[2] el conocimiento del valor de una variable no da información sobre el valor de la otra y viceversa.

Solicitud

A menudo se utilizan como supuesto variables aleatorias independientes e idénticamente distribuidas, lo que tiende a simplificar las matemáticas subyacentes. Sin embargo, en las aplicaciones prácticas de modelado estadístico , la suposición puede ser realista o no. ^[3]

El supuesto iid también se utiliza en el teorema del límite central , que establece que la distribución de probabilidad de la suma (o promedio) de variables iid con varianza finita se aproxima a una distribución normal . ^[4]

A menudo, el supuesto iid surge en el contexto de secuencias de variables aleatorias. Entonces "independiente e idénticamente distribuido" implica que un elemento de la secuencia es independiente de las variables aleatorias que lo precedieron. De esta manera, una secuencia iid es diferente de una secuencia de Markov , donde la distribución de probabilidad para la $enésima$ variable aleatoria es una función de la variable aleatoria anterior en la secuencia (para una secuencia de Markov de primer orden). Una secuencia iid no implica que las probabilidades de todos los elementos del espacio muestral o del espacio de eventos deban ser las mismas. ^[5] Por ejemplo, los lanzamientos repetidos de dados cargados producirán una secuencia iid, a pesar de que los resultados estén sesgados.

En el procesamiento de señales y de imágenes, la noción de transformación a iid implica dos especificaciones, la parte "id" y la "i". parte:

id: el nivel de la señal debe estar equilibrado en el eje del tiempo.

i. – El espectro de la señal debe aplanarse, es decir, transformarse mediante filtrado (como la deconvolución ) en una señal de ruido blanco (es decir, una señal en la que todas las frecuencias están igualmente presentes).

Definición

Definición de dos variables aleatorias

Supongamos que las variables aleatorias y están definidas para asumir valores en . Sean y las funciones de distribución acumulativa de y , respectivamente, y denotemos su función de distribución acumulativa conjunta por . $X$ $Y$ $I\subseteq \mathbb {R}$ $F_{X}(x)=\operatorname {P} (X\leq x)$ $F_{Y}(y)=\operatorname {P} (Y\leq y)$ $X$ $Y$ $F_{X,Y}(x,y)=\operatorname {P} (X\leq x\land Y\leq y)$

Dos variables aleatorias y están distribuidas idénticamente si y sólo si ^[6] . $X$ $Y$ $F_{X}(x)=F_{Y}(x)\,\forall x\in I$

Dos variables aleatorias y son independientes si y sólo si . (Ver más Independencia (teoría de la probabilidad) § Dos variables aleatorias ). $X$ $Y$ $F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,\forall x,y\in I$

Dos variables aleatorias y son iid si son independientes y están distribuidas idénticamente, es decir, si y sólo si $X$ $Y$

Definición para más de dos variables aleatorias

La definición se extiende naturalmente a más de dos variables aleatorias. Decimos que las variables aleatorias son iid si son independientes (ver más Independencia (teoría de la probabilidad) § Más de dos variables aleatorias ) y están distribuidas idénticamente, es decir, si y solo si $n$ $X_{1},\ldots ,X_{n}$

donde denota la función de distribución acumulativa conjunta de . $F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})$ $X_{1},\ldots ,X_{n}$

Definición de independencia

En teoría de la probabilidad, dos eventos, y , se llaman independientes si y sólo si . En lo sucesivo, es la abreviatura de . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})}$

Supongamos que hay dos eventos del experimento y . Si , existe la posibilidad . Generalmente, la ocurrencia de tiene un efecto sobre la probabilidad de , lo que se llama probabilidad condicional, y solo cuando la ocurrencia de no tiene efecto sobre la ocurrencia de , existe . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle P({\color {red}A})>0}$ ${\textstyle P({\color {green}B}|{\color {red}A})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {green}B}|{\color {red}A})=P({\color {green}B})}$

Nota: Si y , entonces y son mutuamente independientes y no pueden establecerse como mutuamente incompatibles al mismo tiempo; es decir, la independencia debe ser compatible y la exclusión mutua debe estar relacionada. ${\textstyle P({\color {red}A})>0}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {Green}B})>0}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$

Supongamos que , y son tres eventos. Si , , y se satisfacen, entonces los eventos , , y son mutuamente independientes. ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {green}B}{\color {blue}C})=P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}P({\color {red}A}{\color {blue}C})=P({\color {red}A})P({\color {blue}C})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {red}A}{\color {green}B}{\color {blue}C})=P({\color {red}A})P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$

Una definición más general es que hay eventos . Si las probabilidades de los eventos producto de cualquier evento son iguales al producto de las probabilidades de cada evento, entonces los eventos son independientes entre sí. ${\textstyle n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$ ${\textstyle 2,3,\ldots ,n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$

Ejemplos

Ejemplo 1

Una secuencia de resultados de giros de una rueda de ruleta justa o injusta es iid. Una implicación de esto es que si la bola de la ruleta cae en "rojo", por ejemplo, 20 veces seguidas, no es más o menos probable que el siguiente giro ser "negro" que en cualquier otro giro (ver la falacia del jugador ).

Ejemplo 2

Lanza una moneda 10 veces y registra cuántas veces sale cara.

Independiente: cada resultado del aterrizaje no afectará al otro resultado, lo que significa que los 10 resultados son independientes entre sí.
Distribuida de forma idéntica: independientemente de si la moneda es justa (probabilidad de 1/2 de cara) o injusta, siempre que se utilice la misma moneda en cada lanzamiento, cada lanzamiento tendrá la misma probabilidad que el resto.

Esta secuencia de dos posibles resultados iid también se denomina proceso de Bernoulli .

Ejemplo 3

Tira un dado 10 veces y anota cuántas veces el resultado es 1.

Independiente: cada resultado de la tirada del dado no afectará al siguiente, lo que significa que los 10 resultados son independientes entre sí.
Distribuido de forma idéntica: independientemente de si el dado es justo o ponderado, cada tirada tendrá la misma probabilidad que las demás tiradas. Por el contrario, lanzar 10 dados diferentes, algunos de los cuales están ponderados y otros no, no produciría variables iid.

Ejemplo 4

Elija una carta de una baraja de cartas estándar que contenga 52 cartas y luego vuelva a colocar la carta en la baraja. Repítelo 52 veces. Anota el número de reyes que aparecen.

Independiente: cada resultado de la tarjeta no afectará al siguiente, lo que significa que los 52 resultados son independientes entre sí. Por el contrario, si cada carta robada se mantiene fuera de la baraja, los sorteos posteriores se verían afectados (sacar un rey haría menos probable sacar un segundo rey) y el resultado no sería independiente.
Distribuida de forma idéntica: después de sacar una carta de ella, cada vez la probabilidad de que salga un rey es 4/52, lo que significa que la probabilidad es idéntica cada vez.

Generalizaciones

Muchos resultados que se probaron inicialmente bajo el supuesto de que las variables aleatorias son iid han demostrado ser ciertos incluso bajo un supuesto distribucional más débil.

Variables aleatorias intercambiables

La noción más general que comparte las principales propiedades de las variables iid es la de variables aleatorias intercambiables , introducida por Bruno de Finetti . ^{[ cita necesaria ]} Intercambiabilidad significa que, si bien las variables pueden no ser independientes, las futuras se comportan como las pasadas (formalmente, cualquier valor de una secuencia finita es tan probable como cualquier permutación de esos valores), la distribución de probabilidad conjunta es invariante bajo el grupo simétrico .

Esto proporciona una generalización útil; por ejemplo, el muestreo sin reemplazo no es independiente, sino intercambiable.

proceso de levy

En cálculo estocástico , las variables iid se consideran un proceso de Lévy en tiempo discreto : cada variable indica cuánto cambia de un momento a otro. Por ejemplo, una secuencia de ensayos de Bernoulli se interpreta como el proceso de Bernoulli . Se puede generalizar esto para incluir procesos de Lévy en tiempo continuo, y muchos procesos de Lévy pueden verse como límites de variables iid; por ejemplo, el proceso de Wiener es el límite del proceso de Bernoulli.

En el aprendizaje automático

El aprendizaje automático utiliza cantidades masivas de datos adquiridos actualmente para ofrecer resultados más rápidos y precisos. ^[7] Por lo tanto, necesitamos utilizar datos históricos con representatividad general. Si los datos obtenidos no son representativos de la situación general, las normas estarán mal resumidas o mal resumidas.

Mediante la hipótesis iid, el número de casos individuales en la muestra de entrenamiento se puede reducir considerablemente.

Este supuesto hace que la maximización sea muy fácil de calcular matemáticamente. La observación del supuesto de distribución idéntica e independiente en matemáticas simplifica el cálculo de la función de verosimilitud en problemas de optimización. Debido al supuesto de independencia, la función de probabilidad se puede escribir así

l(\theta )=P(x_{1},x_{2},x_{3},...,x_{n}|\theta )=P(x_{1}|\theta )P(x_{2}|\theta )P(x_{3}|\theta )...P(x_{n}|\theta )

Para maximizar la probabilidad del evento observado, tome la función logarítmica y maximice el parámetro θ . Es decir, calcular:

\mathop {\rm {argmax}} \limits _{\theta }\log(l(\theta ))

dónde

\log(l(\theta ))=\log(P(x_{1}|\theta ))+\log(P(x_{2}|\theta ))+\log(P(x_{3}|\theta ))+...+\log(P(x_{n}|\theta ))

La computadora es muy eficiente para calcular sumas múltiples, pero no es eficiente para calcular la multiplicación. Esta simplificación es la razón principal del aumento de la eficiencia computacional. Y esta transformación logarítmica también está en proceso de maximización, convirtiendo muchas funciones exponenciales en funciones lineales.

Por dos razones, esta hipótesis es fácil de utilizar en aplicaciones prácticas.

Incluso si la muestra proviene de una distribución no gaussiana más compleja, también puede aproximarse bien. Porque se puede simplificar desde el teorema del límite central a la distribución gaussiana. Para una gran cantidad de muestras observables, "la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal".
La segunda razón es que la precisión del modelo depende de la simplicidad y el poder representativo de la unidad del modelo, así como de la calidad de los datos. Porque la simplicidad de la unidad hace que sea fácil de interpretar y escalar, y la potencia representativa + escalamiento de la unidad mejora la precisión del modelo. Al igual que en una red neuronal profunda, cada neurona es muy simple pero tiene un fuerte poder representativo, capa por capa para representar características más complejas para mejorar la precisión del modelo.

Ver también

Referencias

^ Clauset, Aaron (2011). "Una breve introducción a las distribuciones de probabilidad" (PDF) . Instituto Santa Fe . Archivado desde el original (PDF) el 20 de enero de 2012 . Consultado el 29 de noviembre de 2011 .
^ Stephanie (11 de mayo de 2016). "Estadísticas IID: definición y ejemplos independientes y distribuidos idénticamente". Estadísticas Cómo . Consultado el 9 de diciembre de 2021 .
^ Hampel, Frank (1998), "¿Son las estadísticas demasiado difíciles?", Canadian Journal of Statistics , 26 (3): 497–513, doi :10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR 3315772, S2CID 53117661(§8).
^ Blum, JR; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "Teoremas del límite central para procesos intercambiables". Revista Canadiense de Matemáticas . 10 : 222–229. doi : 10.4153/CJM-1958-026-0 . S2CID 124843240.
^ Portada, TM; Thomas, JA (2006). Elementos de la teoría de la información . Wiley-Interscience . págs. 57–58. ISBN 978-0-471-24195-9.
^ Casella y Berger 2002, Teorema 1.5.10
^ "¿Qué es el aprendizaje automático? Una definición". Experto.ai . 2020-05-05 . Consultado el 16 de diciembre de 2021 .

Otras lecturas

Casella, George ; Berger, Roger L. (2002), Inferencia estadística , Serie avanzada de Duxbury