Variables aleatorias independientes y distribuidas de forma idéntica

En teoría de probabilidad y estadística , un conjunto de variables aleatorias es independiente e idénticamente distribuida si cada variable aleatoria tiene la misma distribución de probabilidad que las demás y todas son mutuamente independientes . ^[1] Esta propiedad suele abreviarse como iid , iid o IID . IID se definió por primera vez en estadística y encuentra aplicación en diferentes campos, como la minería de datos y el procesamiento de señales .

Introducción

Las estadísticas suelen trabajar con muestras aleatorias. Una muestra aleatoria puede considerarse como un conjunto de objetos elegidos al azar. Más formalmente, es "una secuencia de puntos de datos aleatorios independientes e idénticamente distribuidos (IID) ".

En otras palabras, los términos muestra aleatoria e IID son sinónimos. En estadística, " muestra aleatoria " es la terminología típica, pero en probabilidad, es más común decir " IID ".

Distribuido de manera idéntica significa que no hay tendencias generales: la distribución no fluctúa y todos los elementos de la muestra se toman de la misma distribución de probabilidad .
Independiente significa que todos los elementos de la muestra son eventos independientes. En otras palabras, no están conectados entre sí de ninguna manera; ^[2] el conocimiento del valor de una variable no brinda información sobre el valor de la otra y viceversa.

Solicitud

Las variables aleatorias independientes e idénticamente distribuidas se utilizan a menudo como hipótesis, lo que tiende a simplificar las matemáticas subyacentes. Sin embargo, en aplicaciones prácticas de modelado estadístico , esta hipótesis puede ser realista o no. ^[3]

El supuesto iid también se utiliza en el teorema del límite central , que establece que la distribución de probabilidad de la suma (o promedio) de variables iid con varianza finita se aproxima a una distribución normal . ^[4]

El supuesto iid surge con frecuencia en el contexto de secuencias de variables aleatorias. Entonces, "independiente e idénticamente distribuido" implica que un elemento en la secuencia es independiente de las variables aleatorias que lo anteceden. De esta manera, una secuencia iid es diferente de una secuencia de Markov , donde la distribución de probabilidad para la $n$ ésima variable aleatoria es una función de la variable aleatoria anterior en la secuencia (para una secuencia de Markov de primer orden). Una secuencia iid no implica que las probabilidades para todos los elementos del espacio muestral o del espacio de eventos deban ser las mismas. ^[5] Por ejemplo, lanzamientos repetidos de dados cargados producirán una secuencia que es iid, a pesar de que los resultados estén sesgados.

En el procesamiento de señales y el procesamiento de imágenes , la noción de transformación a iid implica dos especificaciones, la parte "id" y la parte "i":

id . – El nivel de la señal debe estar equilibrado en el eje del tiempo.

i . – El espectro de la señal debe ser aplanado, es decir, transformado mediante filtrado (como la deconvolución ) en una señal de ruido blanco (es decir, una señal donde todas las frecuencias están igualmente presentes).

Definición

Definición de dos variables aleatorias

Supóngase que las variables aleatorias y están definidas para asumir valores en . Sean y las funciones de distribución acumulativa de y , respectivamente, y denotemos su función de distribución acumulativa conjunta por . ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $I\subseteq \mathbb {R}$ $F_{X}(x)=\nombre del operador {P} (X\leq x)$ $F_{Y}(y)=\operatorname {P} (Y\leq y)$ ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $F_{X,Y}(x,y)=\nombre del operador {P} (X\leq x\ly Y\leq y)$

Dos variables aleatorias y se distribuyen idénticamente si y sólo si ^[6] . ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $F_{X}(x)=F_{Y}(x)\,\para todo x\en I$

Dos variables aleatorias y son independientes si y sólo si . (Véase más información sobre Independencia (teoría de la probabilidad) § Dos variables aleatorias .) ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,\para todo x,y\en I$

Dos variables aleatorias y son iid si son independientes y se distribuyen de forma idéntica, es decir, si y solo si ${\estilo de visualización X}$ ${\estilo de visualización Y}$

Definición para más de dos variables aleatorias

La definición se extiende naturalmente a más de dos variables aleatorias. Decimos que las variables aleatorias son iid si son independientes (ver más adelante Independencia (teoría de la probabilidad) § Más de dos variables aleatorias ) e idénticamente distribuidas, es decir, si y solo si ${\estilo de visualización n}$ $X_{1},\ldots ,X_{n}$

ECUACIÓN

donde denota la función de distribución acumulativa conjunta de . $F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})$ $X_{1},\ldots ,X_{n}$

Definición de independencia

En teoría de probabilidad, dos eventos, y , se denominan independientes si y solo si . En lo sucesivo, es la abreviatura de . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}\ \mathrm {and} \ {\color {green}B})}$

Supongamos que hay dos eventos del experimento y . Si , existe una posibilidad . Generalmente, la ocurrencia de tiene un efecto sobre la probabilidad de — esto se llama probabilidad condicional. Además, solo cuando la ocurrencia de no tiene efecto sobre la ocurrencia de , existe . ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle P({\color {red}A})>0}$ ${\textstyle P({\color {green}B}|{\color {red}A})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {green}B}|{\color {red}A})=P({\color {green}B})}$

Nota: Si y , entonces y son mutuamente independientes, lo que no puede establecerse con mutuamente incompatibles al mismo tiempo; es decir, la independencia debe ser compatible y la exclusión mutua debe estar relacionada. ${\textstyle P({\color {red}A})>0}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {Green}B})>0}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$

Supóngase que , , y son tres eventos. Si , , , y se cumplen, entonces los eventos , , y son mutuamente independientes. ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}P({\color {red}A}{\color {green}B})=P({\color {red}A})P({\color {green}B})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {green}B}{\color {blue}C})=P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}P({\color {red}A}{\color {blue}C})=P({\color {red}A})P({\color {blue}C})}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\definecolor {blue}{rgb}{0,0,1}\definecolor {Blue}{rgb}{0,0,1}P({\color {red}A}{\color {green}B}{\color {blue}C})=P({\color {red}A})P({\color {green}B})P({\color {blue}C})}$ ${\textstyle \color {red}A}$ ${\textstyle \definecolor {Green}{rgb}{0,0.5019607843137255,0}\definecolor {green}{rgb}{0,0.5019607843137255,0}\color {Green}B}$ ${\textstyle \definecolor {blue}{rgb}{0,0,1}\color {blue}C}$

Una definición más general es que hay eventos, . Si las probabilidades de los eventos producto de cualquier evento son iguales al producto de las probabilidades de cada evento, entonces los eventos son independientes entre sí. ${\textstyle n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$ ${\textstyle 2,3,\ldots ,n}$ ${\textstyle {\color {red}A}_{1},{\color {red}A}_{2},\ldots ,{\color {red}A}_{n}}$

Ejemplos

Ejemplo 1

Una secuencia de resultados de giros de una ruleta justa o injusta es iid . Una implicación de esto es que si la bola de la ruleta cae en "rojo", por ejemplo, 20 veces seguidas, el siguiente giro no tiene más o menos probabilidades de caer en "negro" que cualquier otro giro (véase la falacia del jugador ).

Ejemplo 2

Lanza una moneda 10 veces y registra cuántas veces cae cara.

Independiente : cada resultado del aterrizaje no afectará al otro resultado, lo que significa que los 10 resultados son independientes entre sí.
Distribuida de manera idéntica : independientemente de si la moneda es justa (probabilidad 1/2 de cara) o injusta, siempre que se use la misma moneda para cada lanzamiento, cada lanzamiento tendrá la misma probabilidad que los demás.

Esta secuencia de dos posibles resultados iid también se denomina proceso de Bernoulli .

Ejemplo 3

Lanza un dado 10 veces y registra cuántas veces el resultado es 1.

Independiente – Cada resultado de la tirada del dado no afectará al siguiente, lo que significa que los 10 resultados son independientes entre sí.
Distribuciones idénticas : independientemente de si el dado es justo o ponderado, cada lanzamiento tendrá la misma probabilidad que cualquier otro lanzamiento. Por el contrario, lanzar 10 dados diferentes, algunos de los cuales están ponderados y otros no, no produciría variables iid.

Ejemplo 4

Elige una carta de una baraja estándar de 52 cartas y vuelve a colocarla en la baraja. Repite esto 52 veces. Anota la cantidad de reyes que aparecen.

Independiente : cada resultado de una carta no afectará al siguiente, lo que significa que los 52 resultados son independientes entre sí. Por el contrario, si cada carta que se extrae se mantiene fuera del mazo, los sorteos posteriores se verían afectados por ella (si se extrae un rey, sería menos probable que se extraiga un segundo rey) y el resultado no sería independiente.
Distribuida de manera idéntica : después de sacar una carta, cada vez la probabilidad de que salga un rey es 4/52, lo que significa que la probabilidad es idéntica cada vez.

Generalizaciones

Se ha demostrado que muchos resultados que se probaron inicialmente bajo el supuesto de que las variables aleatorias son iid son verdaderos incluso bajo un supuesto de distribución más débil.

Variables aleatorias intercambiables

La noción más general que comparte las principales propiedades de las variables iid son las variables aleatorias intercambiables , introducidas por Bruno de Finetti . ^{[ cita requerida ]} La intercambiabilidad significa que, si bien las variables pueden no ser independientes, las futuras se comportan como las pasadas —formalmente, cualquier valor de una secuencia finita es tan probable como cualquier permutación de esos valores— la distribución de probabilidad conjunta es invariante bajo el grupo simétrico .

Esto proporciona una generalización útil: por ejemplo, el muestreo sin reemplazo no es independiente, sino intercambiable.

Proceso Lévy

En el cálculo estocástico , las variables iid se consideran como un proceso de Lévy en tiempo discreto : cada variable indica cuánto cambia de un momento a otro. Por ejemplo, una secuencia de ensayos de Bernoulli se interpreta como el proceso de Bernoulli .

Se puede generalizar esto para incluir procesos de Lévy en tiempo continuo , y muchos procesos de Lévy pueden verse como límites de variables iid; por ejemplo, el proceso de Wiener es el límite del proceso de Bernoulli.

En el aprendizaje automático

El aprendizaje automático utiliza las grandes cantidades de datos disponibles actualmente para ofrecer resultados más rápidos y precisos. ^[7] Para entrenar modelos de aprendizaje automático de manera eficaz, es fundamental utilizar datos históricos que se puedan generalizar ampliamente. Si los datos de entrenamiento no son representativos de la situación general, el rendimiento del modelo con datos nuevos e inéditos puede ser inexacto.

La hipótesis iid , o independiente e idénticamente distribuida, permite una reducción significativa en el número de casos individuales requeridos en la muestra de entrenamiento.

Este supuesto simplifica los cálculos matemáticos de maximización. En los problemas de optimización, el supuesto de distribución independiente e idéntica simplifica el cálculo de la función de verosimilitud. Debido al supuesto de independencia, la función de verosimilitud se puede expresar como:

l(\theta )=P(x_{1},x_{2},x_{3},...,x_{n}|\theta )=P(x_{1}|\theta )P(x_{2}|\theta )P(x_{3}|\theta )...P(x_{n}|\theta )

Para maximizar la probabilidad del evento observado, se aplica la función logarítmica para maximizar el parámetro . En concreto, calcula: ${\textstyle \theta }$

\mathop {\rm {argmax}} \limits _{\theta }\log(l(\theta ))

dónde

\log(l(\theta ))=\log(P(x_{1}|\theta ))+\log(P(x_{2}|\theta ))+\log(P(x_{3}|\theta ))+...+\log(P(x_{n}|\theta ))

Las computadoras son muy eficientes a la hora de realizar sumas múltiples, pero no tanto a la hora de realizar multiplicaciones. Esta simplificación mejora la eficiencia computacional. La transformación logarítmica, en el proceso de maximización, convierte muchas funciones exponenciales en funciones lineales.

Hay dos razones principales por las que esta hipótesis es prácticamente útil con el teorema del límite central:

Incluso si la muestra proviene de una distribución no gaussiana compleja, se puede aproximar bien porque el teorema del límite central permite simplificarla a una distribución gaussiana. Para una gran cantidad de muestras observables, "la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal".
La segunda razón es que la precisión del modelo depende de la simplicidad y el poder de representación de la unidad del modelo, así como de la calidad de los datos. La simplicidad de la unidad facilita su interpretación y escalabilidad, mientras que el poder de representación y la escalabilidad mejoran la precisión del modelo. En una red neuronal profunda, por ejemplo, cada neurona es simple pero poderosa en la representación, capa por capa, capturando características más complejas para mejorar la precisión del modelo.

Véase también

Referencias

^ Clauset, Aaron (2011). "Una breve introducción a las distribuciones de probabilidad" (PDF) . Santa Fe Institute . Archivado desde el original (PDF) el 2012-01-20 . Consultado el 29 de noviembre de 2011 .
^ Stephanie (11 de mayo de 2016). "Estadísticas IID: definición y ejemplos de distribución independiente e idéntica". Cómo hacer estadísticas . Consultado el 9 de diciembre de 2021 .
^ Hampel, Frank (1998), "¿Es la estadística demasiado difícil?", Revista Canadiense de Estadística , 26 (3): 497–513, doi :10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR 3315772, S2CID 53117661(§8).
^ Blum, JR; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "Teoremas del límite central para procesos intercambiables". Revista canadiense de matemáticas . 10 : 222–229. doi : 10.4153/CJM-1958-026-0 . S2CID 124843240.
^ Portada, TM; Thomas, JA (2006). Elementos de la teoría de la información . Wiley-Interscience . págs. 57-58. ISBN. 978-0-471-24195-9.
^ Casella y Berger 2002, Teorema 1.5.10
^ "¿Qué es el aprendizaje automático? Una definición". Expert.ai . 2020-05-05 . Consultado el 2021-12-16 .

Lectura adicional

Casella, George ; Berger, Roger L. (2002), Inferencia estadística , Serie avanzada de Duxbury