Variables aleatorias independientes e idénticamente distribuidas.
Nociones importantes en probabilidad y estadística.
En teoría de probabilidad y estadística , un conjunto de variables aleatorias es independiente y está distribuida idénticamente si cada variable aleatoria tiene la misma distribución de probabilidad que las demás y todas son mutuamente independientes . [1] Esta propiedad suele abreviarse como iid , iid o IID . IID se definió por primera vez en estadística y encuentra aplicación en diferentes campos, como la minería de datos y el procesamiento de señales.
Introducción
La estadística suele trabajar con muestras aleatorias. Se puede considerar una muestra aleatoria como un conjunto de objetos que se eligen al azar. Más formalmente, es "una secuencia de puntos de datos aleatorios independientes y distribuidos idénticamente (IID)".
En otras palabras, los términos muestra aleatoria e IID son básicamente lo mismo. En estadística, "muestra aleatoria" es la terminología típica, pero en probabilidad es más común decir "IID".
Distribución idéntica significa que no hay tendencias generales: la distribución no fluctúa y todos los elementos de la muestra se toman de la misma distribución de probabilidad.
Independiente significa que todos los elementos de la muestra son eventos independientes. En otras palabras, no están conectados entre sí de ninguna manera; [2] el conocimiento del valor de una variable no da información sobre el valor de la otra y viceversa.
Solicitud
A menudo se utilizan como supuesto variables aleatorias independientes e idénticamente distribuidas, lo que tiende a simplificar las matemáticas subyacentes. Sin embargo, en las aplicaciones prácticas de modelado estadístico , la suposición puede ser realista o no. [3]
El supuesto iid también se utiliza en el teorema del límite central , que establece que la distribución de probabilidad de la suma (o promedio) de variables iid con varianza finita se aproxima a una distribución normal . [4]
A menudo, el supuesto iid surge en el contexto de secuencias de variables aleatorias. Entonces "independiente e idénticamente distribuido" implica que un elemento de la secuencia es independiente de las variables aleatorias que lo precedieron. De esta manera, una secuencia iid es diferente de una secuencia de Markov , donde la distribución de probabilidad para la enésima variable aleatoria es una función de la variable aleatoria anterior en la secuencia (para una secuencia de Markov de primer orden). Una secuencia iid no implica que las probabilidades de todos los elementos del espacio muestral o del espacio de eventos deban ser las mismas. [5] Por ejemplo, los lanzamientos repetidos de dados cargados producirán una secuencia iid, a pesar de que los resultados estén sesgados.
id: el nivel de la señal debe estar equilibrado en el eje del tiempo.
i. – El espectro de la señal debe aplanarse, es decir, transformarse mediante filtrado (como la deconvolución ) en una señal de ruido blanco (es decir, una señal en la que todas las frecuencias están igualmente presentes).
donde denota la función de distribución acumulativa conjunta de .
Definición de independencia
En teoría de la probabilidad, dos eventos, y , se llaman independientes si y sólo si . En lo sucesivo, es la abreviatura de .
Supongamos que hay dos eventos del experimento y . Si , existe la posibilidad . Generalmente, la ocurrencia de tiene un efecto sobre la probabilidad de , lo que se llama probabilidad condicional, y solo cuando la ocurrencia de no tiene efecto sobre la ocurrencia de , existe .
Nota: Si y , entonces y son mutuamente independientes y no pueden establecerse como mutuamente incompatibles al mismo tiempo; es decir, la independencia debe ser compatible y la exclusión mutua debe estar relacionada.
Supongamos que , y son tres eventos. Si , , y se satisfacen, entonces los eventos , , y son mutuamente independientes.
Una definición más general es que hay eventos . Si las probabilidades de los eventos producto de cualquier evento son iguales al producto de las probabilidades de cada evento, entonces los eventos son independientes entre sí.
Ejemplos
Ejemplo 1
Una secuencia de resultados de giros de una rueda de ruleta justa o injusta es iid. Una implicación de esto es que si la bola de la ruleta cae en "rojo", por ejemplo, 20 veces seguidas, no es más o menos probable que el siguiente giro ser "negro" que en cualquier otro giro (ver la falacia del jugador ).
Ejemplo 2
Lanza una moneda 10 veces y registra cuántas veces sale cara.
Independiente: cada resultado del aterrizaje no afectará al otro resultado, lo que significa que los 10 resultados son independientes entre sí.
Distribuida de forma idéntica: independientemente de si la moneda es justa (probabilidad de 1/2 de cara) o injusta, siempre que se utilice la misma moneda en cada lanzamiento, cada lanzamiento tendrá la misma probabilidad que el resto.
Esta secuencia de dos posibles resultados iid también se denomina proceso de Bernoulli .
Ejemplo 3
Tira un dado 10 veces y anota cuántas veces el resultado es 1.
Independiente: cada resultado de la tirada del dado no afectará al siguiente, lo que significa que los 10 resultados son independientes entre sí.
Distribuido de forma idéntica: independientemente de si el dado es justo o ponderado, cada tirada tendrá la misma probabilidad que las demás tiradas. Por el contrario, lanzar 10 dados diferentes, algunos de los cuales están ponderados y otros no, no produciría variables iid.
Ejemplo 4
Elija una carta de una baraja de cartas estándar que contenga 52 cartas y luego vuelva a colocar la carta en la baraja. Repítelo 52 veces. Anota el número de reyes que aparecen.
Independiente: cada resultado de la tarjeta no afectará al siguiente, lo que significa que los 52 resultados son independientes entre sí. Por el contrario, si cada carta robada se mantiene fuera de la baraja, los sorteos posteriores se verían afectados (sacar un rey haría menos probable sacar un segundo rey) y el resultado no sería independiente.
Distribuida de forma idéntica: después de sacar una carta de ella, cada vez la probabilidad de que salga un rey es 4/52, lo que significa que la probabilidad es idéntica cada vez.
Generalizaciones
Muchos resultados que se probaron inicialmente bajo el supuesto de que las variables aleatorias son iid han demostrado ser ciertos incluso bajo un supuesto distribucional más débil.
Esto proporciona una generalización útil; por ejemplo, el muestreo sin reemplazo no es independiente, sino intercambiable.
proceso de levy
En cálculo estocástico , las variables iid se consideran un proceso de Lévy en tiempo discreto : cada variable indica cuánto cambia de un momento a otro. Por ejemplo, una secuencia de ensayos de Bernoulli se interpreta como el proceso de Bernoulli . Se puede generalizar esto para incluir procesos de Lévy en tiempo continuo, y muchos procesos de Lévy pueden verse como límites de variables iid; por ejemplo, el proceso de Wiener es el límite del proceso de Bernoulli.
En el aprendizaje automático
El aprendizaje automático utiliza cantidades masivas de datos adquiridos actualmente para ofrecer resultados más rápidos y precisos. [7] Por lo tanto, necesitamos utilizar datos históricos con representatividad general. Si los datos obtenidos no son representativos de la situación general, las normas estarán mal resumidas o mal resumidas.
Mediante la hipótesis iid, el número de casos individuales en la muestra de entrenamiento se puede reducir considerablemente.
Este supuesto hace que la maximización sea muy fácil de calcular matemáticamente. La observación del supuesto de distribución idéntica e independiente en matemáticas simplifica el cálculo de la función de verosimilitud en problemas de optimización. Debido al supuesto de independencia, la función de probabilidad se puede escribir así
Para maximizar la probabilidad del evento observado, tome la función logarítmica y maximice el parámetro θ . Es decir, calcular:
dónde
La computadora es muy eficiente para calcular sumas múltiples, pero no es eficiente para calcular la multiplicación. Esta simplificación es la razón principal del aumento de la eficiencia computacional. Y esta transformación logarítmica también está en proceso de maximización, convirtiendo muchas funciones exponenciales en funciones lineales.
Por dos razones, esta hipótesis es fácil de utilizar en aplicaciones prácticas.
Incluso si la muestra proviene de una distribución no gaussiana más compleja, también puede aproximarse bien. Porque se puede simplificar desde el teorema del límite central a la distribución gaussiana. Para una gran cantidad de muestras observables, "la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal".
La segunda razón es que la precisión del modelo depende de la simplicidad y el poder representativo de la unidad del modelo, así como de la calidad de los datos. Porque la simplicidad de la unidad hace que sea fácil de interpretar y escalar, y la potencia representativa + escalamiento de la unidad mejora la precisión del modelo. Al igual que en una red neuronal profunda, cada neurona es muy simple pero tiene un fuerte poder representativo, capa por capa para representar características más complejas para mejorar la precisión del modelo.
^ Clauset, Aaron (2011). "Una breve introducción a las distribuciones de probabilidad" (PDF) . Instituto Santa Fe . Archivado desde el original (PDF) el 20 de enero de 2012 . Consultado el 29 de noviembre de 2011 .
^ Stephanie (11 de mayo de 2016). "Estadísticas IID: definición y ejemplos independientes y distribuidos idénticamente". Estadísticas Cómo . Consultado el 9 de diciembre de 2021 .
^ Hampel, Frank (1998), "¿Son las estadísticas demasiado difíciles?", Canadian Journal of Statistics , 26 (3): 497–513, doi :10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR 3315772, S2CID 53117661(§8).
^ Blum, JR; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "Teoremas del límite central para procesos intercambiables". Revista Canadiense de Matemáticas . 10 : 222–229. doi : 10.4153/CJM-1958-026-0 . S2CID 124843240.