Las estadísticas suelen trabajar con muestras aleatorias. Una muestra aleatoria puede considerarse como un conjunto de objetos elegidos al azar. Más formalmente, es "una secuencia de puntos de datos aleatorios independientes e idénticamente distribuidos (IID) ".
En otras palabras, los términos muestra aleatoria e IID son sinónimos. En estadística, la terminología típica es " muestra aleatoria ", pero en probabilidad es más común decir " IID ".
Distribuido de manera idéntica significa que no hay tendencias generales: la distribución no fluctúa y todos los elementos de la muestra se toman de la misma distribución de probabilidad .
Independiente significa que todos los elementos de la muestra son eventos independientes. En otras palabras, no están conectados entre sí de ninguna manera; [2] el conocimiento del valor de una variable no brinda información sobre el valor de la otra y viceversa.
Solicitud
Las variables aleatorias independientes e idénticamente distribuidas se utilizan a menudo como hipótesis, lo que tiende a simplificar las matemáticas subyacentes. Sin embargo, en aplicaciones prácticas de modelado estadístico , esta hipótesis puede ser realista o no. [3]
El supuesto iid también se utiliza en el teorema del límite central , que establece que la distribución de probabilidad de la suma (o promedio) de variables iid con varianza finita se aproxima a una distribución normal . [4]
El supuesto iid surge con frecuencia en el contexto de secuencias de variables aleatorias. Entonces, "independiente e idénticamente distribuido" implica que un elemento en la secuencia es independiente de las variables aleatorias que lo anteceden. De esta manera, una secuencia iid es diferente de una secuencia de Markov , donde la distribución de probabilidad para la n ésima variable aleatoria es una función de la variable aleatoria anterior en la secuencia (para una secuencia de Markov de primer orden). Una secuencia iid no implica que las probabilidades para todos los elementos del espacio muestral o del espacio de eventos deban ser las mismas. [5] Por ejemplo, lanzamientos repetidos de dados cargados producirán una secuencia que es iid, a pesar de que los resultados estén sesgados.
id . – El nivel de la señal debe estar equilibrado en el eje del tiempo.
i . – El espectro de la señal debe ser aplanado, es decir, transformado mediante filtrado (como la deconvolución ) en una señal de ruido blanco (es decir, una señal donde todas las frecuencias están igualmente presentes).
donde denota la función de distribución acumulativa conjunta de .
Definición de independencia
En teoría de probabilidad, dos eventos, y , se denominan independientes si y solo si . En lo sucesivo, es la abreviatura de .
Supongamos que hay dos eventos del experimento y . Si , existe una posibilidad . Generalmente, la ocurrencia de tiene un efecto sobre la probabilidad de ; esto se llama probabilidad condicional. Además, solo cuando la ocurrencia de no tiene efecto sobre la ocurrencia de , existe .
Nota: Si y , entonces y son mutuamente independientes, lo que no puede establecerse con mutuamente incompatibles al mismo tiempo; es decir, la independencia debe ser compatible y la exclusión mutua debe estar relacionada.
Supóngase que , , y son tres eventos. Si , , , y se cumplen, entonces los eventos , , y son mutuamente independientes.
Una definición más general es que hay eventos, . Si las probabilidades de los eventos producto de cualquier evento son iguales al producto de las probabilidades de cada evento, entonces los eventos son independientes entre sí.
Ejemplos
Ejemplo 1
Una secuencia de resultados de giros de una ruleta justa o injusta es iid . Una implicación de esto es que si la bola de la ruleta cae en "rojo", por ejemplo, 20 veces seguidas, el siguiente giro no tiene más o menos probabilidades de caer en "negro" que cualquier otro giro (ver la falacia del jugador ).
Ejemplo 2
Lanza una moneda 10 veces y registra cuántas veces cae cara.
Independiente : cada resultado del aterrizaje no afectará al otro resultado, lo que significa que los 10 resultados son independientes entre sí.
Distribuida de manera idéntica : independientemente de si la moneda es justa (probabilidad 1/2 de cara) o injusta, siempre que se use la misma moneda para cada lanzamiento, cada lanzamiento tendrá la misma probabilidad que los demás.
Esta secuencia de dos posibles resultados iid también se denomina proceso de Bernoulli .
Ejemplo 3
Lanza un dado 10 veces y registra cuántas veces el resultado es 1.
Independiente – Cada resultado de la tirada del dado no afectará al siguiente, lo que significa que los 10 resultados son independientes entre sí.
Distribuciones idénticas : independientemente de si el dado es justo o ponderado, cada lanzamiento tendrá la misma probabilidad que cualquier otro lanzamiento. Por el contrario, lanzar 10 dados diferentes, algunos de los cuales están ponderados y otros no, no produciría variables iid.
Ejemplo 4
Elige una carta de una baraja estándar de 52 cartas y vuelve a colocarla en la baraja. Repite esto 52 veces. Anota la cantidad de reyes que aparecen.
Independiente : cada resultado de una carta no afectará al siguiente, lo que significa que los 52 resultados son independientes entre sí. Por el contrario, si cada carta que se extrae se mantiene fuera del mazo, los sorteos posteriores se verían afectados por ella (si se extrae un rey, sería menos probable que se extraiga un segundo rey) y el resultado no sería independiente.
Distribuida de manera idéntica : después de sacar una carta, cada vez la probabilidad de que salga un rey es 4/52, lo que significa que la probabilidad es idéntica cada vez.
Generalizaciones
Se ha demostrado que muchos resultados que se probaron inicialmente bajo el supuesto de que las variables aleatorias son iid son verdaderos incluso bajo un supuesto de distribución más débil.
Se puede generalizar esto para incluir procesos de Lévy en tiempo continuo , y muchos procesos de Lévy pueden verse como límites de variables iid; por ejemplo, el proceso de Wiener es el límite del proceso de Bernoulli.
En el aprendizaje automático
El aprendizaje automático utiliza las grandes cantidades de datos disponibles actualmente para ofrecer resultados más rápidos y precisos. [7] Para entrenar modelos de aprendizaje automático de manera eficaz, es fundamental utilizar datos históricos que se puedan generalizar ampliamente. Si los datos de entrenamiento no son representativos de la situación general, el rendimiento del modelo con datos nuevos e inéditos puede ser inexacto.
La hipótesis iid , o independiente e idénticamente distribuida, permite una reducción significativa en el número de casos individuales requeridos en la muestra de entrenamiento.
Este supuesto simplifica los cálculos matemáticos de maximización. En los problemas de optimización, el supuesto de distribución independiente e idéntica simplifica el cálculo de la función de verosimilitud. Debido al supuesto de independencia, la función de verosimilitud se puede expresar como:
.
Para maximizar la probabilidad del evento observado, se aplica la función logarítmica para maximizar el parámetro . En concreto, calcula:
,
dónde
.
Las computadoras son muy eficientes a la hora de realizar sumas múltiples, pero no tanto a la hora de realizar multiplicaciones. Esta simplificación mejora la eficiencia computacional. La transformación logarítmica, en el proceso de maximización, convierte muchas funciones exponenciales en funciones lineales.
Hay dos razones principales por las que esta hipótesis es prácticamente útil con el teorema del límite central:
Incluso si la muestra proviene de una distribución no gaussiana compleja, se puede aproximar bien porque el teorema del límite central permite simplificarla a una distribución gaussiana. Para una gran cantidad de muestras observables, "la suma de muchas variables aleatorias tendrá una distribución aproximadamente normal".
La segunda razón es que la precisión del modelo depende de la simplicidad y el poder de representación de la unidad del modelo, así como de la calidad de los datos. La simplicidad de la unidad facilita su interpretación y escalabilidad, mientras que el poder de representación y la escalabilidad mejoran la precisión del modelo. En una red neuronal profunda, por ejemplo, cada neurona es simple pero poderosa en la representación, capa por capa, capturando características más complejas para mejorar la precisión del modelo.
^ Clauset, Aaron (2011). "Una breve introducción a las distribuciones de probabilidad" (PDF) . Santa Fe Institute . Archivado desde el original (PDF) el 20 de enero de 2012. Consultado el 29 de noviembre de 2011 .
^ Stephanie (11 de mayo de 2016). "Estadísticas IID: definición y ejemplos de distribución independiente e idéntica". Cómo hacer estadísticas . Consultado el 9 de diciembre de 2021 .
^ Hampel, Frank (1998), "¿Es la estadística demasiado difícil?", Revista Canadiense de Estadística , 26 (3): 497–513, doi :10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR 3315772, S2CID 53117661(§8).
^ Blum, JR; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "Teoremas del límite central para procesos intercambiables". Revista canadiense de matemáticas . 10 : 222–229. doi : 10.4153/CJM-1958-026-0 . S2CID 124843240.