En teoría de la probabilidad , el teorema del límite central ( TLC ) establece que, en condiciones apropiadas, la distribución de una versión normalizada de la media de la muestra converge a una distribución normal estándar . Esto se cumple incluso si las variables originales en sí mismas no se distribuyen normalmente . Existen varias versiones del TLC, cada una de las cuales se aplica en el contexto de diferentes condiciones.
El teorema es un concepto clave en la teoría de la probabilidad porque implica que los métodos probabilísticos y estadísticos que funcionan para distribuciones normales pueden aplicarse a muchos problemas que involucran otros tipos de distribuciones.
Este teorema ha sufrido muchos cambios durante el desarrollo formal de la teoría de la probabilidad. Las versiones anteriores del teorema datan de 1811, pero en su forma moderna no se enunciaron con precisión hasta 1920. [1]
En estadística , el CLT se puede expresar como: sea una muestra estadística de tamaño de una población con valor esperado (promedio) y varianza positiva finita , y sea la media de la muestra (que es en sí misma una variable aleatoria ). Entonces, el límite como de la distribución de es una distribución normal con media y varianza . [2]
En otras palabras, supongamos que se obtiene una muestra grande de observaciones , cada una de las cuales se produce aleatoriamente de una manera que no depende de los valores de las otras observaciones, y que se calcula el promedio ( media aritmética ) de los valores observados. Si este procedimiento se realiza muchas veces, dando como resultado una colección de promedios observados, el teorema del límite central dice que si el tamaño de la muestra fue lo suficientemente grande, la distribución de probabilidad de estos promedios se aproximará mucho a una distribución normal.
El teorema del límite central tiene varias variantes. En su forma común, las variables aleatorias deben ser independientes e idénticamente distribuidas (iid). Este requisito puede debilitarse; la convergencia de la media a la distribución normal también ocurre para distribuciones no idénticas o para observaciones no independientes si cumplen ciertas condiciones.
La primera versión de este teorema, que sostiene que la distribución normal puede utilizarse como una aproximación a la distribución binomial , es el teorema de De Moivre-Laplace .
Sea una secuencia de variables aleatorias iid que tienen una distribución con valor esperado dado por y varianza finita dada por Supongamos que estamos interesados en el promedio de la muestra.
Por la ley de los grandes números , el promedio de la muestra converge casi con seguridad (y por lo tanto también converge en probabilidad ) al valor esperado como
El teorema clásico del límite central describe el tamaño y la forma de distribución de las fluctuaciones estocásticas alrededor del número determinista durante esta convergencia. Más precisamente, establece que a medida que se hace más grande, la distribución de la diferencia entre el promedio de la muestra y su límite cuando se multiplica por el factor —es decir, — se acerca a la distribución normal con media y varianza. Para valores suficientemente grandes, la distribución de se acerca arbitrariamente a la distribución normal con media y varianza.
La utilidad del teorema es que la distribución de tiende a la normalidad independientemente de la forma de la distribución del individuo. Formalmente, el teorema puede enunciarse de la siguiente manera:
Lindeberg–Lévy CLT — Supongamos que es una secuencia de variables aleatorias iid con y Entonces, a medida que se acerca al infinito, las variables aleatorias convergen en distribución a una normal : [4]
En el caso de convergencia en la distribución significa que las funciones de distribución acumuladas de convergen puntualmente a la función de distribución acumulada de la distribución: para cada número real donde es la función de distribución acumulada normal estándar evaluada en La convergencia es uniforme en en el sentido de que donde denota el límite superior mínimo (o supremo ) del conjunto. [5]
En esta variante del teorema del límite central, las variables aleatorias deben ser independientes, pero no necesariamente idénticamente distribuidas. El teorema también requiere que las variables aleatorias tengan momentos de cierto orden y que la tasa de crecimiento de estos momentos esté limitada por la condición de Lyapunov que se indica a continuación.
CLT de Lyapunov [6] — Supongamos que es una secuencia de variables aleatorias independientes, cada una con un valor esperado y una varianza finitos . Definir
Si para algún , se cumple la condición de Lyapunov , entonces una suma de converge en distribución a una variable aleatoria normal estándar, como tiende a infinito:
En la práctica, normalmente es más fácil comprobar el estado de Lyapunov .
Si una secuencia de variables aleatorias satisface la condición de Lyapunov, también satisface la condición de Lindeberg. Sin embargo, la implicación inversa no se cumple.
En el mismo contexto y con la misma notación que arriba, la condición de Lyapunov puede reemplazarse por la siguiente condición más débil (de Lindeberg en 1920).
Supongamos que para cada donde es la función indicadora . Entonces la distribución de las sumas estandarizadas converge hacia la distribución normal estándar .
Las pruebas que utilizan funciones características se pueden extender a casos en los que cada individuo es un vector aleatorio en , con vector de media y matriz de covarianza (entre los componentes del vector), y estos vectores aleatorios son independientes y se distribuyen de forma idéntica. El teorema del límite central multidimensional establece que cuando se escalan, las sumas convergen a una distribución normal multivariada . [7] La suma de estos vectores se realiza componente por componente.
Para que sean vectores aleatorios independientes, la suma de los vectores aleatorios es y su media es Por lo tanto,
El teorema del límite central multivariado establece que cuando la matriz de covarianza es igual a
El teorema del límite central multivariado se puede demostrar utilizando el teorema de Cramér-Wold . [7]
La tasa de convergencia viene dada por el siguiente resultado de tipo Berry-Esseen :
Teorema [8] — Sean vectores aleatorios independientes , cada uno con media cero. Escriba y suponga que es invertible. Sea una gaussiana de dimensión con la misma media y la misma matriz de covarianza que . Entonces, para todos los conjuntos convexos , donde es una constante universal, , y denota la norma euclidiana en .
Se desconoce si el factor es necesario. [9]
El Teorema del Límite Central Generalizado (GCLT) fue un esfuerzo de varios matemáticos ( Berstein , Lindeberg , Lévy , Feller , Kolmogorov y otros) durante el período de 1920 a 1937. [10] La primera prueba completa publicada del GCLT fue en 1937 por Paul Lévy en francés. [11] Una versión en inglés de la prueba completa del GCLT está disponible en la traducción del libro de Gnedenko y Kolmogorov de 1954. [12]
La declaración del GCLT es la siguiente: [13]
En otras palabras, si las sumas de variables aleatorias independientes e idénticamente distribuidas convergen en una distribución hacia algún Z , entonces Z debe ser una distribución estable .
Una generalización útil de una secuencia de variables aleatorias independientes distribuidas de manera idéntica es un proceso aleatorio de mezcla en tiempo discreto; "mezcla" significa, en términos generales, que las variables aleatorias que se encuentran alejadas temporalmente entre sí son casi independientes. En la teoría ergódica y la teoría de la probabilidad se utilizan varios tipos de mezcla. Véase especialmente la mezcla fuerte (también llamada mezcla α) definida por donde es el denominado coeficiente de mezcla fuerte .
Una formulación simplificada del teorema del límite central bajo mezcla fuerte es: [14]
Teorema — Supóngase que es estacionaria y se mezcla con y que y . Denotemos , entonces el límite existe, y si entonces converge en distribución a .
De hecho, donde la serie converge absolutamente.
La suposición no se puede omitir, ya que la normalidad asintótica falla para donde hay otra secuencia estacionaria .
Hay una versión más fuerte del teorema: [15] la suposición se reemplaza con , y la suposición se reemplaza con
La existencia de tales teorías garantiza la conclusión. Para un tratamiento enciclopédico de los teoremas límite en condiciones de mezcla, véase (Bradley 2007).
Teorema : Sea una martingala la que satisfaga
luego converge en distribución a como . [16] [17]
El teorema del límite central tiene una prueba que utiliza funciones características . [18] Es similar a la prueba de la ley (débil) de los grandes números .
Supongamos que son variables aleatorias independientes e idénticamente distribuidas, cada una con media y varianza finita . La suma tiene media y varianza . Considere la variable aleatoria donde en el último paso definimos las nuevas variables aleatorias , cada una con media cero y varianza unitaria ( ). La función característica de está dada por donde en el último paso usamos el hecho de que todas las están idénticamente distribuidas. La función característica de es, por el teorema de Taylor , donde es " notación o minúscula " para alguna función de que tiende a cero más rápidamente que . Por el límite de la función exponencial ( ), la función característica de es igual a
Todos los términos de orden superior se anulan en el límite . El lado derecho es igual a la función característica de una distribución normal estándar , lo que implica a través del teorema de continuidad de Lévy que la distribución de se aproximará a . Por lo tanto, el promedio de la muestra es tal que converge a la distribución normal , de la cual se desprende el teorema del límite central.
El teorema del límite central sólo proporciona una distribución asintótica . Como aproximación para un número finito de observaciones, proporciona una aproximación razonable sólo cuando está cerca del pico de la distribución normal; requiere una cantidad muy grande de observaciones para llegar a las colas. [ cita requerida ]
La convergencia en el teorema del límite central es uniforme porque la función de distribución acumulativa limitante es continua. Si el tercer momento central existe y es finito, entonces la velocidad de convergencia es al menos del orden de (véase el teorema de Berry-Esseen ). El método de Stein [19] puede utilizarse no solo para demostrar el teorema del límite central, sino también para proporcionar límites a las tasas de convergencia para métricas seleccionadas. [20]
La convergencia a la distribución normal es monótona, en el sentido de que la entropía aumenta monótonamente hasta la de la distribución normal. [21]
El teorema del límite central se aplica en particular a las sumas de variables aleatorias discretas independientes e idénticamente distribuidas . Una suma de variables aleatorias discretas sigue siendo una variable aleatoria discreta , de modo que nos enfrentamos a una secuencia de variables aleatorias discretas cuya función de distribución de probabilidad acumulada converge hacia una función de distribución de probabilidad acumulada correspondiente a una variable continua (es decir, la de la distribución normal ). Esto significa que si construimos un histograma de las realizaciones de la suma de n variables discretas independientes idénticas, la curva lineal por partes que une los centros de las caras superiores de los rectángulos que forman el histograma converge hacia una curva gaussiana cuando n tiende al infinito; esta relación se conoce como teorema de De Moivre-Laplace . El artículo sobre la distribución binomial detalla dicha aplicación del teorema del límite central en el caso simple de una variable discreta que toma solo dos valores posibles.
Los estudios han demostrado que el teorema del límite central está sujeto a varios conceptos erróneos comunes pero graves, algunos de los cuales aparecen en libros de texto ampliamente utilizados. [22] [23] [24] Estos incluyen:
La ley de los grandes números , así como el teorema del límite central, son soluciones parciales a un problema general: "¿Cuál es el comportamiento límite de S n cuando n tiende al infinito?" En el análisis matemático, las series asintóticas son una de las herramientas más populares que se emplean para abordar estas cuestiones.
Supongamos que tenemos una expansión asintótica de :
Dividiendo ambas partes por φ 1 ( n ) y tomando el límite se obtendrá un 1 , el coeficiente del término de mayor orden en la expansión, que representa la tasa a la que f ( n ) cambia en su término principal.
De manera informal, se puede decir: " f ( n ) crece aproximadamente como 1 φ 1 ( n ) " . Tomando la diferencia entre f ( n ) y su aproximación y luego dividiendo por el siguiente término en la expansión, llegamos a una afirmación más refinada sobre f ( n ) :
Aquí se puede decir que la diferencia entre la función y su aproximación crece aproximadamente como 2 φ 2 ( n ) . La idea es que dividir la función por funciones normalizadoras apropiadas y observar el comportamiento límite del resultado puede decirnos mucho sobre el comportamiento límite de la función original en sí.
De manera informal, algo similar sucede cuando se estudia la suma, S n , de variables aleatorias independientes distribuidas de manera idéntica, X 1 , ..., X n , en la teoría de probabilidad clásica. [ cita requerida ] Si cada X i tiene una media finita μ , entonces, por la ley de los grandes números, S n/norte → μ . [26] Si además cada X i tiene varianza finita σ 2 , entonces por el teorema del límite central, donde ξ se distribuye como N (0, σ 2 ) . Esto proporciona valores de las dos primeras constantes en la expansión informal
En el caso en que las X i no tengan media o varianza finita, la convergencia de la suma desplazada y reescalada también puede ocurrir con diferentes factores de centrado y escala: o informalmente
Las distribuciones Ξ que pueden surgir de esta manera se denominan estables . [27] Claramente, la distribución normal es estable, pero también hay otras distribuciones estables, como la distribución de Cauchy , para las que la media o la varianza no están definidas. El factor de escala b n puede ser proporcional a n c , para cualquier c ≥ 1/2 ; también puede multiplicarse por una función de n que varía lentamente . [28] [29]
La ley del logaritmo iterado especifica lo que sucede "entre" la ley de los grandes números y el teorema del límite central. En concreto, dice que la función normalizadora √ n log log n , de tamaño intermedio entre n de la ley de los grandes números y √ n del teorema del límite central, proporciona un comportamiento limitante no trivial.
La densidad de la suma de dos o más variables independientes es la convolución de sus densidades (si estas densidades existen). Por lo tanto, el teorema del límite central puede interpretarse como una afirmación sobre las propiedades de las funciones de densidad bajo convolución: la convolución de un número de funciones de densidad tiende a la densidad normal a medida que el número de funciones de densidad aumenta sin límite. Estos teoremas requieren hipótesis más sólidas que las formas del teorema del límite central dadas anteriormente. Los teoremas de este tipo a menudo se denominan teoremas del límite local. Véase Petrov [30] para un teorema del límite local particular para sumas de variables aleatorias independientes e idénticamente distribuidas .
Dado que la función característica de una convolución es el producto de las funciones características de las densidades involucradas, el teorema del límite central tiene otra reformulación: el producto de las funciones características de varias funciones de densidad se acerca a la función característica de la densidad normal a medida que la cantidad de funciones de densidad aumenta sin límite, en las condiciones establecidas anteriormente. En concreto, se debe aplicar un factor de escala adecuado al argumento de la función característica.
Se puede hacer una afirmación equivalente acerca de las transformadas de Fourier , ya que la función característica es esencialmente una transformada de Fourier.
Sea S n la suma de n variables aleatorias. Muchos teoremas del límite central proporcionan condiciones tales que S n / √ Var( S n ) converge en distribución a N (0,1) (la distribución normal con media 0, varianza 1) cuando n → ∞ . En algunos casos, es posible encontrar una constante σ 2 y una función f(n) tales que S n /(σ √ n⋅f ( n ) ) converge en distribución a N (0,1) cuando n → ∞ .
Lema [31] — Supongamos que es una secuencia de variables aleatorias de valor real y estrictamente estacionarias con para todos , , y . Construir
El logaritmo de un producto es simplemente la suma de los logaritmos de los factores. Por lo tanto, cuando el logaritmo de un producto de variables aleatorias que toman solo valores positivos se acerca a una distribución normal, el producto en sí se acerca a una distribución log-normal . Muchas magnitudes físicas (especialmente la masa o la longitud, que son una cuestión de escala y no pueden ser negativas) son productos de diferentes factores aleatorios , por lo que siguen una distribución log-normal. Esta versión multiplicativa del teorema del límite central a veces se denomina ley de Gibrat .
Mientras que el teorema del límite central para sumas de variables aleatorias requiere la condición de varianza finita, el teorema correspondiente para productos requiere la condición correspondiente de que la función de densidad sea integrable al cuadrado. [32]
La normalidad asintótica, es decir, la convergencia a la distribución normal después de un cambio de escala y un cambio de escala adecuados, es un fenómeno mucho más general que el marco clásico tratado anteriormente, es decir, las sumas de variables aleatorias independientes (o vectores). De vez en cuando se revelan nuevos marcos, pero por ahora no hay un marco unificador único.
Teorema — Existe una secuencia ε n ↓ 0 para la cual se cumple lo siguiente. Sea n ≥ 1 y sean las variables aleatorias X 1 , ..., X n con una densidad conjunta log-cóncava f tal que f ( x 1 , ..., x n ) = f (| x 1 |, ..., | x n |) para todos los x 1 , ..., x n y E( X 2k
) = 1 para todos los k = 1, ..., n . Entonces la distribución de
es ε n -cercana a en la distancia de variación total . [33]
Estas dos distribuciones ε n -cercanas tienen densidades (de hecho, densidades log-cóncavas), por lo que la distancia de varianza total entre ellas es la integral del valor absoluto de la diferencia entre las densidades. La convergencia en la variación total es más fuerte que la convergencia débil.
Un ejemplo importante de una densidad logarítmica-cóncava es una función que es constante dentro de un cuerpo convexo dado y que se desvanece fuera de él; corresponde a la distribución uniforme en el cuerpo convexo, lo que explica el término "teorema del límite central para cuerpos convexos".
Otro ejemplo: f ( x 1 , ..., x n ) = const · exp(−(| x 1 | α + ⋯ + | x n | α ) β ) donde α > 1 y αβ > 1 . Si β = 1 entonces f ( x 1 , ..., x n ) se factoriza en const · exp (−| x 1 | α ) … exp(−| x n | α ), lo que significa que X 1 , ..., X n son independientes. En general, sin embargo, son dependientes.
La condición f ( x 1 , ..., x n ) = f (| x 1 |, ..., | x n |) asegura que X 1 , ..., X n son de media cero y no están correlacionados ; [ cita requerida ] aún así, no necesitan ser independientes, ni siquiera independientes por pares . [ cita requerida ] Por cierto, la independencia por pares no puede reemplazar a la independencia en el teorema del límite central clásico. [34]
Aquí tenemos un resultado tipo Berry–Esseen .
Teorema — Sea X 1 , ..., X n satisfacen los supuestos del teorema anterior, entonces [35]
para todo a < b ; aquí C es una constante universal (absoluta) . Además, para cada c 1 , ..., c n ∈ R tal que c2
1+ ⋯ + c2
n= 1 ,
La distribución de X 1 + ⋯ + X n/√n no necesita ser aproximadamente normal (de hecho, puede ser uniforme). [36] Sin embargo, la distribución de c 1 X 1 + ⋯ + c n X n es cercana a(en la distancia de variación total) para la mayoría de los vectores ( c 1 , ..., c n ) de acuerdo con la distribución uniforme en la esfera c2
1+ ⋯ + c2
n= 1 .
Teorema ( Salem – Zygmund ) — Sea U una variable aleatoria distribuida uniformemente en (0,2π) , y X k = r k cos( n k U + a k ) , donde
Entonces [37] [38] converge en distribución a .
Teorema — Sean A 1 , ..., A n puntos aleatorios independientes en el plano R 2, cada uno con una distribución normal estándar bidimensional. Sea K n la envoltura convexa de estos puntos y X n el área de K n. Entonces [39] converge en distribución a cuando n tiende a infinito.
Lo mismo ocurre en todas las dimensiones mayores que 2.
El politopo K n se llama politopo aleatorio gaussiano.
Un resultado similar se aplica al número de vértices (del politopo gaussiano), al número de aristas y, de hecho, a las caras de todas las dimensiones. [40]
Una función lineal de una matriz M es una combinación lineal de sus elementos (con coeficientes dados), M ↦ tr( AM ) donde A es la matriz de los coeficientes; ver Trace (álgebra lineal)#Producto interno .
Se dice que una matriz ortogonal aleatoria está distribuida uniformemente si su distribución es la medida de Haar normalizada en el grupo ortogonal O( n , R ) ; ver Matriz de rotación#Matrices de rotación aleatorias uniformes .
Teorema — Sea M una matriz aleatoria ortogonal n × n distribuida uniformemente, y A una matriz fija n × n tal que tr( AA *) = n , y sea X = tr( AM ) . Entonces [41] la distribución de X es cercana a en la métrica de variación total hasta [ aclaración necesaria ] 2 √ 3/n - 1 .
Teorema — Sean las variables aleatorias X 1 , X 2 , ... ∈ L 2 (Ω) tales que X n → 0 débilmente en L 2 (Ω) y X
norte→ 1 débilmente en L 1 (Ω) . Entonces existen enteros n 1 < n 2 < ⋯ tales que
convergen en distribución a cuando k tiende a infinito. [42]
El teorema del límite central se puede establecer para el recorrido aleatorio simple en una red cristalina (un gráfico de recubrimiento abeliano de pliegue infinito sobre un gráfico finito) y se utiliza para el diseño de estructuras cristalinas. [43] [44]
Un ejemplo sencillo del teorema del límite central es el lanzamiento de muchos dados idénticos e imparciales. La distribución de la suma (o promedio) de los números lanzados se aproximará bien mediante una distribución normal. Dado que las cantidades del mundo real suelen ser la suma equilibrada de muchos eventos aleatorios no observados, el teorema del límite central también proporciona una explicación parcial de la prevalencia de la distribución de probabilidad normal. También justifica la aproximación de las estadísticas de muestras grandes a la distribución normal en experimentos controlados.
El análisis de regresión , y en particular los mínimos cuadrados ordinarios , especifica que una variable dependiente depende, según alguna función, de una o más variables independientes , con un término de error aditivo . Varios tipos de inferencia estadística sobre la regresión suponen que el término de error se distribuye normalmente. Esta suposición se puede justificar suponiendo que el término de error es en realidad la suma de muchos términos de error independientes; incluso si los términos de error individuales no se distribuyen normalmente, por el teorema del límite central su suma se puede aproximar bien mediante una distribución normal.
Dada su importancia para la estadística, existen varios artículos y paquetes informáticos que demuestran la convergencia involucrada en el teorema del límite central. [45]
El matemático holandés Henk Tijms escribe: [46]
El teorema del límite central tiene una historia interesante. La primera versión de este teorema fue postulada por el matemático francés Abraham de Moivre , quien, en un notable artículo publicado en 1733, utilizó la distribución normal para aproximar la distribución del número de caras resultantes de muchos lanzamientos de una moneda normal. Este hallazgo se adelantó mucho a su tiempo y estuvo casi olvidado hasta que el famoso matemático francés Pierre-Simon Laplace lo rescató de la oscuridad en su monumental obra Théorie analytique des probabilités , que se publicó en 1812. Laplace amplió el hallazgo de De Moivre al aproximar la distribución binomial con la distribución normal. Pero, al igual que en el caso de De Moivre, el hallazgo de Laplace recibió poca atención en su propia época. La importancia del teorema central del límite no se percibió hasta finales del siglo XIX, cuando en 1901 el matemático ruso Aleksandr Lyapunov lo definió en términos generales y demostró con precisión cómo funcionaba matemáticamente. Hoy en día, el teorema central del límite se considera el soberano no oficial de la teoría de la probabilidad.
Sir Francis Galton describió el Teorema del Límite Central de esta manera: [47]
No conozco nada que pueda impresionar tanto a la imaginación como la maravillosa forma de orden cósmico expresada por la "Ley de la Frecuencia del Error". Los griegos habrían personificado y deificado la ley si la hubieran conocido. Reina con serenidad y en total anonimato, en medio de la más salvaje confusión. Cuanto más grande es la multitud y mayor la aparente anarquía, más perfecto es su dominio. Es la ley suprema de la Irracionalidad. Siempre que se toma en la mano una gran muestra de elementos caóticos y se los ordena por orden de magnitud, se demuestra que una insospechada y bellísima forma de regularidad ha estado latente todo el tiempo.
El término "teorema del límite central" (en alemán: "zentraler Grenzwertsatz") fue utilizado por primera vez por George Pólya en 1920 en el título de un artículo. [48] [49] Pólya se refirió al teorema como "central" debido a su importancia en la teoría de la probabilidad. Según Le Cam, la escuela francesa de probabilidad interpreta la palabra central en el sentido de que "describe el comportamiento del centro de la distribución en oposición a sus colas". [49] El resumen del artículo Sobre el teorema del límite central del cálculo de probabilidad y el problema de los momentos de Pólya [48] en 1920 se traduce de la siguiente manera.
La aparición de la densidad de probabilidad gaussiana 1 = e − x 2 en experimentos repetidos, en errores de medición que resultan de la combinación de muchos y muy pequeños errores elementales, en procesos de difusión, etc., se puede explicar, como es bien sabido, por el mismo teorema del límite, que desempeña un papel central en el cálculo de probabilidades. El verdadero descubridor de este teorema del límite se llama Laplace; es probable que su demostración rigurosa la haya dado por primera vez Tschebyscheff y su formulación más precisa se puede encontrar, hasta donde yo sé, en un artículo de Liapounoff . ...
Hald ofrece un relato exhaustivo de la historia del teorema, detallando el trabajo fundacional de Laplace, así como las contribuciones de Cauchy , Bessel y Poisson . [50] Hans Fischer ofrece dos relatos históricos, uno que cubre el desarrollo desde Laplace hasta Cauchy, el segundo las contribuciones de von Mises , Pólya , Lindeberg , Lévy y Cramér durante la década de 1920. [51] Le Cam describe un período alrededor de 1935. [49] Bernstein [52] presenta una discusión histórica centrada en el trabajo de Pafnuty Chebyshev y sus estudiantes Andrey Markov y Aleksandr Lyapunov que condujeron a las primeras demostraciones del CLT en un contexto general.
Una nota curiosa a pie de página sobre la historia del Teorema del Límite Central es que una prueba de un resultado similar al Teorema del Límite Central de Lindeberg de 1922 fue el tema de la disertación de beca de Alan Turing de 1934 para el King's College de la Universidad de Cambridge . Sólo después de presentar el trabajo Turing se enteró de que ya había sido demostrada. En consecuencia, la disertación de Turing no se publicó. [53]