Intuitivamente, una secuencia aleatoria algorítmica (o secuencia aleatoria ) es una secuencia de dígitos binarios que parece aleatoria para cualquier algoritmo que se ejecute en una máquina de Turing universal (sin prefijo o no) . La noción se puede aplicar de forma análoga a las secuencias de cualquier alfabeto finito (por ejemplo, dígitos decimales). Las secuencias aleatorias son objetos clave de estudio en la teoría de la información algorítmica .
En la teoría de la probabilidad basada en la medida , introducida por Andrey Kolmogorov en 1933, no existe una secuencia aleatoria. Por ejemplo, considere lanzar una moneda al aire infinitas veces. Cualquier secuencia particular, ya sea o , tiene una probabilidad igual a exactamente cero. No hay forma de afirmar que una secuencia es "más aleatoria" que otra secuencia, utilizando el lenguaje de la probabilidad basada en la medida. Sin embargo, es intuitivamente obvio que parece más aleatorio que . La teoría de la aleatoriedad algorítmica formaliza esta intuición.
Como a veces se consideran diferentes tipos de algoritmos, que van desde algoritmos con límites específicos en su tiempo de ejecución hasta algoritmos que pueden hacer preguntas a una máquina oráculo , existen diferentes nociones de aleatoriedad. La más común de ellas se conoce como aleatoriedad de Martin-Löf ( aleatoriedad K o aleatoriedad 1 ), pero también existen formas más fuertes y más débiles de aleatoriedad. Cuando se utiliza el término "algorítmicamente aleatorio" para referirse a una secuencia única particular (finita o infinita) sin aclaración, generalmente se toma como "incompresible" o, en el caso de que la secuencia sea infinita y se anteponga algorítmicamente aleatorio (es decir, K-incompresible), "aleatorio de Martin-Löf–Chaitin".
Desde su creación, se ha demostrado que la aleatoriedad de Martin-Löf admite muchas caracterizaciones equivalentes (en términos de compresión , pruebas de aleatoriedad y apuestas ) que tienen poco parecido exterior con la definición original, pero que satisfacen nuestra noción intuitiva de las propiedades que deben tener las secuencias aleatorias: las secuencias aleatorias deben ser incompresibles, deben pasar pruebas estadísticas de aleatoriedad y debe ser difícil ganar dinero apostando por ellas. La existencia de estas múltiples definiciones de aleatoriedad de Martin-Löf y la estabilidad de estas definiciones bajo diferentes modelos de computación dan evidencia de que la aleatoriedad de Martin-Löf es una propiedad fundamental de las matemáticas y no un accidente del modelo particular de Martin-Löf.
Es importante distinguir entre aleatoriedad algorítmica y aleatoriedad estocástica. A diferencia de la aleatoriedad algorítmica, que se define para procesos computables (y por lo tanto deterministas), se suele decir que la aleatoriedad estocástica es una propiedad de una secuencia que se sabe a priori que es generada por (o es el resultado de) un proceso estocástico equiprobable independiente distribuido de manera idéntica .
Dado que las secuencias infinitas de dígitos binarios se pueden identificar con números reales en el intervalo unitario, las secuencias binarias aleatorias suelen denominarse (algorítmicamente) números reales aleatorios . Además, las secuencias binarias infinitas corresponden a funciones características de conjuntos de números naturales; por lo tanto, esas secuencias podrían considerarse conjuntos de números naturales.
La clase de todas las secuencias aleatorias (binarias) de Martin-Löf se denota por RAND o MLR.
Richard von Mises formalizó la noción de una prueba de aleatoriedad para definir una secuencia aleatoria como aquella que pasa todas las pruebas de aleatoriedad. Definió un "colectivo" ( kollektiv ) como una cadena binaria infinita definida de tal manera que
Para seleccionar una subsecuencia, primero se elige una función binaria que, dada cualquier cadena binaria , dé como resultado 0 o 1. Si da como resultado 1, entonces sumamos a la subsecuencia; de lo contrario, continuamos. En esta definición, algunas reglas admisibles podrían abstenerse para siempre en algunas secuencias y, por lo tanto, no lograr seleccionar una subsecuencia infinita. Solo consideramos aquellas que sí eligen una subsecuencia infinita.
Dicho de otra manera, cada cadena binaria infinita es un juego de lanzamiento de moneda, y una regla admisible es una forma en la que el jugador decide cuándo hacer apuestas. Un juego colectivo es un juego de lanzamiento de moneda en el que no hay forma de que un jugador obtenga mejores resultados que otro a largo plazo. Es decir, no existe un sistema de apuestas que funcione para el juego.
La definición se generaliza del alfabeto binario al alfabeto contable:
Por lo general, las reglas admisibles se definen como reglas computables por una máquina de Turing, y requerimos . Con esto, tenemos las secuencias aleatorias de Mises–Wald–Church . Esto no es una restricción, ya que dada una secuencia con , podemos construir secuencias aleatorias con cualquier otro computable . [1] Aquí, "Church" se refiere a Alonzo Church , cuyo artículo de 1940 propuso usar reglas computables por Turing. [2]
Teorema. ( Abraham Wald , 1936, 1937) [3] Si sólo hay un número contable de reglas admisibles, entonces casi cualquier secuencia es un colectivo.
Bosquejo de prueba: utilice la probabilidad teórica de la medida.
Corrija una regla admisible. Tome una muestra de una secuencia aleatoria del espacio de Bernoulli. Con probabilidad 1 (use martingalas), la subsecuencia elegida por la regla admisible aún tiene . Ahora sume todas las reglas contables. Con probabilidad 1, cada subsecuencia elegida por cada regla aún tiene .
Contraejemplo. (Jean Ville, 1939) [4] Si sólo hay un número contable de reglas admisibles, entonces existe un colectivo con para todos los .
Prueba: Véase. [5]
Intuitivamente, el promedio a largo plazo de una secuencia aleatoria debería oscilar en ambos lados de , de la misma manera que un paseo aleatorio debería cruzar el origen infinitas veces. El contraejemplo sugiere que la definición de von Mises no es lo suficientemente sólida.
El contraejemplo de Ville sugiere que el sentido de aleatoriedad de Mises-Wald-Church no es lo suficientemente bueno, porque algunas secuencias aleatorias no satisfacen algunas leyes de aleatoriedad. Por ejemplo, el contraejemplo de Ville no satisface una de las leyes del logaritmo iterado : Ingenuamente, uno puede solucionar esto exigiendo que una secuencia satisfaga todas las leyes de aleatoriedad posibles, donde una "ley de aleatoriedad" es una propiedad que satisfacen todas las secuencias con probabilidad 1. Sin embargo, para cada secuencia infinita , tenemos una ley de aleatoriedad que , lo que lleva a la conclusión de que no hay secuencias aleatorias.
( Per Martin-Löf , 1966) [6] definió la "aleatoriedad de Martin-Löf" al permitir únicamente leyes de aleatoriedad que sean computables mediante el método de Turing. En otras palabras, una secuencia es aleatoria si pasa todas las pruebas de aleatoriedad computables mediante el método de Turing.
La tesis de que la definición de aleatoriedad de Martin-Löf captura "correctamente" la noción intuitiva de aleatoriedad se ha llamado tesis de Martin-Löf-Chaitin ; es algo similar a la tesis de Church-Turing . [7]
Tesis de Martin-Löf–Chaitin. El concepto matemático de “aleatoriedad de Martin-Löf” captura la noción intuitiva de que una secuencia infinita es “aleatoria”. Tesis de Church–Turing. El concepto matemático de “computable mediante máquinas de Turing” captura la noción intuitiva de que una función es “computable”.
Así como la computabilidad de Turing tiene muchas definiciones equivalentes, la aleatoriedad de Martin-Löf también tiene muchas definiciones equivalentes. Véase la siguiente sección.
La definición original de Martin-Löf de una secuencia aleatoria se daba en términos de coberturas nulas constructivas; definió una secuencia como aleatoria si no está contenida en ninguna de esas coberturas. Gregory Chaitin , Leonid Levin y Claus-Peter Schnorr demostraron una caracterización en términos de complejidad algorítmica : una secuencia es aleatoria si existe un límite uniforme en la compresibilidad de sus segmentos iniciales. Schnorr dio una tercera definición equivalente en términos de martingalas . El libro de Li y Vitanyi Introducción a la complejidad de Kolmogorov y sus aplicaciones es la introducción estándar a estas ideas.
La caracterización de la complejidad de Kolmogorov transmite la intuición de que una secuencia aleatoria es incompresible: ningún prefijo puede ser producido por un programa mucho más corto que el prefijo.
La caracterización de cobertura nula transmite la intuición de que un número real aleatorio no debería tener ninguna propiedad que sea "poco común". Cada conjunto de medida 0 puede considerarse como una propiedad poco común. No es posible que una secuencia no se encuentre en ningún conjunto de medida 0, porque cada conjunto de un punto tiene medida 0. La idea de Martin-Löf era limitar la definición a conjuntos de medida 0 que sean efectivamente descriptibles; la definición de una cobertura nula efectiva determina una colección contable de conjuntos de medida 0 efectivamente descriptibles y define una secuencia como aleatoria si no se encuentra en ninguno de estos conjuntos de medida 0 particulares. Dado que la unión de una colección contable de conjuntos de medida 0 tiene medida 0, esta definición conduce inmediatamente al teorema de que existe un conjunto de medida 1 de secuencias aleatorias. Nótese que si identificamos el espacio de Cantor de secuencias binarias con el intervalo [0,1] de números reales, la medida en el espacio de Cantor concuerda con la medida de Lebesgue .
Un conjunto de medida efectiva 0 puede interpretarse como una máquina de Turing que es capaz de decir, dada una cadena binaria infinita, si la cadena parece aleatoria en niveles de significancia estadística. El conjunto es la intersección de conjuntos que se reducen y, dado que cada conjunto se especifica mediante una secuencia enumerable de prefijos, dada cualquier cadena binaria infinita, si está en , entonces la máquina de Turing puede decidir en tiempo finito que la cadena cae dentro de . Por lo tanto, puede "rechazar la hipótesis de que la cadena es aleatoria en el nivel de significancia ". Si la máquina de Turing puede rechazar la hipótesis en todos los niveles de significancia, entonces la cadena no es aleatoria. Una cadena aleatoria es una que, para cada prueba de aleatoriedad computable por Turing, logra permanecer para siempre sin rechazar en algún nivel de significancia. [8]
La caracterización de martingala transmite la intuición de que ningún procedimiento efectivo debería ser capaz de ganar dinero apostando contra una secuencia aleatoria. Una martingala d es una estrategia de apuestas. d lee una cadena finita w y apuesta dinero en el siguiente bit. Apuesta una fracción de su dinero a que el siguiente bit será 0, y luego el resto de su dinero a que el siguiente bit será 1. d duplica el dinero que puso en el bit que realmente ocurrió, y pierde el resto. d ( w ) es la cantidad de dinero que tiene después de ver la cadena w . Dado que la apuesta realizada después de ver la cadena w se puede calcular a partir de los valores d ( w ), d ( w 0) y d ( w 1), calcular la cantidad de dinero que tiene es equivalente a calcular la apuesta. La caracterización de martingala dice que ninguna estrategia de apuestas implementable por cualquier computadora (incluso en el sentido débil de estrategias constructivas, que no son necesariamente computables ) puede ganar dinero apostando en una secuencia aleatoria.
Existe una martingala constructiva universal d . Esta martingala es universal en el sentido de que, dada cualquier martingala constructiva d , si d tiene éxito en una secuencia, entonces d tiene éxito también en esa secuencia. Por lo tanto, d tiene éxito en cada secuencia en RAND c (pero, como d es constructiva, no tiene éxito en ninguna secuencia en RAND). (Schnorr 1971)
Existe una cobertura nula constructiva de RAND c . Esto significa que todas las pruebas efectivas de aleatoriedad (es decir, las coberturas nulas constructivas) están, en cierto sentido, subsumidas por esta prueba universal de aleatoriedad, ya que cualquier secuencia que pase esta única prueba de aleatoriedad pasará todas las pruebas de aleatoriedad. (Martin-Löf 1966) Intuitivamente, esta prueba universal de aleatoriedad dice "Si la secuencia tiene prefijos cada vez más largos que pueden comprimirse cada vez mejor en esta máquina de Turing universal", entonces no es aleatoria." - ver la siguiente sección.
Esquema de construcción: Enumere las coberturas nulas efectivas como . La enumeración también es efectiva (enumerada por una máquina de Turing universal modificada). Ahora tenemos una cobertura nula efectiva universal por diagonalización: .
Si una secuencia no supera una prueba de aleatoriedad algorítmica, entonces es algorítmicamente comprimible. Por el contrario, si es algorítmicamente comprimible, entonces no supera una prueba de aleatoriedad algorítmica.
Esquema de construcción: supongamos que la secuencia no supera una prueba de aleatoriedad, entonces se puede comprimir enumerando lexicográficamente todas las secuencias que no superan la prueba y luego codificando la ubicación de la secuencia en la lista de todas esas secuencias. Esto se llama "codificación de fuente enumerativa". [9]
Por el contrario, si la secuencia es comprimible, entonces, según el principio del casillero, solo una fracción minúscula de secuencias lo son, por lo que podemos definir una nueva prueba de aleatoriedad como "tiene una compresión por esta máquina de Turing universal". Por cierto, esta es la prueba universal de aleatoriedad.
Por ejemplo, considere una secuencia binaria muestreada IID de la distribución de Bernoulli. Después de tomar una gran cantidad de muestras, deberíamos tener alrededor de unos. Podemos codificar para esta secuencia como "Generar todas las secuencias binarias con longitud , y unos. De ellas, la secuencia -ésima en orden lexicográfico".
Por aproximación de Stirling , donde es la función de entropía binaria . Por lo tanto, el número de bits en esta descripción es: El primer término es para codificar con prefijo los números y . El segundo término es para codificar con prefijo el número . (Use la codificación omega de Elias .) El tercer término es para codificar con prefijo el resto de la descripción. Cuando es grande, esta descripción tiene solo bits, y por lo tanto es comprimible, con una relación de compresión . En particular, la relación de compresión es exactamente uno (incompresible) solo cuando . (Ejemplo 14.2.8 [10] )
Consideremos un casino que ofrece probabilidades justas en una mesa de ruleta. La mesa de ruleta genera una secuencia de números aleatorios. Si esta secuencia es aleatoria desde el punto de vista algorítmico, entonces no existe una estrategia semicomputable inferior para ganar, lo que a su vez implica que no existe una estrategia computable inferior para ganar. Es decir, para cualquier algoritmo de juego, el logaritmo de la recompensa a largo plazo es cero (ni positivo ni negativo). Por el contrario, si esta secuencia no es aleatoria desde el punto de vista algorítmico, entonces existe una estrategia semicomputable inferior para ganar.
Como cada una de las definiciones equivalentes de una secuencia aleatoria de Martin-Löf se basa en lo que es computable por alguna máquina de Turing, uno puede naturalmente preguntar qué es computable por una máquina de oráculo de Turing . Para un oráculo fijo A , una secuencia B que no solo es aleatoria sino que, de hecho, satisface las definiciones equivalentes para computabilidad relativa a A (por ejemplo, ninguna martingala que sea constructiva en relación con el oráculo A tiene éxito en B ) se dice que es aleatoria en relación con A. Dos secuencias, aunque aleatorias en sí mismas, pueden contener información muy similar y, por lo tanto, ninguna será aleatoria en relación con la otra. Cada vez que hay una reducción de Turing de una secuencia a otra, la segunda secuencia no puede ser aleatoria en relación con la primera, así como las secuencias computables son en sí mismas no aleatorias; en particular, esto significa que el Ω de Chaitin no es aleatorio en relación con el problema de detención .
Un resultado importante relacionado con la aleatoriedad relativa es el teorema de van Lambalgen , que establece que si C es la secuencia compuesta de A y B al intercalar el primer bit de A , el primer bit de B , el segundo bit de A , el segundo bit de B , y así sucesivamente, entonces C es algorítmicamente aleatorio si y solo si A es algorítmicamente aleatorio, y B es algorítmicamente aleatorio en relación con A . Una consecuencia estrechamente relacionada es que si A y B son ambos aleatorios, entonces A es aleatorio en relación con B si y solo si B es aleatorio en relación con A .
La aleatoriedad relativa nos da la primera noción que es más fuerte que la aleatoriedad de Martin-Löf, que es la aleatoriedad relativa a algún oráculo fijo A . Para cualquier oráculo, esto es al menos tan fuerte, y para la mayoría de los oráculos, es estrictamente más fuerte, ya que habrá secuencias aleatorias de Martin-Löf que no sean aleatorias en relación con el oráculo A . Los oráculos importantes que a menudo se consideran son el problema de la detención, , y el oráculo del n -ésimo salto, , ya que estos oráculos pueden responder preguntas específicas que surgen naturalmente. Una secuencia que es aleatoria en relación con el oráculo se llama n -aleatoria; una secuencia es 1-aleatoria, por lo tanto, si y solo si es aleatoria de Martin-Löf. Una secuencia que es n -aleatoria para cada n se llama aritméticamente aleatoria. Las secuencias n -aleatorias a veces surgen cuando se consideran propiedades más complicadas. Por ejemplo, solo hay una cantidad contable de conjuntos, por lo que uno podría pensar que estos deberían ser no aleatorios. Sin embargo, la probabilidad de detención Ω es 1-aleatoria; solo después de alcanzar la 2-aleatoriedad es imposible que un conjunto aleatorio sea .
Además, existen varias nociones de aleatoriedad que son más débiles que la aleatoriedad de Martin-Löf. Algunas de ellas son la aleatoriedad débil 1, la aleatoriedad de Schnorr, la aleatoriedad computable y la aleatoriedad computable parcial. Yongge Wang demostró [11] que la aleatoriedad de Schnorr es diferente de la aleatoriedad computable. Además, se sabe que la aleatoriedad de Kolmogorov-Loveland no es más fuerte que la aleatoriedad de Martin-Löf, pero no se sabe si en realidad es más débil.
En el extremo opuesto del espectro de aleatoriedad existe la noción de un conjunto K-trivial . Estos conjuntos son antialeatorios en el sentido de que todos los segmentos iniciales son logarítmicamente compresibles (es decir, para cada segmento inicial w), pero no son computables.