Algoritmo del zigurat

El algoritmo ziggurat es un algoritmo de muestreo de números pseudoaleatorios . Perteneciente a la clase de algoritmos de muestreo de rechazo , se basa en una fuente subyacente de números aleatorios distribuidos uniformemente, normalmente de un generador de números pseudoaleatorios , así como de tablas precalculadas. El algoritmo se utiliza para generar valores a partir de una distribución de probabilidad monótonamente decreciente . También se puede aplicar a distribuciones unimodales simétricas , como la distribución normal , eligiendo un valor de la mitad de la distribución y luego eligiendo aleatoriamente de qué mitad se considera que se ha extraído el valor. Fue desarrollado por George Marsaglia y otros en la década de 1960.

Un valor típico producido por el algoritmo solo requiere la generación de un valor de punto flotante aleatorio y un índice de tabla aleatorio, seguido de una búsqueda en la tabla, una operación de multiplicación y una comparación. A veces (el 2,5 % del tiempo, en el caso de una distribución normal o exponencial cuando se utilizan tamaños de tabla típicos) ^{[ cita requerida ]} se requieren más cálculos. Sin embargo, el algoritmo es computacionalmente mucho más rápido ^{[ cita requerida ]} que los dos métodos más comúnmente utilizados para generar números aleatorios distribuidos normalmente, el método polar de Marsaglia y la transformada de Box-Muller , que requieren al menos un cálculo de logaritmo y una raíz cuadrada para cada par de valores generados. Sin embargo, dado que el algoritmo ziggurat es más complejo de implementar, se utiliza mejor cuando se requieren grandes cantidades de números aleatorios.

El término algoritmo zigurat data del artículo de Marsaglia con Wai Wan Tsang en 2000; se llama así porque se basa conceptualmente en cubrir la distribución de probabilidad con segmentos rectangulares apilados en orden decreciente de tamaño, dando como resultado una figura que se asemeja a un zigurat .

Teoría del funcionamiento

El algoritmo ziggurat es un algoritmo de muestreo por rechazo; genera aleatoriamente un punto en una distribución ligeramente mayor que la distribución deseada y luego prueba si el punto generado está dentro de la distribución deseada. Si no es así, vuelve a intentarlo. Dado un punto aleatorio debajo de una curva de densidad de probabilidad, su coordenada x es un número aleatorio con la distribución deseada.

La distribución que elige el algoritmo zigurat se compone de n regiones de área igual; n − 1 rectángulos que cubren la mayor parte de la distribución deseada, sobre una base no rectangular que incluye la cola de la distribución.

Dada una función de densidad de probabilidad decreciente y monótona f ( x ), definida para todo x ≥ 0, la base del zigurat se define como todos los puntos dentro de la distribución y por debajo de y ₁ = f ( x ₁ ). Esta consiste en una región rectangular desde (0, 0) hasta ( x ₁ , y ₁ ), y la cola (normalmente infinita) de la distribución, donde x > x ₁ (e y < y ₁ ).

Esta capa (llamémosla capa 0) tiene un área A. Sobre esta, añada una capa rectangular de ancho x ₁ y altura A / x ₁ , por lo que también tiene un área A. La parte superior de esta capa está a una altura y ₂ = y ₁ + A / x ₁ , e interseca la función de densidad en un punto ( x ₂ , y ₂ ), donde y ₂ = f ( x ₂ ). Esta capa incluye todos los puntos de la función de densidad entre y ₁ e y ₂ , pero (a diferencia de la capa base) también incluye puntos como ( x ₁ , y ₂ ) que no están en la distribución deseada.

Luego se apilan más capas sobre la parte superior. Para utilizar una tabla precalculada de tamaño n ( n = 256 es lo típico), se elige x ₁ de modo que x _n = 0, lo que significa que el cuadro superior, capa n − 1, alcanza el pico de la distribución exactamente en (0, f (0)).

La capa i se extiende verticalmente desde y _i hasta y _{i +1} , y se puede dividir en dos regiones horizontalmente: la porción (generalmente más grande) de 0 a x _{i +1} que está completamente contenida dentro de la distribución deseada, y la porción (pequeña) de x _{i +1} a x _i , que está solo parcialmente contenida.

Ignorando por un momento el problema de la capa 0, y dadas las variables aleatorias uniformes U ₀ y U ₁ ∈ [0,1), el algoritmo del zigurat se puede describir como:

Elija una capa aleatoria 0 ≤ i < n .
Sea x = U ₀x _i .
Si x < x _{i +1} , devuelve x .
Sea y = y _i + U ₁ ( y _{i +1} − y _i ).
Calcular f ( x ). Si y < f ( x ), devuelve x .
De lo contrario, elija nuevos números aleatorios y vuelva al paso 1.

El paso 1 consiste en elegir una coordenada y de baja resolución . El paso 3 comprueba si la coordenada x está claramente dentro de la función de densidad deseada sin saber más sobre la coordenada y. Si no lo está, el paso 4 elige una coordenada y de alta resolución y el paso 5 realiza la prueba de rechazo.

Con capas muy espaciadas, el algoritmo termina en el paso 3 una fracción muy grande de las veces. Sin embargo, para la capa superior n − 1, esta prueba siempre falla, porque x _n = 0.

La capa 0 también se puede dividir en una región central y un borde, pero el borde es una cola infinita. Para utilizar el mismo algoritmo para comprobar si el punto está en la región central, genere un x ₀ = A / y ₁ ficticio . Esto generará puntos con x < x ₁ con la frecuencia correcta y, en el caso poco frecuente de que se seleccione la capa 0 y x ≥ x ₁ , utilice un algoritmo de reserva especial para seleccionar un punto al azar de la cola. Debido a que el algoritmo de reserva se utiliza menos de una vez en mil, la velocidad no es esencial.

Por lo tanto, el algoritmo zigurat completo para distribuciones unilaterales es:

Elija una capa aleatoria 0 ≤ i < n .
Sea x = U ₀x _i
Si x < x _{i +1} , devuelve x .
Si i = 0, genere un punto desde la cola utilizando el algoritmo de respaldo.
Sea y = y _i + U ₁ ( y _{i +1} − y _i ).
Calcular f ( x ). Si y < f ( x ), devuelve x .
De lo contrario, elija nuevos números aleatorios y vuelva al paso 1.

En el caso de una distribución bilateral, el resultado debe ser negado el 50 % de las veces. Esto se puede hacer de manera conveniente eligiendo U ₀ ∈ (−1,1) y, en el paso 3, comprobando si | x | < x _{i +1} .

Algoritmos de respaldo para la cola

Dado que el algoritmo zigurat solo genera la mayoría de los resultados muy rápidamente y requiere un algoritmo de respaldo siempre que x > x ₁ , siempre es más complejo que una implementación más directa. El algoritmo de respaldo específico depende de la distribución.

En una distribución exponencial, la cola se parece al cuerpo de la distribución. Una forma de hacerlo es recurrir al algoritmo más elemental E = −ln( U ₁ ) y dejar x = x ₁ − ln( U ₁ ). Otra forma de hacerlo es llamar al algoritmo del zigurat de forma recursiva y sumar x ₁ al resultado.

Para una distribución normal, Marsaglia sugiere un algoritmo compacto:

Sea x = −ln( U ₁ )/ x ₁ .
Sea y = −ln( U ₂ ).
Si 2 y > x ² , devuelve x + x ₁ .
De lo contrario, vuelva al paso 1.

Como x ₁ ≈ 3,5 para tamaños de tabla típicos, la prueba del paso 3 casi siempre es exitosa. Como −ln( U ₁ ) es una variable distribuida exponencialmente, se puede utilizar una implementación de la distribución exponencial.

Optimizaciones

El algoritmo se puede ejecutar de manera eficiente con tablas precalculadas de x _i e y i ₌ f ( x i ₎ , pero hay algunas modificaciones para hacerlo aún más rápido:

Nada en el algoritmo zigurat depende de que la función de distribución de probabilidad esté normalizada (integral bajo la curva igual a 1), eliminar las constantes normalizadoras puede acelerar el cálculo de f ( x ).
La mayoría de los generadores de números aleatorios uniformes se basan en generadores de números aleatorios enteros que devuelven un entero en el rango [0, 2 ³² − 1]. Una tabla de 2 ⁻³²x _i le permite usar dichos números directamente para U ₀ .
Al calcular distribuciones bilaterales utilizando un U ₀ bilateral como se describió anteriormente, el entero aleatorio se puede interpretar como un número con signo en el rango [−2 ³¹ , 2 ³¹ − 1], y se puede utilizar un factor de escala de 2 ^{−31 .}
En lugar de comparar U ₀x _i con x _{i +1} en el paso 3, es posible calcular previamente x _{i +1} / x _i y comparar U ₀ con eso directamente. Si U ₀ es un generador de números aleatorios enteros, estos límites se pueden premultiplicar por 2 ³² (o 2 ³¹ , según corresponda) para que se pueda utilizar una comparación de números enteros.
Con los dos cambios anteriores, la tabla de valores x _i sin modificar ya no es necesaria y se puede eliminar.
Al generar valores de punto flotante de precisión simple IEEE 754 , que solo tienen una mantisa de 24 bits (incluido el 1 inicial implícito), no se utilizan los bits menos significativos de un número aleatorio entero de 32 bits. Estos bits se pueden utilizar para seleccionar el número de capa. (Consulte las referencias a continuación para obtener una explicación detallada de este tema).
Los primeros tres pasos se pueden colocar en una función en línea , que puede llamar a una implementación fuera de línea de los pasos necesarios con menos frecuencia.

Generando las tablas

Es posible almacenar la tabla completa precalculada, o solo incluir los valores n , y ₁ , A y una implementación de f ⁻¹ ( y ) en el código fuente, y calcular los valores restantes al inicializar el generador de números aleatorios.

Como se describió anteriormente, puedes encontrar x _i = f ⁻¹ ( y _i ) y y _{i +1} = y _i + A / x _i . Repite n − 1 veces para las capas del zigurat. Al final, deberías tener y _n = f (0). Habrá algún error de redondeo , pero es una prueba de cordura útil para ver que es aceptablemente pequeño.

Al completar los valores de la tabla, simplemente suponga que x _n = 0 e y _n = f (0), y acepte la ligera diferencia en el área de la capa n − 1 como error de redondeo.

Descubrimientoincógnita1yA

Dado un valor inicial (aproximado) x ₁ , se necesita una forma de calcular el área t de la cola para la cual x > x ₁ . Para la distribución exponencial, esto es simplemente e ^{− x ₁} , mientras que para la distribución normal, suponiendo que se está utilizando la f ( x ) = e ^{− x ² /2} no normalizada , esto es √ π /2 erfc ( x / √ 2 ). Para distribuciones más complicadas, puede ser necesaria la integración numérica .

Con esto en la mano, a partir de x ₁ , puedes encontrar y ₁ = f ( x ₁ ), el área t en la cola y el área de la capa base A = x ₁y ₁ + t .

Luego, calcule las series y _i y x _i como se indicó anteriormente. Si y _i > f (0) para cualquier i < n , entonces la estimación inicial x ₁ fue demasiado baja, lo que llevó a un área A demasiado grande . Si y _n < f (0), entonces la estimación inicial x ₁ fue demasiado alta.

Teniendo esto en cuenta, utilice un algoritmo de búsqueda de raíces (como el método de bisección ) para encontrar el valor x ₁ que produce y _{n −1} lo más cerca posible de f (0). Alternativamente, busque el valor que hace que el área de la capa superior, x _{n −1} ( f (0) − y _{n −1} ), sea lo más cercana posible al valor deseado A. Esto ahorra una evaluación de f ⁻¹ ( x ) y es, en realidad, la condición de mayor interés.

Variación de McFarland

Christopher D. McFarland propuso una versión aún más optimizada. ^[1] Esta aplica tres cambios algorítmicos, a expensas de tablas ligeramente más grandes.

En primer lugar, el caso común considera solo las porciones rectangulares, desde (0, y _{i −1} ) hasta ( x _i , y _i ). Las regiones de forma irregular a la derecha de estas (en su mayoría casi triangulares, más la cola) se manejan por separado. Esto simplifica y acelera la ruta rápida del algoritmo .

En segundo lugar, se utiliza el área exacta de las regiones de forma irregular; no se redondean para incluir todo el rectángulo a ( x _{i −1} , y _i ). Esto aumenta la probabilidad de que se utilice la ruta rápida.

Una consecuencia importante de esto es que el número de capas es ligeramente menor que n . Aunque el área de las partes con formas irregulares se toma exactamente, el total suma más del valor de una capa. El área por capa se ajusta de modo que el número de capas rectangulares sea un número entero. Si el valor inicial 0 ≤ i < n excede el número de capas rectangulares, se continúa con la fase 2.

Si el valor buscado se encuentra en alguna de las regiones de forma irregular, se utiliza el método de alias para elegir una, en función de su área real. Esto supone una pequeña cantidad de trabajo adicional y requiere tablas de alias adicionales, pero elige uno de los lados derechos de las capas.

La región de forma irregular elegida se somete a un muestreo de rechazo, pero si se rechaza una muestra, el algoritmo no vuelve al principio. Se utilizó el área real de cada región de forma irregular para elegir una capa, por lo que el bucle de muestreo de rechazo permanece en esa capa hasta que se elige un punto.

En tercer lugar, se aprovecha la forma casi triangular de la mayoría de las porciones de forma irregular, aunque esto debe dividirse en tres casos dependiendo de la segunda derivada de la función de distribución de probabilidad en la capa seleccionada.

Si la función es convexa (ya que la distribución exponencial está en todas partes y la distribución normal es para | x | > 1), entonces la función está estrictamente contenida dentro del triángulo inferior. Se eligen dos desviaciones uniformes unitarias U ₁ y U ₂ y, antes de escalarlas al rectángulo que encierra la región de forma irregular, se prueba su suma. Si U ₁ + U ₂ > 1, el punto está en el triángulo superior y se puede reflejar en (1− U ₁ , 1− U ₂ ). Entonces, si U ₁ + U ₂ < 1− ε , para alguna tolerancia adecuada ε , el punto está definitivamente debajo de la curva y se puede aceptar de inmediato. Solo para puntos muy cercanos a la diagonal es necesario calcular la función de distribución f ( x ) para realizar una prueba de rechazo exacta. (La tolerancia ε debería depender en teoría de la capa, pero se puede usar un único valor máximo en todas las capas con poca pérdida).

Si la función es cóncava (como lo es la distribución normal para | x | < 1), incluye una pequeña porción del triángulo superior, por lo que la reflexión es imposible, pero los puntos cuyas coordenadas normalizadas satisfacen U ₁ + U ₂ ≤ 1 pueden aceptarse inmediatamente, y los puntos para los que U ₁ + U ₂ > 1+ ε pueden rechazarse inmediatamente.

En la capa que se extiende a ambos lados de | x | = 1, la distribución normal tiene un punto de inflexión y se debe aplicar la prueba de rechazo exacta si 1− ε < U ₁ + U ₂ < 1+ ε .

La cola se maneja como en el algoritmo Ziggurat original y puede considerarse como un cuarto caso para la forma de la región de forma irregular a la derecha.

Referencias

^ McFarland, Christopher D. (24 de junio de 2015). "Un algoritmo ziggurat modificado para generar números pseudoaleatorios distribuidos de forma exponencial y normal". Journal of Statistical Computation and Simulation . 86 (7): 1281–1294. arXiv : 1403.6870 . doi :10.1080/00949655.2015.1060234. Tenga en cuenta que el repositorio Bitbucket mencionado en el documento ya no está disponible y el código ahora está en https://github.com/cd-mcfarland/fast_prng

Marsaglia, George ; Tsang, Wai Wan (2 de octubre de 2000). "El método Ziggurat para generar variables aleatorias". Journal of Statistical Software . 5 (8) . Consultado el 20 de junio de 2007 .En este artículo se numera las capas desde el 1 en la parte superior y se hace de la capa 0 en la parte inferior un caso especial, mientras que la explicación anterior numera las capas desde el 0 en la parte inferior.
Implementación en C del método zigurat para la función de densidad normal y la función de densidad exponencial, que es esencialmente una copia del código del artículo. (Los usuarios potenciales deben tener en cuenta que este código en C supone números enteros de 32 bits).
Implementación de AC# del algoritmo zigurat y descripción general del método.
Jurgen A. Doornik (2005). "Un método de zigurat mejorado para generar muestras aleatorias normales" (PDF) . Nuffield College, Oxford . Consultado el 20 de junio de 2007 . Describe los peligros de utilizar los bits menos significativos del generador de números aleatorios enteros para elegir el número de capa.
Comportamiento normal Por Cleve Moler, MathWorks, describiendo el algoritmo zigurat introducido en MATLAB versión 5, 2001.
El generador normal aleatorio de Zigurat Blogs de MathWorks, publicado por Cleve Moler, 18 de mayo de 2015.
David B. Thomas; Philip HW Leong; Wayne Luk; John D. Villasenor (octubre de 2007). "Gaussian Random Number Generators" (PDF) . ACM Computing Surveys . 39 (4): 11:1–38. doi :10.1145/1287620.1287622. ISSN 0360-0300. S2CID 10948255 . Consultado el 27 de julio de 2009 . [C]uando la prioridad número uno es mantener una calidad estadística extremadamente alta y, sujeto a esa restricción, también se desea velocidad, el método Ziggurat será a menudo la opción más adecuada.Comparación de varios algoritmos para generar números aleatorios gaussianos .
Nadler, Boaz (2006). "Defectos de diseño en la implementación de los métodos Ziggurat y Monty Python (y algunas observaciones sobre Matlab Randn)". arXiv : math/0603058 .. Ilustra los problemas con los generadores de números pseudoaleatorios uniformes subyacentes y cómo esos problemas afectan la salida del algoritmo zigurat.
Edrees, Hassan M.; Cheung, Brian; Sandora, McCullen; Nummey, David; Stefan, Deian (13–16 de julio de 2009). Algoritmo de zigurat optimizado por hardware para generadores de números aleatorios gaussianos de alta velocidad (PDF) . Conferencia internacional de 2009 sobre ingeniería de sistemas y algoritmos reconfigurables. Las Vegas.
Marsaglia, George (septiembre de 1963). Generación de una variable a partir de la cola de la distribución normal (informe técnico). Boeing Scientific Research Labs. Nota matemática n.º 322, número de acceso DTIC AD0423993. Archivado desde el original el 10 de septiembre de 2014, a través del Centro de Información Técnica de Defensa .