stringtranslate.com

Análisis de funciones booleanas.

En matemáticas e informática teórica , el análisis de funciones booleanas es el estudio de funciones con valores reales en o (dichas funciones a veces se conocen como funciones pseudobooleanas ) desde una perspectiva espectral. [1] Las funciones estudiadas suelen tener, aunque no siempre, valores booleanos, lo que las convierte en funciones booleanas . El área ha encontrado muchas aplicaciones en combinatoria , teoría de la elección social , gráficos aleatorios e informática teórica, especialmente en dureza de aproximación , pruebas de propiedades y aprendizaje PAC .

Conceptos básicos

Principalmente consideraremos funciones definidas en el dominio . A veces es más conveniente trabajar con el dominio . Si está definido en , entonces la función correspondiente definida en es

De manera similar, para nosotros una función booleana es una función con valores, aunque a menudo es más conveniente considerar funciones con valores.

Expansión de Fourier

Cada función de valor real tiene una expansión única como polinomio multilineal:

(Tenga en cuenta que incluso si la función tiene un valor de 0-1, esta no es una suma mod 2, sino simplemente una suma ordinaria de números reales).

Esta es la transformada de Hadamard de la función , que es la transformada de Fourier en el grupo . Los coeficientes se conocen como coeficientes de Fourier y la suma completa se conoce como expansión de Fourier . Las funciones se conocen como caracteres de Fourier y forman una base ortonormal para el espacio de todas las funciones con respecto al producto interno .

Los coeficientes de Fourier se pueden calcular mediante un producto interno:

En particular, esto muestra que , donde el valor esperado se toma con respecto a la distribución uniforme sobre . La identidad de Parseval establece que

Si omitimos , obtenemos la varianza de :

Grado de Fourier y niveles de Fourier

El grado de una función es el máximo tal que para algún conjunto de tamaño . En otras palabras, el grado de es su grado como polinomio multilineal.

Es conveniente descomponer la expansión de Fourier en niveles : el coeficiente de Fourier está en niveles .

La parte de grado de es

Se obtiene poniendo a cero todos los coeficientes de Fourier que no están en el nivel .

De manera similar definimos .

Influencia

La 'ésima influencia de una función se puede definir de dos formas equivalentes:

Si es booleano, entonces es la probabilidad de que al invertir la 'ésima coordenada se invierta el valor de la función:

Si entonces no depende de la 'ésima coordenada.

La influencia total de es la suma de todas sus influencias:

La influencia total de una función booleana es también la sensibilidad promedio de la función. La sensibilidad de una función booleana en un punto dado es el número de coordenadas tales que si invertimos la coordenada 'ésima, el valor de la función cambia. El valor medio de esta cantidad es exactamente la influencia total.

La influencia total también se puede definir utilizando el laplaciano discreto del gráfico de Hamming , adecuadamente normalizado: .

Una forma generalizada de influencia es la influencia estable, definida por:

Las influencias totales correspondientes son

Se puede demostrar que una función tiene como máximo "constantemente" muchas coordenadas "establemente influyentes":

Estabilidad del ruido

Dado , decimos que dos vectores aleatorios están correlacionados si las distribuciones marginales de son uniformes y . Concretamente, podemos generar un par de variables aleatorias correlacionadas eligiendo primero uniformemente al azar y luego eligiendo de acuerdo con una de las dos reglas equivalentes siguientes, aplicadas de forma independiente a cada coordenada:

Denotamos esta distribución por .

La estabilidad al ruido de una función en se puede definir de dos formas equivalentes:

Para , la sensibilidad al ruido de at es

Si es booleano, entonces esta es la probabilidad de que el valor de cambie si invertimos cada coordenada con probabilidad , de forma independiente.

operador de ruido

El operador de ruido es un operador que toma una función y devuelve otra función dada por

Cuando , el operador de ruido también se puede definir usando una cadena de Markov de tiempo continuo en la que cada bit se invierte de forma independiente con velocidad 1. El operador corresponde a ejecutar esta cadena de Markov para pasos que comienzan en y tomando el valor promedio de en el estado final. . Esta cadena de Markov es generada por el laplaciano del gráfico de Hamming, y este relaciona la influencia total con el operador de ruido.

La estabilidad del ruido se puede definir en términos del operador de ruido: .

Hipercontractividad

Para , la norma de una función está definida por

También definimos

El teorema de la hipercontractividad establece que para cualquiera y ,

La hipercontractividad está estrechamente relacionada con las desigualdades logarítmicas de Sobolev del análisis funcional . [2]

Un resultado similar se conoce como hipercontractividad inversa . [3]

p -Análisis sesgado

En muchas situaciones, la entrada a la función no se distribuye uniformemente , sino que tiene un sesgo hacia o . En estas situaciones se acostumbra considerar funciones sobre el dominio . Para , la medida p -sesgada está dada por

Esta medida se puede generar eligiendo cada coordenada de forma independiente para que sea 1 con probabilidad y 0 con probabilidad .

Los caracteres clásicos de Fourier ya no son ortogonales con respecto a esta medida. En su lugar, utilizamos los siguientes caracteres:

La expansión de Fourier con sesgo p es la expansión de como una combinación lineal de caracteres con sesgo p :

Podemos extender las definiciones de influencia y el operador de ruido al entorno con polarización p utilizando sus definiciones espectrales.

Influencia

La influencia de está dada por

La influencia total es la suma de las influencias individuales:

operador de ruido

Se puede obtener un par de variables aleatorias correlacionadas eligiendo independientemente y , donde está dado por

El operador de ruido viene dado entonces por

Usando esto podemos definir la estabilidad del ruido y la sensibilidad al ruido, como antes.

Fórmula Russo-Margulis

La fórmula de Russo-Margulis (también llamada fórmula de Margulis-Russo [1] ) establece que para funciones booleanas monótonas ,

Tanto la influencia como las probabilidades se toman con respecto a , y en el lado derecho tenemos la sensibilidad media de . Si pensamos en una propiedad, entonces la fórmula establece que a medida que varía, la derivada de la probabilidad de que ocurra en es igual a la sensibilidad promedio en .

La fórmula de Russo-Margulis es clave para demostrar teoremas de umbrales definidos como el de Friedgut.

espacio gaussiano

Uno de los resultados más profundos en el área, el principio de invariancia, conecta la distribución de funciones en el cubo booleano con su distribución en el espacio gaussiano , que es el espacio dotado de la medida gaussiana de dimensión estándar .

Muchos de los conceptos básicos del análisis de Fourier en el cubo booleano tienen contrapartes en el espacio gaussiano:

El espacio gaussiano es más simétrico que el cubo booleano (por ejemplo, es invariante de rotación) y admite argumentos continuos que pueden ser más difíciles de entender en el entorno discreto del cubo booleano. El principio de invariancia vincula las dos configuraciones y permite deducir resultados en el cubo booleano a partir de resultados en el espacio gaussiano.

Resultados básicos

Teorema de Friedgut-Kalai-Naor

Si tiene grado como máximo 1, entonces es constante, igual a una coordenada o igual a la negación de una coordenada. En particular, se trata de una dictadura : una función que depende como máximo de una coordenada.

El teorema de Friedgut-Kalai-Naor, [4] también conocido como teorema de FKN , establece que si casi tiene grado 1 entonces está cerca de una dictadura. Cuantitativamente, si y , entonces está cerca de una dictadura, es decir, para alguna dictadura booleana , o de manera equivalente, para alguna dictadura booleana .

De manera similar, una función booleana de grado depende como máximo de como máximo coordenadas, lo que la convierte en una junta (una función que depende de un número constante de coordenadas), donde una constante absoluta es igual a al menos 1,5 y como máximo a 4,41, como se muestra en Wellens. [5] El teorema de Kindler-Safra [6] generaliza el teorema de Friedgut-Kalai-Naor a este escenario. Afirma que si satisface entonces está cerca de una función booleana de grado como máximo .

Teorema de Kahn-Kalai-linial

La desigualdad de Poincaré para el cubo booleano (que se deriva de las fórmulas que aparecen arriba) establece que para una función ,

Esto implica que .

El teorema de Kahn-Kalai-Linial, [7] también conocido como teorema de KKL , establece que si es booleano entonces .

El límite dado por el teorema de Kahn-Kalai-Linial es estrecho y se logra mediante la función Tribes de Ben-Or y Linial: [8]

El teorema de Kahn-Kalai-Linial fue uno de los primeros resultados en el área y fue el que introdujo la hipercontractividad en el contexto de las funciones booleanas.

Teorema de la junta de Friedgut

Si es una -junta (una función que depende como máximo de las coordenadas), entonces según la desigualdad de Poincaré.

El teorema de Friedgut [9] es opuesto a este resultado. Afirma que para any , la función está cerca de una junta booleana dependiendo de las coordenadas.

Combinado con el lema de Russo-Margulis, el teorema de la junta de Friedgut implica que para cada , cada función monótona está cerca de una junta con respecto a para algunos .

Principio de invariancia

El principio de invariancia [10] generaliza el teorema de Berry-Esseen a funciones no lineales.

El teorema de Berry-Esseen establece (entre otras cosas) que si y no es demasiado grande en comparación con el resto, entonces la distribución de over está cerca de una distribución normal con la misma media y varianza.

El principio de invariancia (en un caso especial) establece informalmente que si es un polinomio multilineal de grado acotado y todas las influencias de son pequeñas, entonces la distribución de bajo la medida uniforme es cercana a su distribución en el espacio gaussiano.

Más formalmente, sea una función de Lipschitz univariada , let , let y let . Suponer que . Entonces

Al elegir apropiado , esto implica que las distribuciones de bajo ambas medidas están cercanas en distancia CDF , que viene dada por .

El principio de invariancia fue el ingrediente clave en la demostración original del teorema de la mayoría es más estable.

Algunas aplicaciones

Prueba de linealidad

Una función booleana es lineal si satisface , donde . No es difícil demostrar que las funciones lineales booleanas son exactamente los caracteres .

En las pruebas de propiedades queremos probar si una función dada es lineal. Es natural intentar la siguiente prueba: elegir uniformemente al azar y comprobar que ... Si es lineal entonces siempre pasa la prueba. Blum, Luby y Rubinfeld [11] demostraron que si la prueba pasa con probabilidad entonces está cerca de un carácter de Fourier. Su prueba fue combinatoria.

Bellare et al. [12] dieron una prueba analítica de Fourier extremadamente simple, que también muestra que si la prueba tiene éxito con probabilidad , entonces se correlaciona con un carácter de Fourier. Su prueba se basa en la siguiente fórmula para la probabilidad de éxito de la prueba:

teorema de flecha

El teorema de imposibilidad de Arrow establece que para tres o más candidatos, la única regla de votación unánime para la que siempre hay un ganador Condorcet es la dictadura.

La demostración habitual del teorema de Arrow es combinatoria. Kalai [13] proporcionó una prueba alternativa de este resultado en el caso de tres candidatos utilizando el análisis de Fourier. Si es la regla que asigna un ganador entre dos candidatos dado su orden relativo en los votos, entonces la probabilidad de que haya un ganador de Condorcet dado un voto uniformemente aleatorio es , de lo cual se sigue fácilmente el teorema.

El teorema de FKN implica que si es una regla en la que casi siempre hay un ganador de Condorcet, entonces está cerca de una dictadura.

Umbrales agudos

Un resultado clásico en la teoría de grafos aleatorios establece que la probabilidad de que un grafo aleatorio esté conectado tiende a si . Este es un ejemplo de un umbral definido : el ancho de la "ventana de umbral", que es , es asintóticamente más pequeño que el umbral mismo, que es aproximadamente . Por el contrario, la probabilidad de que una gráfica contenga un triángulo tiende a cuando . Aquí están tanto la ventana de umbral como el umbral mismo , por lo que se trata de un umbral aproximado .

El teorema del umbral agudo de Friedgut [14] establece, en términos generales, que una propiedad de gráfico monótono (una propiedad de gráfico es una propiedad que no depende de los nombres de los vértices) tiene un umbral agudo a menos que esté correlacionado con la aparición de subgrafos pequeños. . Este teorema se ha aplicado ampliamente para analizar gráficos aleatorios y percolación .

En una nota relacionada, el teorema de KKL implica que el ancho de la ventana de umbral es siempre como máximo . [15]

La mayoría es más estable

Denotemos la función mayoritaria en coordenadas. La fórmula de Sheppard da la estabilidad del ruido asintótico de la mayoría:

Esto está relacionado con la probabilidad de que si elegimos uniformemente al azar y formamos invirtiendo cada bit con probabilidad , entonces la mayoría permanece igual:

.

Existen funciones booleanas con mayor estabilidad del ruido. Por ejemplo, una dictadura tiene estabilidad acústica .

El teorema de la mayoría es más estable establece, de manera informal, que las únicas funciones que tienen una estabilidad de ruido mayor que la mayoría tienen coordenadas influyentes. Formalmente, para cada existe algo tal que si tiene expectativa cero y , entonces .

La primera prueba de este teorema utilizó el principio de invariancia junto con un teorema isoperimétrico de Borell en el espacio gaussiano; desde entonces se idearon pruebas más directas. [16] [17]

La mayoría es más estable implica que el algoritmo de aproximación de Goemans-Williamson para MAX-CUT es óptimo, asumiendo la conjetura de los juegos únicos . Esta implicación, debida a Khot et al., [18] fue el impulso detrás de la demostración del teorema.

Referencias

  1. ^ ab O'Donnell, Ryan (2014). Análisis de funciones booleanas . Prensa de la Universidad de Cambridge. arXiv : 2105.10386 . ISBN 978-1-107-03832-5.
  2. ^ P. Diaconis ; L. Saloff-Coste (agosto de 1996). "Desigualdades logarítmicas de Sobolev para cadenas finitas de Markov". Anales de probabilidad aplicada . 6 (3): 695–750. doi : 10.1214/AOAP/1034968224 . ISSN  1050-5164. SEÑOR  1410112. Zbl  0867.60043. Wikidata  Q62111462.
  3. ^ Mossel, Eljanán; Oleszkiewicz, Krzysztof; Sen, Arnab (2013). "Sobre la hipercontractividad inversa". Análisis Geométrico y Funcional . 23 (3): 1062–1097. arXiv : 1108.1210 . doi : 10.1007/s00039-013-0229-4 . S2CID  15933352.
  4. ^ Friedgut, Aod; Kalai, Gil; Naor, Assaf (2002). "Funciones booleanas cuya transformada de Fourier se concentra en los dos primeros niveles". Avances en Matemática Aplicada . 29 (3): 427–437. doi : 10.1016/S0196-8858(02)00024-6 .
  5. ^ Wellens, Jake (2020). "Relaciones entre el número de entradas y otras medidas de complejidad de funciones booleanas". Análisis discreto . arXiv : 2005.00566 . doi :10.19086/da.57741 (inactivo 2024-04-25).{{cite journal}}: CS1 maint: DOI inactive as of April 2024 (link)
  6. ^ Kindler, chico (2002). "Capítulo 16" (PDF) . Pruebas de propiedad, PCP y juntas (Tesis). Universidad de Tel Aviv.
  7. ^ Kahn, Jeff; Kalai, Gil; Linial, Nati (1988). "La influencia de las variables en las funciones booleanas". Proc. 29º Simposio. sobre Fundamentos de la Informática . SFCS'88. Llanuras blancas: IEEE. págs. 68–80. doi :10.1109/SFCS.1988.21923.
  8. ^ Ben-Or, Michael; Linial, Nathan (1985). "Lanzamiento colectivo de monedas, esquemas de votación sólidos y valores mínimos de Banzhaf". Proc. 26º Simposio. sobre Fundamentos de la Informática . SFCS'85. Portland, Oregón: IEEE. págs. 408–416. doi :10.1109/SFCS.1985.15.
  9. ^ Friedgut, Ehud (1998). "Las funciones booleanas con sensibilidad media baja dependen de pocas coordenadas". Combinatoria . 18 (1): 474–483. CiteSeerX 10.1.1.7.5597 . doi : 10.1007/PL00009809 . S2CID  15534278. 
  10. ^ Mossel, Eljanán; O'Donnell, Ryan ; Oleszkiewicz, Krzysztof (2010). "Estabilidad del ruido de funciones con bajas influencias: Invariancia y optimización". Anales de Matemáticas . 171 (1): 295–341. arXiv : matemáticas/0503503 . doi : 10.4007/anales.2010.171.295 .
  11. ^ Blum, Manuel; Luby, Michael; Rubinfeld, Ronitt (1993). "Autocomprobación/corrección con aplicaciones a problemas numéricos". J. Computación. Sistema. Ciencia . 47 (3): 549–595. doi : 10.1016/0022-0000(93)90044-W .
  12. ^ Bellare, Mihir; Calderero, Don; Hastad, Johan; Kiwi, Marcos; Sudán, Madhu (1995). "Prueba de linealidad en la característica dos". Proc. 36º Simposio. sobre Fundamentos de la Informática . FOCS'95.
  13. ^ Kalai, Gil (2002). "Una perspectiva teórica de Fourier sobre la paradoja de Condorcet y el teorema de Arrow" (PDF) . Avances en Matemática Aplicada . 29 (3): 412–426. doi : 10.1016/S0196-8858(02)00023-4 .
  14. ^ Friedgut, Ehud (1999). "Umbrales agudos de las propiedades del gráfico y el problema k-SAT". Revista de la Sociedad Matemática Estadounidense . 12 (4): 1017-1054. doi : 10.1090/S0894-0347-99-00305-7 .
  15. ^ Friedgut, Aod; Kalai, Gil (1996). "Cada propiedad de gráfico monótono tiene un umbral agudo". Actas de la Sociedad Matemática Estadounidense . 124 (10): 2993–3002. doi : 10.1090/S0002-9939-96-03732-X .
  16. ^ De, Anindya; Mossel, Eljanán; Neeman, Joe (2016), "La mayoría es más estable: discreta y SoS" (PDF) , Teoría de la Computación , 12 (4): 1–50, CiteSeerX 10.1.1.757.3048 , doi :10.4086/toc.2016.v012a004 
  17. ^ Eldan, Ronen ; Mikulincer, Dan; Raghavendra, Prasad (junio de 2023). "Estabilidad del ruido en el hipercubo booleano mediante un movimiento browniano renormalizado". STOC 2023: Actas del 55º Simposio Anual ACM sobre Teoría de la Computación . STOC. Orlando, Florida: ACM. págs. 661–671. arXiv : 2208.06508 . doi :10.1145/3564246.3585118.
  18. ^ Khot, Subhash ; Kindler, chico; Mossel, Eljanán; O'Donnell, Ryan (2007), "¿Resultados óptimos de inaproximabilidad para MAX-CUT y otros CSP de dos variables?" (PDF) , Revista SIAM de Computación , 37 (1): 319–357, CiteSeerX 10.1.1.130.8886 , doi :10.1137/S0097539705447372, S2CID  2090495