No hay nada gratis en búsqueda y optimización

En la complejidad computacional y la optimización, el teorema de que no hay almuerzo gratis es un resultado que establece que para ciertos tipos de problemas matemáticos, el costo computacional de encontrar una solución, promediado sobre todos los problemas de la clase, es el mismo para cualquier método de solución. El nombre alude al dicho " no hay tal cosa como un almuerzo gratis ", es decir, ningún método ofrece un "atajo". Esto es bajo el supuesto de que el espacio de búsqueda es una función de densidad de probabilidad . No se aplica al caso en el que el espacio de búsqueda tiene una estructura subyacente (por ejemplo, es una función diferenciable) que se puede explotar de manera más eficiente (por ejemplo, el método de Newton en optimización ) que la búsqueda aleatoria o incluso tiene soluciones de forma cerrada (por ejemplo, los extremos de un polinomio cuadrático) que se pueden determinar sin búsqueda en absoluto. Para tales supuestos probabilísticos, los resultados de todos los procedimientos que resuelven un tipo particular de problema son estadísticamente idénticos. Una forma colorida de describir tal circunstancia, introducida por David Wolpert y William G. Macready en relación con los problemas de búsqueda ^[1] y optimización, ^[2] es decir que no hay almuerzo gratis . Wolpert había derivado previamente teoremas de que no hay almuerzo gratis para el aprendizaje automático ( inferencia estadística ). ^[3] Antes de que se publicara el artículo de Wolpert, Cullen Schaffer demostró de forma independiente una versión restringida de uno de los teoremas de Wolpert y lo utilizó para criticar el estado actual de la investigación del aprendizaje automático sobre el problema de la inducción. ^[4]

En la metáfora de que "no hay almuerzo gratis" , cada "restaurante" (procedimiento de resolución de problemas) tiene un "menú" que asocia cada "plato de almuerzo" (problema) con un "precio" (el desempeño del procedimiento para resolver el problema). Los menús de los restaurantes son idénticos excepto en un aspecto: los precios se barajan de un restaurante a otro. Para un omnívoro que tiene la misma probabilidad de pedir cualquier plato que cualquier otro, el costo promedio del almuerzo no depende de la elección del restaurante. Pero un vegano que va a almorzar regularmente con un carnívoro que busca la economía podría pagar un alto costo promedio por el almuerzo. Para reducir metódicamente el costo promedio, uno debe usar el conocimiento previo de a) lo que uno pedirá y b) cuánto costará el pedido en varios restaurantes. Es decir, la mejora del desempeño en la resolución de problemas depende del uso de información previa para hacer coincidir los procedimientos con los problemas. ^[2]^[4]

En términos formales, no hay almuerzo gratis cuando la distribución de probabilidad en las instancias del problema es tal que todos los solucionadores de problemas tienen resultados distribuidos de manera idéntica. En el caso de la búsqueda , una instancia del problema en este contexto es una función objetivo particular , y un resultado es una secuencia de valores obtenidos en la evaluación de soluciones candidatas en el dominio de la función. Para las interpretaciones típicas de los resultados, la búsqueda es un proceso de optimización . No hay almuerzo gratis en la búsqueda si y solo si la distribución en las funciones objetivo es invariante bajo la permutación del espacio de soluciones candidatas. ^[5]^[6]^[7] Esta condición no se cumple precisamente en la práctica, ^[6] pero un teorema de "(casi) ningún almuerzo gratis" sugiere que se cumple aproximadamente. ^[8]

Descripción general

Algunos problemas computacionales se resuelven buscando buenas soluciones en un espacio de soluciones candidatas . Una descripción de cómo seleccionar repetidamente soluciones candidatas para la evaluación se llama algoritmo de búsqueda . En un problema particular, diferentes algoritmos de búsqueda pueden obtener resultados diferentes, pero en todos los problemas, son indistinguibles. De ello se deduce que si un algoritmo logra resultados superiores en algunos problemas, debe pagar con inferioridad en otros problemas. En este sentido, no hay almuerzo gratis en la búsqueda. ^[1] Alternativamente, siguiendo a Schaffer, ^[4] el rendimiento de la búsqueda se conserva . Por lo general, la búsqueda se interpreta como optimización , y esto lleva a la observación de que no hay almuerzo gratis en la optimización. ^[2]

El teorema de Wolpert y Macready, "no hay almuerzo gratis", tal como lo enunciaron en lenguaje sencillo Wolpert y Macready, es que "cualquier par de algoritmos son equivalentes cuando su desempeño se promedia entre todos los problemas posibles". ^[9] Los resultados de "no hay almuerzo gratis" indican que hacer coincidir algoritmos con problemas da un desempeño promedio más alto que aplicar un algoritmo fijo a todos. ^{[ cita requerida ]} Igel y Toussaint ^[6] y English ^[7] han establecido una condición general bajo la cual no hay almuerzo gratis. Si bien es físicamente posible, no se cumple con precisión. ^[6] Droste, Jansen y Wegener han demostrado un teorema que interpretan como indicativo de que "(casi) no hay almuerzo gratis" en la práctica. ^[8]

Para hacer las cosas más concretas, consideremos a un profesional de la optimización que se enfrenta a un problema. Si tiene algún conocimiento de cómo surgió el problema, el profesional puede aprovechar ese conocimiento para seleccionar un algoritmo que funcione bien para resolverlo. Si el profesional no entiende cómo aprovechar ese conocimiento, o simplemente no tiene conocimiento, entonces se enfrenta a la cuestión de si un algoritmo en general supera a otros en problemas del mundo real. Los autores del teorema de que "(casi) nada es gratis" dicen que la respuesta es esencialmente no, pero admiten algunas reservas sobre si el teorema se aplica a la práctica. ^[8]

Teoremas

Un "problema" es, más formalmente, una función objetivo que asocia soluciones candidatas con valores de bondad. Un algoritmo de búsqueda toma una función objetivo como entrada y evalúa las soluciones candidatas una por una. El resultado del algoritmo es la secuencia de valores de bondad observados. ^[10]^[11]

Wolpert y Macready estipulan que un algoritmo nunca reevalúa una solución candidata y que su rendimiento se mide en función de los resultados. ^[2] Para simplificar, no permitimos la aleatoriedad en los algoritmos. En estas condiciones, cuando se ejecuta un algoritmo de búsqueda en cada entrada posible, genera cada salida posible exactamente una vez. ^[7] Debido a que el rendimiento se mide en función de los resultados, los algoritmos son indistinguibles en cuanto a la frecuencia con la que alcanzan determinados niveles de rendimiento.

Algunas medidas de rendimiento indican qué tan bien funcionan los algoritmos de búsqueda en la optimización de la función objetivo. De hecho, no parece haber ninguna aplicación interesante de los algoritmos de búsqueda en la clase en consideración, excepto en los problemas de optimización. Una medida de rendimiento común es el índice más bajo del valor más bajo en la secuencia de salida. Este es el número de evaluaciones necesarias para minimizar la función objetivo. Para algunos algoritmos, el tiempo necesario para encontrar el mínimo es proporcional al número de evaluaciones. ^[7]

Los teoremas originales de "no free lunch" (NFL) suponen que todas las funciones objetivo tienen la misma probabilidad de ser introducidas en los algoritmos de búsqueda. ^[2] Desde entonces se ha establecido que existe NFL si y solo si, en términos generales, "mezclar" funciones objetivo no tiene impacto en sus probabilidades. ^[6]^[7] Aunque esta condición para NFL es físicamente posible, se ha argumentado que ciertamente no se cumple con precisión. ^[6]

La interpretación obvia de "no es NFL" es "almuerzo gratis", pero esto es engañoso. La NFL es una cuestión de grado, no una proposición de todo o nada. Si la condición para la NFL se cumple aproximadamente, entonces todos los algoritmos arrojan aproximadamente los mismos resultados en todas las funciones objetivo. ^[7] "No es NFL" implica únicamente que los algoritmos son inequivalentes en general en alguna medida de desempeño. Para una medida de desempeño de interés, los algoritmos pueden seguir siendo equivalentes, o casi. ^[7]

Aleatoriedad de Kolmogorov

Casi todos los elementos del conjunto de todas las funciones posibles (en el sentido de "función" en la teoría de conjuntos) son funciones aleatorias de Kolmogorov y, por lo tanto, los teoremas de NFL se aplican a un conjunto de funciones que casi todas no se pueden expresar de manera más compacta que como una tabla de búsqueda que contiene una entrada distinta (y aleatoria) para cada punto en el espacio de búsqueda. Las funciones que se pueden expresar de manera más compacta (por ejemplo, mediante una expresión matemática de tamaño razonable) no son, por definición, funciones aleatorias de Kolmogorov.

Además, dentro del conjunto de todas las funciones objetivo posibles, los niveles de bondad están representados de manera igualitaria entre las soluciones candidatas, por lo que las buenas soluciones están dispersas en todo el espacio de las candidatas. En consecuencia, un algoritmo de búsqueda rara vez evaluará más de una pequeña fracción de las candidatas antes de encontrar una muy buena solución. ^[11]

Casi todas las funciones objetivo tienen una complejidad de Kolmogorov tan alta que no pueden almacenarse en una computadora en particular. ^[5]^[7]^[11] Más precisamente, si modelamos una computadora física dada como una máquina de registro con una memoria de tamaño dado en el orden de las memorias de las computadoras modernas, entonces la mayoría de las funciones objetivo no pueden almacenarse en sus memorias. Hay más información en la función objetivo o algoritmo típico de la que Seth Lloyd estima que el universo observable es capaz de registrar. ^[12] Por ejemplo, si cada solución candidata está codificada como una secuencia de 300 0 y 1, y los valores de bondad son 0 y 1, entonces la mayoría de las funciones objetivo tienen una complejidad de Kolmogorov de al menos 2 ³⁰⁰ bits, ^[13] y esto es mayor que el límite de Lloyd de 10 ⁹⁰ ≈ 2 ²⁹⁹ bits. De ello se deduce que el teorema original de "no hay almuerzo gratis" no se aplica a lo que se puede almacenar en una computadora física; En lugar de ello, es necesario aplicar los llamados teoremas "restringidos" de que no hay nada gratis. También se ha demostrado que los resultados de la NFL se aplican a funciones incomputables. ^[14]

Sinopsis formal

$Estilo de visualización Y^{X}}$ es el conjunto de todas las funciones objetivo f : X → Y , donde es un espacio de soluciones finito y es un conjunto poset finito . El conjunto de todas las permutaciones de X es J . Una variable aleatoria F se distribuye en . Para todo j en J , F o j es una variable aleatoria distribuida en , con P( F o j = f ) = P( F = f o j ⁻¹ ) para todo f en . ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $Estilo de visualización Y^{X}}$ $Estilo de visualización Y^{X}}$ $Estilo de visualización Y^{X}}$

Sea a ( f ) la salida del algoritmo de búsqueda a en la entrada f . Si a ( F ) y b ( F ) se distribuyen de forma idéntica para todos los algoritmos de búsqueda a y b , entonces F tiene una distribución NFL . Esta condición se cumple si y solo si F y F o j se distribuyen de forma idéntica para todos los j en J . ^[6]^[7] En otras palabras, no hay nada gratis para los algoritmos de búsqueda si y solo si la distribución de funciones objetivo es invariante bajo la permutación del espacio de soluciones. ^[15] Los teoremas NFL de teoría de conjuntos se han generalizado recientemente a cardinalidad arbitraria y . ^[16] ${\estilo de visualización X}$ ${\estilo de visualización Y}$

Origen

Wolpert y Macready dan dos teoremas NFL principales, el primero sobre funciones objetivo que no cambian mientras la búsqueda está en progreso, y el segundo sobre funciones objetivo que pueden cambiar. ^[2]

Teorema 1 : Para cualquier par de algoritmos a ₁ y a ₂

\suma _{f}P(d_{m}^{y}|f,m,a_{1})=\suma _{f}P(d_{m}^{y}|f,m,a_{2}),

donde denota el conjunto ordenado de tamaño de los valores de costo asociados a los valores de entrada , es la función que se está optimizando y es la probabilidad condicional de obtener una secuencia dada de valores de costo a partir de los tiempos de ejecución del algoritmo en la función .

Estilo de visualización d_{m}^{y}}

{\estilo de visualización m}

y\en Y

x\en X

f:X\rightarrow Y

P(d_{m}^{y}|f,m,a)

{\estilo de visualización a}

{\estilo de visualización m}

{\estilo de visualización f}

En esencia, esto dice que cuando todas las funciones f son igualmente probables, la probabilidad de observar una secuencia arbitraria de m valores en el curso de la búsqueda no depende del algoritmo de búsqueda.

El segundo teorema establece un resultado NFL "más sutil" para funciones objetivo que varían en el tiempo. ^[2]

Interpretaciones de resultados

Una interpretación convencional, aunque no del todo precisa, de los resultados de la NFL es que "una estrategia de optimización universal de propósito general es teóricamente imposible, y la única forma en que una estrategia puede superar a otra es si está especializada en el problema específico en consideración". ^[17] Se deben hacer varios comentarios:

En teoría, existe un optimizador de propósito general casi universal. Cada algoritmo de búsqueda funciona bien en casi todas las funciones objetivo. ^[11] Por lo tanto, si a uno no le preocupan las diferencias "relativamente pequeñas" entre los algoritmos de búsqueda (por ejemplo, porque el tiempo de computación es barato), entonces no debería preocuparse por la falta de comida gratis.
Un algoritmo puede superar a otro en un problema cuando ninguno de ellos está especializado en ese problema. De hecho, puede ser que ambos algoritmos estén entre los peores para el problema. En términos más generales, Wolpert y Macready han desarrollado una medida del grado de "alineación" entre un algoritmo y una distribución en distintos problemas (en sentido estricto, un producto interno). ^[2] Decir que un algoritmo se adapta mejor a una distribución que otro no significa decir que alguno de ellos se haya especializado conscientemente en la distribución; un algoritmo puede tener una buena alineación simplemente por suerte.
En la práctica, algunos algoritmos reevalúan las soluciones candidatas. La razón para considerar únicamente el desempeño de las soluciones candidatas que nunca se han evaluado es asegurarse de que, al comparar algoritmos, se están comparando soluciones equivalentes. Además, cualquier superioridad de un algoritmo que nunca reevalúa las soluciones candidatas sobre otro algoritmo que sí lo hace en un problema en particular puede no tener nada que ver con la especialización en el problema.
En casi todas las funciones objetivas, la especialización es esencialmente accidental. Las funciones objetivas incompresibles, o aleatorias de Kolmogorov , no tienen regularidad que un algoritmo pueda explotar, en lo que respecta al mecanizado universal de Turing utilizado para definir la aleatoriedad de Kolmogorov. Por lo tanto, supongamos que existe una opción claramente superior de máquina de Turing universal. Entonces, dada una función objetivo que sea incompresible para esa máquina de Turing, no hay base para elegir entre dos algoritmos si ambos son compresibles, medidos utilizando esa máquina de Turing. Si un algoritmo elegido funciona mejor que la mayoría, el resultado es casualidad. ^[11] Una función aleatoria de Kolmogorov no tiene una representación más pequeña que una tabla de búsqueda que contenga un valor (aleatorio) correspondiente a cada punto en el espacio de búsqueda; cualquier función que pueda expresarse de manera más compacta, por definición, no es aleatoria de Kolmogorov.

En la práctica, sólo las funciones objetivo altamente comprimibles (que no son para nada aleatorias) caben en la memoria de los ordenadores, y no es cierto que cada algoritmo funcione bien en casi todas las funciones comprimibles. En general, hay una ventaja de rendimiento al incorporar el conocimiento previo del problema al algoritmo. Si bien los resultados de NFL constituyen, en sentido estricto, teoremas de pleno empleo para los profesionales de la optimización, es importante tener en cuenta el contexto más amplio. Por un lado, los seres humanos a menudo tienen poco conocimiento previo con el que trabajar. Por otro lado, la incorporación de conocimiento previo no proporciona una gran ganancia de rendimiento en algunos problemas. Por último, el tiempo humano es muy caro en relación con el tiempo de ordenador. Hay muchos casos en los que una empresa optaría por optimizar una función lentamente con un programa informático sin modificar en lugar de hacerlo rápidamente con un programa modificado por humanos.

Los resultados de la NFL no indican que sea inútil intentar resolver problemas con algoritmos no especializados. Nadie ha determinado la fracción de problemas prácticos para los que un algoritmo produce buenos resultados rápidamente. Y en la práctica hay un almuerzo gratis, que no está en absoluto en conflicto con la teoría. Ejecutar una implementación de un algoritmo en una computadora cuesta muy poco en relación con el costo del tiempo humano y el beneficio de una buena solución. Si un algoritmo logra encontrar una solución satisfactoria en un tiempo aceptable, una pequeña inversión ha producido una gran recompensa. Si el algoritmo falla, entonces se pierde poco.

Recientemente, algunos filósofos de la ciencia han sostenido que existen formas de sortear los teoremas de que no hay nada gratis, mediante el uso de la "metainducción". Wolpert aborda estos argumentos en ^[18] .

Coevolución

Wolpert y Macready han demostrado que existen almuerzos gratis en la optimización coevolutiva . ^[9] Su análisis "cubre problemas de 'auto-juego'. En estos problemas, el conjunto de jugadores trabaja en conjunto para producir un campeón, que luego se enfrenta a uno o más antagonistas en un juego multijugador posterior". ^[9] Es decir, el objetivo es obtener un buen jugador, pero sin una función objetivo. La bondad de cada jugador (solución candidata) se evalúa observando qué tan bien juega contra otros. Un algoritmo intenta utilizar a los jugadores y su calidad de juego para obtener mejores jugadores. El jugador considerado el mejor de todos por el algoritmo es el campeón. Wolpert y Macready han demostrado que algunos algoritmos coevolutivos son generalmente superiores a otros algoritmos en la calidad de los campeones obtenidos. Generar un campeón a través del auto-juego es de interés en la computación evolutiva y la teoría de juegos . Los resultados son inaplicables a la coevolución de especies biológicas, que no produce campeones. ^[9]

Véase también

Notas

^ ab Wolpert, DH; Macready, WG (1995). "No hay teoremas de almuerzo gratis para búsqueda". Informe técnico SFI-TR-95-02-010 . Santa Fe Institute. S2CID 12890367.
^ abcdefgh Wolpert, DH; Macready, WG (1997). "No hay teoremas de almuerzo gratis para la optimización". IEEE Transactions on Evolutionary Computation . 1 : 67–82. CiteSeerX 10.1.1.138.6606 . doi :10.1109/4235.585893. S2CID 5553697.
^ Wolpert, David (1996). "La falta de distinciones a priori entre algoritmos de aprendizaje". Neural Computation . Vol. 8. págs. 1341–1390. doi :10.1162/neco.1996.8.7.1341. S2CID 207609360.
^ abc Schaffer, Cullen (1994). "Una ley de conservación para el rendimiento de la generalización" (PDF) . En Willian, H.; Cohen, W. (eds.). Conferencia internacional sobre aprendizaje automático . San Francisco: Morgan Kaufmann. págs. 259–265.
^ ab Streeter, M. (2003) "Dos amplias clases de funciones para las que no se cumple el resultado de "no es gratis", Computación genética y evolutiva – GECCO 2003 , págs. 1418-1430.
^ abcdefg Igel, C., y Toussaint, M. (2004) "Un teorema de que no hay almuerzo gratis para distribuciones no uniformes de funciones objetivo", Journal of Mathematical Modelling and Algorithms 3 , págs. 313–322.
^ abcdefghi English, T. (2004) No More Lunch: Analysis of Sequential Search, Actas del Congreso IEEE de 2004 sobre Computación Evolutiva , págs. 227–234.
^ abc S. Droste, T. Jansen e I. Wegener. 2002. "Optimización con heurísticas de búsqueda aleatoria: el teorema (A)NFL, escenarios realistas y funciones difíciles", Theoretical Computer Science, vol. 287, núm. 1, págs. 131–144.
^ abcd Wolpert, DH y Macready, WG (2005) "Almuerzos gratis coevolutivos", IEEE Transactions on Evolutionary Computation , 9(6): 721–735
^ Un algoritmo de búsqueda también genera la secuencia de soluciones candidatas evaluadas, pero ese resultado no se utiliza en este artículo.
^ abcde English, TM (2000). "La optimización es fácil y el aprendizaje es difícil en la función típica". Actas del Congreso de Computación Evolutiva de 2000. CEC00 (Cat. No.00TH8512) . Vol. 2. págs. 924–931. doi :10.1109/CEC.2000.870741. ISBN 0-7803-6375-2.S2CID11295575 .
^ Lloyd, S. (2002). "Capacidad computacional del universo". Physical Review Letters . 88 (23): 237901–237904. arXiv : quant-ph/0110141 . Código Bibliográfico :2002PhRvL..88w7901L. doi :10.1103/PhysRevLett.88.237901. PMID 12059399. S2CID 6341263.
^ Li, M.; Vitányi, P. (1997). Introducción a la complejidad de Kolmogorov y sus aplicaciones (2ª ed.). Nueva York: Springer. ISBN 0-387-94868-6.
^ Woodward, John R. (2009). "Funciones computables e incomputables y algoritmos de búsqueda". IEEE International Conference on Intelligent Computing and Intelligent Systems, 2009. Vol. 1. IEEE. págs. 871–875. CiteSeerX 10.1.1.158.7782 .
^ La parte "sólo si" fue publicada por primera vez por Schumacher, CW (2000). Black Box Search: Framework and Methods (tesis doctoral). The University of Tennessee, Knoxville. ProQuest 304620040.
^ Rowe; Vose; Wright (2009). "Reinterpretando No Free Lunch". Computación evolutiva . 17 (1): 117–129. doi :10.1162/evco.2009.17.1.117. PMID 19207090. S2CID 6251842.
^ Ho, YC; Pepyne, DL (2002). "Explicación simple del teorema de no-almuerzo-gratis y sus implicaciones". Revista de teoría y aplicaciones de la optimización . 115 (3): 549–570. doi :10.1023/A:1021251113462. S2CID 123041865.
^ Wolpert, DH (2023). "Las implicaciones de los teoremas de que no hay almuerzo gratis para la metainducción". Revista de filosofía general de la ciencia . 1 : 67–82. doi :10.1109/4235.585893. S2CID 5553697.

Enlaces externos

http://www.no-free-lunch.org
Radcliffe y Surry, 1995, "Limitaciones fundamentales de los algoritmos de búsqueda: computación evolutiva en perspectiva" (un artículo publicado temprano sobre NFL, que apareció poco después del artículo ICML de Schaffer, que a su vez se basó en la preimpresión de Wolpert; disponible en varios formatos)
Publicaciones de la NFL de Thomas English
Publicaciones de la NFL de Christian Igel y Marc Toussaint
Publicaciones de Darrell Whitley sobre la NFL y el "almuerzo gratis"
Lista antigua de publicaciones de David Wolpert, William Macready y Mario Koeppen sobre optimización y búsqueda