Ray Solomonoff (25 de julio de 1926 – 7 de diciembre de 2009) [1] [2] fue un matemático estadounidense que inventó la probabilidad algorítmica , [3] su Teoría General de la Inferencia Inductiva (también conocida como Inferencia Inductiva Universal), [4] y Fue uno de los fundadores de la teoría algorítmica de la información . [5] Fue uno de los creadores de la rama de la inteligencia artificial basada en el aprendizaje automático , la predicción y la probabilidad . Distribuyó el primer informe sobre aprendizaje automático no semántico en 1956. [6]
Solomonoff describió por primera vez la probabilidad algorítmica en 1960, publicando el teorema que lanzó la teoría de la complejidad y la información algorítmica de Kolmogorov . Describió estos resultados por primera vez en una conferencia en Caltech en 1960, [7] y en un informe de febrero de 1960, "Un informe preliminar sobre una teoría general de la inferencia inductiva". [8] Aclaró estas ideas más completamente en sus publicaciones de 1964, "Una teoría formal de la inferencia inductiva", Parte I [9] y Parte II. [10]
La probabilidad algorítmica es una combinación matemáticamente formalizada de la navaja de Occam , [11] [12] [13] [14] y el Principio de Explicaciones Múltiples. [15] Es un método independiente de la máquina para asignar un valor de probabilidad a cada hipótesis (algoritmo/programa) que explica una observación dada, donde la hipótesis más simple (el programa más corto) tiene la probabilidad más alta y las hipótesis cada vez más complejas reciben probabilidades cada vez más pequeñas. .
Solomonoff fundó la teoría de la inferencia inductiva universal , que se basa en sólidos fundamentos filosóficos [4] y tiene sus raíces en la complejidad de Kolmogorov y la teoría algorítmica de la información . La teoría utiliza probabilidad algorítmica en un marco bayesiano . El prior universal se aplica a la clase de todas las medidas computables; ninguna hipótesis tendrá probabilidad cero. Esto permite utilizar la regla de Bayes (de causalidad) para predecir el próximo evento más probable en una serie de eventos, y qué tan probable será. [10]
Aunque es más conocido por la probabilidad algorítmica y su teoría general de la inferencia inductiva , hizo muchos otros descubrimientos importantes a lo largo de su vida, la mayoría de ellos dirigidos a su objetivo en la inteligencia artificial: desarrollar una máquina que pudiera resolver problemas difíciles utilizando métodos probabilísticos.
Ray Solomonoff nació el 25 de julio de 1926 en Cleveland, Ohio , hijo de inmigrantes judíos rusos Phillip Julius y Sarah Mashman Solomonoff. Asistió a Glenville High School y se graduó en 1944. En 1944 se unió a la Marina de los Estados Unidos como instructor en electrónica. De 1947 a 1951 asistió a la Universidad de Chicago , donde estudió con profesores como Rudolf Carnap y Enrico Fermi , y se graduó con una maestría en Física en 1951.
Desde sus primeros años lo motivó la pura alegría del descubrimiento matemático y el deseo de explorar donde nadie había ido antes. [ cita necesaria ] A la edad de 16 años, en 1942, comenzó a buscar un método general para resolver problemas matemáticos.
En 1952 conoció a Marvin Minsky , John McCarthy y otros interesados en la inteligencia artificial. En 1956, Minsky, McCarthy y otros organizaron la Conferencia de Investigación de Verano sobre Inteligencia Artificial de Dartmouth , donde Solomonoff fue uno de los 10 invitados originales; él, McCarthy y Minsky fueron los únicos que permanecieron durante todo el verano. Fue por este grupo que se nombró por primera vez a la Inteligencia Artificial como ciencia. Las computadoras de aquella época podían resolver problemas matemáticos muy concretos, pero no mucho más. Solomonoff quería abordar una cuestión más amplia: cómo hacer que las máquinas sean más inteligentes en general y cómo las computadoras podrían utilizar la probabilidad para este propósito.
Escribió tres artículos, dos con Anatol Rapoport , en 1950-52, [16] que se consideran los primeros análisis estadísticos de redes.
Fue uno de los 10 asistentes al Proyecto de investigación de verano sobre inteligencia artificial de Dartmouth de 1956 . Escribió y hizo circular un informe entre los asistentes: "Una máquina de inferencia inductiva". [6] Consideraba el aprendizaje automático como probabilístico, con énfasis en la importancia de las secuencias de entrenamiento y en el uso de partes de soluciones anteriores a problemas para construir soluciones de prueba para nuevos problemas. Publicó una versión de sus hallazgos en 1957. [17] Estos fueron los primeros artículos escritos sobre aprendizaje automático probabilístico.
A finales de la década de 1950, inventó los lenguajes probabilísticos y sus gramáticas asociadas. [18] Un lenguaje probabilístico asigna un valor de probabilidad a cada cadena posible.
La generalización del concepto de gramáticas probabilísticas lo llevó al descubrimiento en 1960 de la probabilidad algorítmica y la teoría general de la inferencia inductiva.
Antes de la década de 1960, el método habitual para calcular la probabilidad se basaba en la frecuencia: tomando la relación entre los resultados favorables y el número total de ensayos. En su publicación de 1960 y, más completamente, en sus publicaciones de 1964, Solomonoff revisó seriamente esta definición de probabilidad. Llamó a esta nueva forma de probabilidad "Probabilidad algorítmica" y mostró cómo utilizarla para la predicción en su teoría de la inferencia inductiva. Como parte de este trabajo, produjo la base filosófica para el uso de la regla de causalidad de Bayes para la predicción.
El teorema básico de lo que más tarde se llamó Complejidad de Kolmogorov formó parte de su Teoría General. En un escrito de 1960, comienza: "Consideremos una secuencia muy larga de símbolos... Consideraremos que dicha secuencia de símbolos es 'simple' y tiene una alta probabilidad a priori, si existe una descripción muy breve de esta secuencia. usando, por supuesto, algún tipo de método de descripción estipulado. Más exactamente, si usamos sólo los símbolos 0 y 1 para expresar nuestra descripción, asignaremos la probabilidad 2 − N a una secuencia de símbolos si su descripción binaria más corta posible contiene N. dígitos." [19]
La probabilidad es con referencia a una máquina de Turing universal particular . Solomonoff demostró, y en 1964 demostró, que la elección de la máquina, si bien podía añadir un factor constante, no cambiaría mucho los ratios de probabilidad. Estas probabilidades son independientes de la máquina.
En 1965, el matemático ruso Kolmogorov publicó de forma independiente ideas similares. Cuando conoció el trabajo de Solomonoff, lo reconoció y, durante varios años, el trabajo de Solomonoff fue más conocido en la Unión Soviética que en el mundo occidental. El consenso general en la comunidad científica, sin embargo, fue asociar este tipo de complejidad con Kolmogorov, quien estaba más preocupado por la aleatoriedad de una secuencia. La probabilidad algorítmica y la inducción universal (Solomonoff) se asociaron con Solomonoff, que se centraba en la predicción: la extrapolación de una secuencia.
Más tarde, en la misma publicación de 1960, Solomonoff describe su extensión de la teoría del código más corto. Esta es la probabilidad algorítmica. Afirma: "Parecería que si hay varios métodos diferentes para describir una secuencia, a cada uno de estos métodos se le debería dar cierta importancia para determinar la probabilidad de esa secuencia". [20] Luego muestra cómo esta idea se puede utilizar para generar la distribución de probabilidad universal a priori y cómo permite el uso de la regla de Bayes en la inferencia inductiva. La inferencia inductiva, al sumar las predicciones de todos los modelos que describen una secuencia particular, utilizando ponderaciones adecuadas basadas en las longitudes de esos modelos, obtiene la distribución de probabilidad para la extensión de esa secuencia. Desde entonces, este método de predicción se conoce como inducción de Solomonoff .
Amplió su teoría, publicando una serie de informes que condujeron a las publicaciones de 1964. Los artículos de 1964 dan una descripción más detallada de la probabilidad algorítmica y la inducción de Solomonoff, presentando cinco modelos diferentes, incluido el modelo popularmente llamado Distribución Universal.
Otros científicos que habían estado en la Conferencia de Verano de Dartmouth de 1956 (como Newell y Simon ) estaban desarrollando la rama de la Inteligencia Artificial que utilizaba máquinas regidas por reglas si-entonces, basadas en hechos. Solomonoff estaba desarrollando la rama de la Inteligencia Artificial que se centraba en la probabilidad y la predicción; su visión específica de la IA describía máquinas que se regían por la distribución de probabilidad algorítmica. La máquina genera teorías junto con sus probabilidades asociadas, para resolver problemas y, a medida que se desarrollan nuevos problemas y teorías, actualiza la distribución de probabilidad de las teorías.
En 1968 encontró una prueba de la eficacia de la probabilidad algorítmica, [21] pero, principalmente debido a la falta de interés general en ese momento, no la publicó hasta 10 años después. En su informe publicó la prueba del teorema de convergencia.
En los años posteriores a su descubrimiento de la probabilidad algorítmica, se centró en cómo utilizar esta probabilidad y la inducción de Solomonoff en la predicción real y la resolución de problemas para la IA. También quería comprender las implicaciones más profundas de este sistema de probabilidad.
Un aspecto importante de la probabilidad algorítmica es que es completa e incalculable.
En el informe de 1968 muestra que la probabilidad algorítmica es completa ; es decir, si hay alguna regularidad descriptible en un conjunto de datos, la probabilidad algorítmica eventualmente descubrirá esa regularidad, lo que requerirá una muestra relativamente pequeña de esos datos. La probabilidad algorítmica es el único sistema de probabilidad que se sabe que es completo de esta manera. Como consecuencia necesaria de su integridad es incomputable . La incomputabilidad se debe a que algunos algoritmos (un subconjunto de aquellos que son parcialmente recursivos) nunca pueden evaluarse completamente porque llevarían demasiado tiempo. Pero estos programas al menos serán reconocidos como posibles soluciones. Por otra parte, cualquier sistema computable es incompleto . Siempre habrá descripciones fuera del espacio de búsqueda de ese sistema, que nunca serán reconocidas ni consideradas, ni siquiera en un tiempo infinito. Los modelos de predicción computables ocultan este hecho al ignorar dichos algoritmos.
En muchos de sus artículos describió cómo buscar soluciones a los problemas y en los años 1970 y principios de los 1980 desarrolló lo que consideró era la mejor manera de actualizar la máquina.
El uso de la probabilidad en la IA, sin embargo, no tuvo un camino completamente fácil. En los primeros años de la IA, la relevancia de la probabilidad era problemática. Muchos miembros de la comunidad de IA sintieron que la probabilidad no era utilizable en su trabajo. El área de reconocimiento de patrones utilizó una forma de probabilidad, pero debido a que no existía una teoría de base amplia sobre cómo incorporar la probabilidad en ningún campo de la IA, la mayoría de los campos no la usaron en absoluto.
Sin embargo, hubo investigadores como Pearl y Peter Cheeseman que argumentaron que la probabilidad podría usarse en la inteligencia artificial.
Alrededor de 1984, en una reunión anual de la Asociación Estadounidense para la Inteligencia Artificial (AAAI), se decidió que la probabilidad no era de ninguna manera relevante para la IA.
Se formó un grupo de protesta y al año siguiente hubo un taller en la reunión de la AAAI dedicado a "Probabilidad e incertidumbre en la IA". Este taller anual ha continuado hasta el día de hoy. [22]
Como parte de la protesta en el primer taller, Solomonoff presentó un documento sobre cómo aplicar la distribución universal a problemas en IA [23]. Esta fue una versión temprana del sistema que ha estado desarrollando desde entonces.
En ese informe, describió la técnica de búsqueda que había desarrollado. En problemas de búsqueda, el mejor orden de búsqueda es el tiempo , donde es el tiempo necesario para probar la prueba y es la probabilidad de éxito de esa prueba. Llamó a esto el "tamaño del salto conceptual" del problema. La técnica de búsqueda de Levin se aproxima a este orden, [24] y por eso Solomonoff, que había estudiado el trabajo de Levin, llamó a esta técnica de búsqueda Lsearch.
En otros artículos exploró cómo limitar el tiempo necesario para buscar soluciones, escribiendo sobre la búsqueda limitada por recursos. El espacio de búsqueda está limitado por el tiempo disponible o el costo de cálculo en lugar de recortar el espacio de búsqueda como se hace en otros métodos de predicción, como la longitud mínima de descripción.
A lo largo de su carrera, Solomonoff estuvo preocupado por los posibles beneficios y peligros de la IA y los analizó en muchos de sus informes publicados. En 1985 analizó una probable evolución de la IA, dando una fórmula que predecía cuándo alcanzaría el "Punto Infinito". [25] Este trabajo forma parte de la historia del pensamiento sobre una posible singularidad tecnológica .
Originalmente, los métodos de inducción algorítmica extrapolaban secuencias ordenadas de cadenas. Se necesitaban métodos para tratar otros tipos de datos.
Un informe de 1999 [26] generaliza la distribución universal y los teoremas de convergencia asociados a conjuntos desordenados de cadenas y un informe de 2008 [27] a pares desordenados de cadenas.
En 1997, [28] 2003 y 2006 demostró que la incomputabilidad y la subjetividad son características necesarias y deseables de cualquier sistema de inducción de alto rendimiento.
En 1970 formó su propia empresa, Oxbridge Research, y continuó su investigación allí, excepto durante períodos en otras instituciones como el MIT, la Universidad de Saarland en Alemania y el Instituto Dalle Molle de Inteligencia Artificial en Lugano, Suiza. En 2003 fue el primer ganador del Premio Kolmogorov otorgado por el Centro de Investigación sobre Aprendizaje Informático de la Royal Holloway de la Universidad de Londres, donde pronunció la Conferencia Kolmogorov inaugural. Solomonoff fue recientemente profesor visitante en el CLRC.
En 2006 habló en AI @ 50 , "Conferencia de Inteligencia Artificial de Dartmouth: los próximos cincuenta años", en conmemoración del quincuagésimo aniversario del grupo de estudio de verano original de Dartmouth. Solomonoff fue uno de los cinco participantes originales que asistieron.
En febrero de 2008, pronunció el discurso de apertura en la Conferencia "Tendencias actuales en la teoría y aplicación de las ciencias de la computación" (CTTACS), celebrada en la Universidad de Notre Dame en Líbano. Siguió esto con una breve serie de conferencias y comenzó a investigar nuevas aplicaciones de la probabilidad algorítmica.
La probabilidad algorítmica y la inducción de Solomonoff tienen muchas ventajas para la inteligencia artificial. La probabilidad algorítmica proporciona estimaciones de probabilidad extremadamente precisas. Estas estimaciones pueden revisarse mediante un método fiable para que sigan siendo aceptables. Utiliza el tiempo de búsqueda de una manera muy eficiente. Además de las estimaciones de probabilidad, la probabilidad algorítmica "tiene para la IA otro valor importante: su multiplicidad de modelos nos brinda muchas formas diferentes de entender nuestros datos;
Una descripción de la vida y obra de Solomonoff antes de 1997 se encuentra en "The Discovery of Algorithmic Probability", Journal of Computer and System Sciences, Vol 55, No. 1, pp 73–88, agosto de 1997. El artículo, así como la mayoría de los demás aquí mencionados, están disponibles en su sitio web en la página de publicaciones.
En un artículo publicado el año de su muerte, un artículo de revista decía de Solomonoff: "Un científico muy convencional entiende su ciencia utilizando un único 'paradigma actual', la forma de comprensión que está más de moda en la actualidad. Un hombre más creativo "El científico entiende su ciencia de muchas maneras y puede crear más fácilmente nuevas teorías, nuevas formas de comprensión, cuando el 'paradigma actual' ya no se ajusta a los datos actuales". [29]