stringtranslate.com

Ray Solomonoff

Ray Solomonoff (25 de julio de 1926 – 7 de diciembre de 2009) [1] [2] fue un matemático estadounidense que inventó la probabilidad algorítmica , [3] su Teoría general de inferencia inductiva (también conocida como Inferencia inductiva universal), [4] y fue un fundador de la teoría de la información algorítmica . [5] Fue un creador de la rama de la inteligencia artificial basada en el aprendizaje automático , la predicción y la probabilidad . Hizo circular el primer informe sobre aprendizaje automático no semántico en 1956. [6]

Solomonoff describió por primera vez la probabilidad algorítmica en 1960, publicando el teorema que dio origen a la complejidad de Kolmogorov y a la teoría de la información algorítmica . Describió por primera vez estos resultados en una conferencia en Caltech en 1960, [7] y en un informe, en febrero de 1960, "Un informe preliminar sobre una teoría general de la inferencia inductiva". [8] Aclaró estas ideas con más detalle en sus publicaciones de 1964, "Una teoría formal de la inferencia inductiva", Parte I [9] y Parte II. [10]

La probabilidad algorítmica es una combinación formalizada matemáticamente de la navaja de Occam , [11] [12] [13] [14] y el Principio de Explicaciones Múltiples. [15] Es un método independiente de la máquina para asignar un valor de probabilidad a cada hipótesis (algoritmo/programa) que explica una observación dada, donde la hipótesis más simple (el programa más corto) tiene la probabilidad más alta y las hipótesis cada vez más complejas reciben probabilidades cada vez más pequeñas.

Solomonoff fundó la teoría de la inferencia inductiva universal , que se basa en fundamentos filosóficos sólidos [4] y tiene su raíz en la complejidad de Kolmogorov y la teoría de la información algorítmica . La teoría utiliza la probabilidad algorítmica en un marco bayesiano . La prior universal se toma sobre la clase de todas las medidas computables; ninguna hipótesis tendrá una probabilidad cero. Esto permite utilizar la regla de Bayes (de causalidad) para predecir el próximo evento más probable en una serie de eventos, y qué tan probable será. [10]

Aunque es más conocido por la probabilidad algorítmica y su teoría general de inferencia inductiva , hizo muchos otros descubrimientos importantes a lo largo de su vida, la mayoría de ellos dirigidos a su objetivo en inteligencia artificial: desarrollar una máquina que pudiera resolver problemas difíciles utilizando métodos probabilísticos.

Historia de vida hasta 1964

Ray Solomonoff nació el 25 de julio de 1926 en Cleveland, Ohio , hijo de inmigrantes judíos rusos Phillip Julius y Sarah Mashman Solomonoff. Asistió a la Glenville High School, graduándose en 1944. En 1944 se unió a la Marina de los Estados Unidos como instructor de electrónica. De 1947 a 1951 asistió a la Universidad de Chicago , donde estudió con profesores como Rudolf Carnap y Enrico Fermi , y se graduó con una maestría en física en 1951.

Desde sus primeros años estuvo motivado por la pura alegría del descubrimiento matemático y por el deseo de explorar donde nadie había llegado antes. [ cita requerida ] A la edad de 16 años, en 1942, comenzó a buscar un método general para resolver problemas matemáticos.

En 1952 conoció a Marvin Minsky , John McCarthy y otros interesados ​​en la inteligencia artificial. En 1956 Minsky, McCarthy y otros organizaron la Conferencia de Investigación de Verano de Dartmouth sobre Inteligencia Artificial , donde Solomonoff fue uno de los 10 invitados originales (él, McCarthy y Minsky fueron los únicos que se quedaron todo el verano). Fue para este grupo que la Inteligencia Artificial fue nombrada por primera vez como ciencia. Las computadoras en ese momento podían resolver problemas matemáticos muy específicos, pero no mucho más. Solomonoff quería investigar una pregunta más grande, cómo hacer que las máquinas fueran más inteligentes en general y cómo las computadoras podrían usar la probabilidad para este propósito.

Historial laboral hasta 1964

Escribió tres artículos, dos de ellos con Anatol Rapoport , entre 1950 y 1952, [16] que se consideran los primeros análisis estadísticos de redes.

Fue uno de los 10 asistentes al Proyecto de Investigación de Verano de Dartmouth sobre Inteligencia Artificial de 1956. Escribió y distribuyó un informe entre los asistentes: "Una máquina de inferencia inductiva". [6] Consideraba el aprendizaje automático como probabilístico, con énfasis en la importancia de las secuencias de entrenamiento y en el uso de partes de soluciones anteriores a problemas para construir soluciones de prueba para nuevos problemas. Publicó una versión de sus hallazgos en 1957. [17] Estos fueron los primeros artículos que se escribieron sobre aprendizaje automático probabilístico.

A finales de la década de 1950, inventó los lenguajes probabilísticos y sus gramáticas asociadas. [18] Un lenguaje probabilístico asigna un valor de probabilidad a cada cadena posible.

La generalización del concepto de gramáticas probabilísticas lo llevó a descubrir en 1960 la Probabilidad Algorítmica y la Teoría General de la Inferencia Inductiva.

Antes de los años 1960, el método habitual para calcular la probabilidad se basaba en la frecuencia: tomando la relación de resultados favorables con el número total de ensayos. En su publicación de 1960 y, de forma más completa, en sus publicaciones de 1964, Solomonoff revisó seriamente esta definición de probabilidad. Llamó a esta nueva forma de probabilidad "probabilidad algorítmica" y mostró cómo utilizarla para la predicción en su teoría de la inferencia inductiva. Como parte de este trabajo, produjo la base filosófica para el uso de la regla de causalidad de Bayes para la predicción.

El teorema básico de lo que más tarde se denominó Complejidad de Kolmogorov formaba parte de su Teoría general. En 1960, escribió: “Consideremos una secuencia muy larga de símbolos... Consideraremos que dicha secuencia de símbolos es ‘simple’ y tiene una alta probabilidad a priori, si existe una descripción muy breve de esta secuencia –utilizando, por supuesto, algún tipo de método de descripción estipulado. Más exactamente, si utilizamos sólo los símbolos 0 y 1 para expresar nuestra descripción, asignaremos la probabilidad 2 N a una secuencia de símbolos si su descripción binaria más corta posible contiene N dígitos”. [19]

La probabilidad se refiere a una máquina de Turing universal particular . Solomonoff demostró en 1964 que la elección de la máquina, si bien podría añadir un factor constante, no cambiaría mucho las razones de probabilidad. Estas probabilidades son independientes de la máquina.

En 1965, el matemático ruso Kolmogorov publicó de forma independiente ideas similares. Cuando se enteró del trabajo de Solomonoff, lo reconoció y, durante varios años, el trabajo de Solomonoff fue más conocido en la Unión Soviética que en el mundo occidental. Sin embargo, el consenso general en la comunidad científica fue asociar este tipo de complejidad con Kolmogorov, que estaba más interesado en la aleatoriedad de una secuencia. La probabilidad algorítmica y la inducción universal (de Solomonoff) se asociaron con Solomonoff, que se centraba en la predicción, la extrapolación de una secuencia.

Más adelante, en la misma publicación de 1960, Solomonoff describe su extensión de la teoría del código más corto. Se trata de la probabilidad algorítmica. Afirma: "Parece que si hay varios métodos diferentes para describir una secuencia, a cada uno de estos métodos se le debe dar algún peso a la hora de determinar la probabilidad de esa secuencia". [20] A continuación, muestra cómo se puede utilizar esta idea para generar la distribución de probabilidad a priori universal y cómo permite el uso de la regla de Bayes en la inferencia inductiva. La inferencia inductiva, al sumar las predicciones de todos los modelos que describen una secuencia particular, utilizando pesos adecuados basados ​​en las longitudes de esos modelos, obtiene la distribución de probabilidad para la extensión de esa secuencia. Este método de predicción se conoce desde entonces como inducción de Solomonoff .

Amplió su teoría y publicó una serie de informes que condujeron a su publicación en 1964. Los artículos de 1964 ofrecen una descripción más detallada de la probabilidad algorítmica y la inducción de Solomonoff, presentando cinco modelos diferentes, incluido el modelo conocido popularmente como distribución universal.

Historial laboral de 1964 a 1984

Otros científicos que habían estado en la Conferencia de Verano de Dartmouth de 1956 (como Newell y Simon ) estaban desarrollando la rama de la Inteligencia Artificial que utilizaba máquinas gobernadas por reglas de si-entonces, basadas en hechos. Solomonoff estaba desarrollando la rama de la Inteligencia Artificial que se centraba en la probabilidad y la predicción; su visión específica de la IA describía máquinas que se regían por la distribución de probabilidad algorítmica. La máquina genera teorías junto con sus probabilidades asociadas, para resolver problemas y, a medida que se desarrollan nuevos problemas y teorías, actualiza la distribución de probabilidad de las teorías.

En 1968, encontró una prueba de la eficacia de la probabilidad algorítmica [21] , pero, debido principalmente a la falta de interés general en ese momento, no la publicó hasta diez años después. En su informe, publicó la prueba del teorema de convergencia.

En los años posteriores a su descubrimiento de la probabilidad algorítmica, se centró en cómo utilizar esta probabilidad y la inducción de Solomonoff en la predicción real y la resolución de problemas para la IA. También quería comprender las implicaciones más profundas de este sistema de probabilidad.

Un aspecto importante de la probabilidad algorítmica es que es completa e incalculable.

En el informe de 1968, demuestra que la probabilidad algorítmica es completa ; es decir, si hay alguna regularidad descriptible en un conjunto de datos, la probabilidad algorítmica acabará descubriendo esa regularidad, para lo que se necesitará una muestra relativamente pequeña de esos datos. La probabilidad algorítmica es el único sistema de probabilidad conocido que es completo de esta manera. Como consecuencia necesaria de su completitud, es incomputable . La incomputabilidad se debe a que algunos algoritmos (un subconjunto de los que son parcialmente recursivos) nunca pueden evaluarse por completo porque llevaría demasiado tiempo. Pero estos programas al menos serán reconocidos como posibles soluciones. Por otro lado, cualquier sistema computable es incompleto . Siempre habrá descripciones fuera del espacio de búsqueda de ese sistema, que nunca serán reconocidas o consideradas, incluso en una cantidad infinita de tiempo. Los modelos de predicción computables ocultan este hecho al ignorar dichos algoritmos.

En muchos de sus artículos describió cómo buscar soluciones a los problemas y en la década de 1970 y principios de 1980 desarrolló lo que consideró que era la mejor manera de actualizar la máquina.

Sin embargo, el uso de la probabilidad en la IA no tuvo un camino completamente fácil. En los primeros años de la IA, la relevancia de la probabilidad era problemática. Muchos en la comunidad de IA pensaban que la probabilidad no era utilizable en su trabajo. El área de reconocimiento de patrones sí utilizaba una forma de probabilidad, pero como no había una teoría de base amplia sobre cómo incorporar la probabilidad en ningún campo de la IA, la mayoría de los campos no la utilizaban en absoluto.

Sin embargo, hubo investigadores como Pearl y Peter Cheeseman que argumentaron que la probabilidad podría utilizarse en la inteligencia artificial.

Alrededor de 1984, en una reunión anual de la Asociación Estadounidense de Inteligencia Artificial (AAAI), se decidió que la probabilidad no era de ninguna manera relevante para la IA.

Se formó un grupo de protesta y al año siguiente se celebró un taller en la reunión de la AAAI dedicado a “Probabilidad e incertidumbre en la IA”. Este taller anual ha continuado hasta el día de hoy. [22]

Como parte de la protesta en el primer taller, Solomonoff presentó un artículo sobre cómo aplicar la distribución universal a los problemas de IA [23]. Esta fue una versión temprana del sistema que ha estado desarrollando desde entonces.

En ese informe, describió la técnica de búsqueda que había desarrollado. En los problemas de búsqueda, el mejor orden de búsqueda es el tiempo , donde es el tiempo necesario para probar el ensayo y es la probabilidad de éxito de ese ensayo. Lo llamó el "tamaño del salto conceptual" del problema. La técnica de búsqueda de Levin se aproxima a este orden, [24] y por eso Solomonoff, que había estudiado el trabajo de Levin, llamó a esta técnica de búsqueda Lsearch.

Historial laboral: los últimos años

En otros artículos, exploró cómo limitar el tiempo necesario para buscar soluciones, escribiendo sobre la búsqueda limitada por recursos. El espacio de búsqueda está limitado por el tiempo disponible o el costo computacional en lugar de recortar el espacio de búsqueda como se hace en otros métodos de predicción, como la Longitud Mínima de Descripción.

A lo largo de su carrera, Solomonoff se interesó por los posibles beneficios y peligros de la IA, tema que abordó en muchos de sus informes publicados. En 1985 analizó una probable evolución de la IA y dio una fórmula para predecir cuándo alcanzaría el «punto infinito». [25] Este trabajo forma parte de la historia del pensamiento sobre una posible singularidad tecnológica .

En un principio, los métodos de inducción algorítmica extrapolaban secuencias ordenadas de cadenas. Se necesitaban métodos para tratar otros tipos de datos.

Un informe de 1999, [26] generaliza la Distribución Universal y los teoremas de convergencia asociados a conjuntos desordenados de cadenas y un informe de 2008, [27] a pares desordenados de cadenas.

En 1997, [28] 2003 y 2006 demostró que la incomputabilidad y la subjetividad son características necesarias y deseables de cualquier sistema de inducción de alto rendimiento.

En 1970 formó su propia empresa, Oxbridge Research, y continuó sus investigaciones allí, excepto por períodos en otras instituciones como el MIT, la Universidad de Saarland en Alemania y el Instituto Dalle Molle para la Inteligencia Artificial en Lugano, Suiza. En 2003 fue el primer destinatario del Premio Kolmogorov del Centro de Investigación de Aprendizaje Informático de la Royal Holloway, Universidad de Londres, donde dio la conferencia inaugural Kolmogorov. Solomonoff fue recientemente profesor visitante en el CLRC.

En 2006, habló en AI@50 , "Dartmouth Artificial Intelligence Conference: the Next Fifty Years", que conmemoraba el quincuagésimo aniversario del grupo de estudio de verano original de Dartmouth. Solomonoff fue uno de los cinco participantes originales que asistieron.

En febrero de 2008, pronunció el discurso inaugural en la Conferencia "Tendencias actuales en la teoría y aplicación de la informática" (CTTACS), celebrada en la Universidad de Notre Dame en el Líbano. A continuación, impartió una serie de conferencias breves y comenzó a investigar sobre nuevas aplicaciones de la probabilidad algorítmica.

La probabilidad algorítmica y la inducción de Solomonoff tienen muchas ventajas para la inteligencia artificial. La probabilidad algorítmica proporciona estimaciones de probabilidad extremadamente precisas. Estas estimaciones se pueden revisar mediante un método fiable para que sigan siendo aceptables. Utiliza el tiempo de búsqueda de forma muy eficiente. Además de las estimaciones de probabilidad, la probabilidad algorítmica "tiene para la IA otro valor importante: su multiplicidad de modelos nos proporciona muchas formas diferentes de entender nuestros datos;

Una descripción de la vida y el trabajo de Solomonoff antes de 1997 se encuentra en "The Discovery of Algorithmic Probability", Journal of Computer and System Sciences, vol. 55, n.º 1, págs. 73-88, agosto de 1997. El artículo, así como la mayoría de los otros mencionados aquí, están disponibles en su sitio web en la página de publicaciones.

En un artículo publicado el año de su muerte, un artículo de una revista decía lo siguiente sobre Solomonoff: "Un científico muy convencional entiende su ciencia utilizando un único 'paradigma actual', la forma de comprensión que está más en boga en la actualidad. Un científico más creativo entiende su ciencia de muchas maneras y puede crear más fácilmente nuevas teorías, nuevas formas de comprensión, cuando el 'paradigma actual' ya no se ajusta a los datos actuales". [29]

Véase también

Referencias

  1. ^ "Ray Solomonoff, 1926–2009 « La Tercera Conferencia sobre Inteligencia Artificial General». Archivado desde el original el 2011-08-07 . Consultado el 2009-12-12 .
  2. ^ Markoff, John (9 de enero de 2010). «Ray Solomonoff, pionero en inteligencia artificial, muere a los 83 años». The New York Times . Consultado el 11 de enero de 2009 .
  3. ^ Vitanyi, Paul; Legg, Shane; Hutter, Marcus (2007). "Probabilidad algorítmica". Scholarpedia . 2 (8): 2572. Bibcode :2007SchpJ...2.2572H. doi : 10.4249/scholarpedia.2572 . hdl : 1885/15013 .
  4. ^ de Samuel Rathmanner y Marcus Hutter . Un tratado filosófico de inducción universal. Entropy, 13(6):1076–1136, 2011.
  5. ^ Vitanyi, P. "Obituario: Ray Solomonoff, padre fundador de la teoría de la información algorítmica"
  6. ^ ab "An Inductive Inference Machine", Dartmouth College, NH, versión del 14 de agosto de 1956. (copia escaneada en formato pdf del original)
  7. ^ Artículo de la conferencia sobre "Sistemas cerebrales y computadoras", Instituto Tecnológico de California, 8-11 de febrero de 1960, citado en "Una teoría formal de la inferencia inductiva", Parte 1, 1964, pág. 1.
  8. ^ Solomonoff, R., "Un informe preliminar sobre una teoría general de la inferencia inductiva", Informe V-131, Zator Co., Cambridge, Ma. 4 de febrero de 1960, revisión, noviembre de 1960.
  9. ^ Solomonoff, R., "Una teoría formal de la inferencia inductiva, parte I" Información y control , vol. 7, n.º 1, págs. 1–22, marzo de 1964.
  10. ^ ab Solomonoff, R., "Una teoría formal de la inferencia inductiva, parte II" Información y control , vol. 7, n.º 2, págs. 224-254, junio de 1964.
  11. ^ Inducción: De Kolmogorov y Solomonoff a De Finetti y de regreso a Kolmogorov JJ McCall – Metroeconomica, 2004 – Wiley Online Library.
  12. ^ Fundamentos de la navaja de Occam y la parsimonia en el aprendizaje de ricoh.com D Stork – Taller NIPS 2001, 2001
  13. ^ La navaja de Occam como base formal para una teoría física de arxiv.org AN Soklakov – Fundamentos de Física Cartas, 2002 – Springer
  14. ^ Más allá del Test de Turing de uclm.es J HERNANDEZ-ORALLO – Revista de Lógica, Lenguaje y …, 2000 – dsi.uclm.es
  15. ^ Ming Li y Paul Vitanyi, Introducción a la complejidad de Kolmogorov y sus aplicaciones. Springer-Verlag, NY, 2008, pág. 339 y siguientes.
  16. ^ "Un método exacto para el cálculo de la conectividad de redes aleatorias", Boletín de Biofísica Matemática , Vol 14, pág. 153, 1952.
  17. ^ Una máquina de inferencia inductiva", IRE Convention Record, Sección sobre teoría de la información, Parte 2, págs. 56-62.(versión en pdf)
  18. ^ "Un informe de progreso sobre máquinas para aprender a traducir idiomas y recuperar información", Advances in Documentation and Library Science, vol. III, pt. 2, págs. 941–953. (Actas de una conferencia celebrada en septiembre de 1959.)
  19. ^ "Un informe preliminar sobre una teoría general de la inferencia inductiva", 1960, pág. 1
  20. ^ "Un informe preliminar sobre una teoría general de la inferencia inductiva", 1960, pág. 17
  21. ^ "Sistemas de inducción basados ​​en la complejidad, comparaciones y teoremas de convergencia" IEEE Trans. on Information Theory Vol. IT-24, No. 4, pp.422–432, julio de 1978. (versión en pdf)
  22. ^ "La distribución universal y el aprendizaje automático", Conferencia Kolmogorov, 27 de febrero de 2003, Royal Holloway, Universidad de Londres. The Computer Journal, vol. 46, n.º 6, 2003.
  23. ^ "La aplicación de la probabilidad algorítmica a problemas en inteligencia artificial", en Kanal y Lemmer (Eds.), Incertidumbre en inteligencia artificial, Elsevier Science Publishers BV, pp 473–491, 1986.
  24. ^ Levin, LA, "Problemas de búsqueda universal", en Problemy Peredaci Informacii 9, págs. 115-116, 1973
  25. ^ "La escala temporal de la inteligencia artificial: reflexiones sobre los efectos sociales", Human Systems Management, vol. 5, págs. 149-153, 1985 (versión en pdf)
  26. ^ "Dos tipos de inducción probabilística", The Computer Journal, vol. 42, n.º 4, 1999. (versión en pdf)
  27. ^ "Tres tipos de inducción probabilística, distribuciones universales y teoremas de convergencia" 2008. (versión pdf)
  28. ^ "El descubrimiento de la probabilidad de algoritmos", Journal of Computer and System Sciences, vol. 55, n.º 1, págs. 73-88 (versión en pdf)
  29. ^ "Probabilidad algorítmica, teoría y aplicaciones", en Teoría de la información y aprendizaje estadístico, Eds Frank Emmert-Streib y Matthias Dehmer, Springer Science and Business Media, 2009, pág. 11

Enlaces externos