stringtranslate.com

Ray Solomonoff

Ray Solomonoff (25 de julio de 1926 – 7 de diciembre de 2009) [1] [2] fue un matemático estadounidense que inventó la probabilidad algorítmica , [3] su Teoría General de la Inferencia Inductiva (también conocida como Inferencia Inductiva Universal), [4] y Fue uno de los fundadores de la teoría algorítmica de la información . [5] Fue uno de los creadores de la rama de la inteligencia artificial basada en el aprendizaje automático , la predicción y la probabilidad . Distribuyó el primer informe sobre aprendizaje automático no semántico en 1956. [6]

Solomonoff describió por primera vez la probabilidad algorítmica en 1960, publicando el teorema que lanzó la teoría de la complejidad y la información algorítmica de Kolmogorov . Describió estos resultados por primera vez en una conferencia en Caltech en 1960, [7] y en un informe de febrero de 1960, "Un informe preliminar sobre una teoría general de la inferencia inductiva". [8] Aclaró estas ideas más completamente en sus publicaciones de 1964, "Una teoría formal de la inferencia inductiva", Parte I [9] y Parte II. [10]

La probabilidad algorítmica es una combinación matemáticamente formalizada de la navaja de Occam , [11] [12] [13] [14] y el Principio de Explicaciones Múltiples. [15] Es un método independiente de la máquina para asignar un valor de probabilidad a cada hipótesis (algoritmo/programa) que explica una observación dada, donde la hipótesis más simple (el programa más corto) tiene la probabilidad más alta y las hipótesis cada vez más complejas reciben probabilidades cada vez más pequeñas. .

Solomonoff fundó la teoría de la inferencia inductiva universal , que se basa en sólidos fundamentos filosóficos [4] y tiene sus raíces en la complejidad de Kolmogorov y la teoría algorítmica de la información . La teoría utiliza probabilidad algorítmica en un marco bayesiano . El prior universal se aplica a la clase de todas las medidas computables; ninguna hipótesis tendrá probabilidad cero. Esto permite utilizar la regla de Bayes (de causalidad) para predecir el próximo evento más probable en una serie de eventos, y qué tan probable será. [10]

Aunque es más conocido por la probabilidad algorítmica y su teoría general de la inferencia inductiva , hizo muchos otros descubrimientos importantes a lo largo de su vida, la mayoría de ellos dirigidos a su objetivo en la inteligencia artificial: desarrollar una máquina que pudiera resolver problemas difíciles utilizando métodos probabilísticos.

Historia de vida hasta 1964

Ray Solomonoff nació el 25 de julio de 1926 en Cleveland, Ohio , hijo de inmigrantes judíos rusos Phillip Julius y Sarah Mashman Solomonoff. Asistió a Glenville High School y se graduó en 1944. En 1944 se unió a la Marina de los Estados Unidos como instructor en electrónica. De 1947 a 1951 asistió a la Universidad de Chicago , donde estudió con profesores como Rudolf Carnap y Enrico Fermi , y se graduó con una maestría en Física en 1951.

Desde sus primeros años lo motivó la pura alegría del descubrimiento matemático y el deseo de explorar donde nadie había ido antes. [ cita necesaria ] A la edad de 16 años, en 1942, comenzó a buscar un método general para resolver problemas matemáticos.

En 1952 conoció a Marvin Minsky , John McCarthy y otros interesados ​​en la inteligencia artificial. En 1956, Minsky, McCarthy y otros organizaron la Conferencia de Investigación de Verano sobre Inteligencia Artificial de Dartmouth , donde Solomonoff fue uno de los 10 invitados originales; él, McCarthy y Minsky fueron los únicos que permanecieron durante todo el verano. Fue por este grupo que se nombró por primera vez a la Inteligencia Artificial como ciencia. Las computadoras de aquella época podían resolver problemas matemáticos muy concretos, pero no mucho más. Solomonoff quería abordar una cuestión más amplia: cómo hacer que las máquinas sean más inteligentes en general y cómo las computadoras podrían utilizar la probabilidad para este propósito.

Historia laboral hasta 1964

Escribió tres artículos, dos con Anatol Rapoport , en 1950-52, [16] que se consideran los primeros análisis estadísticos de redes.

Fue uno de los 10 asistentes al Proyecto de investigación de verano sobre inteligencia artificial de Dartmouth de 1956 . Escribió y hizo circular un informe entre los asistentes: "Una máquina de inferencia inductiva". [6] Consideraba el aprendizaje automático como probabilístico, con énfasis en la importancia de las secuencias de entrenamiento y en el uso de partes de soluciones anteriores a problemas para construir soluciones de prueba para nuevos problemas. Publicó una versión de sus hallazgos en 1957. [17] Estos fueron los primeros artículos escritos sobre aprendizaje automático probabilístico.

A finales de la década de 1950, inventó los lenguajes probabilísticos y sus gramáticas asociadas. [18] Un lenguaje probabilístico asigna un valor de probabilidad a cada cadena posible.

La generalización del concepto de gramáticas probabilísticas lo llevó al descubrimiento en 1960 de la probabilidad algorítmica y la teoría general de la inferencia inductiva.

Antes de la década de 1960, el método habitual para calcular la probabilidad se basaba en la frecuencia: tomando la relación entre los resultados favorables y el número total de ensayos. En su publicación de 1960 y, más completamente, en sus publicaciones de 1964, Solomonoff revisó seriamente esta definición de probabilidad. Llamó a esta nueva forma de probabilidad "Probabilidad algorítmica" y mostró cómo utilizarla para la predicción en su teoría de la inferencia inductiva. Como parte de este trabajo, produjo la base filosófica para el uso de la regla de causalidad de Bayes para la predicción.

El teorema básico de lo que más tarde se llamó Complejidad de Kolmogorov formó parte de su Teoría General. En un escrito de 1960, comienza: "Consideremos una secuencia muy larga de símbolos... Consideraremos que dicha secuencia de símbolos es 'simple' y tiene una alta probabilidad a priori, si existe una descripción muy breve de esta secuencia. usando, por supuesto, algún tipo de método de descripción estipulado. Más exactamente, si usamos sólo los símbolos 0 y 1 para expresar nuestra descripción, asignaremos la probabilidad 2 N a una secuencia de símbolos si su descripción binaria más corta posible contiene N. dígitos." [19]

La probabilidad es con referencia a una máquina de Turing universal particular . Solomonoff demostró, y en 1964 demostró, que la elección de la máquina, si bien podía añadir un factor constante, no cambiaría mucho los ratios de probabilidad. Estas probabilidades son independientes de la máquina.

En 1965, el matemático ruso Kolmogorov publicó de forma independiente ideas similares. Cuando conoció el trabajo de Solomonoff, lo reconoció y, durante varios años, el trabajo de Solomonoff fue más conocido en la Unión Soviética que en el mundo occidental. El consenso general en la comunidad científica, sin embargo, fue asociar este tipo de complejidad con Kolmogorov, quien estaba más preocupado por la aleatoriedad de una secuencia. La probabilidad algorítmica y la inducción universal (Solomonoff) se asociaron con Solomonoff, que se centraba en la predicción: la extrapolación de una secuencia.

Más tarde, en la misma publicación de 1960, Solomonoff describe su extensión de la teoría del código más corto. Esta es la probabilidad algorítmica. Afirma: "Parecería que si hay varios métodos diferentes para describir una secuencia, a cada uno de estos métodos se le debería dar cierta importancia para determinar la probabilidad de esa secuencia". [20] Luego muestra cómo esta idea se puede utilizar para generar la distribución de probabilidad universal a priori y cómo permite el uso de la regla de Bayes en la inferencia inductiva. La inferencia inductiva, al sumar las predicciones de todos los modelos que describen una secuencia particular, utilizando ponderaciones adecuadas basadas en las longitudes de esos modelos, obtiene la distribución de probabilidad para la extensión de esa secuencia. Desde entonces, este método de predicción se conoce como inducción de Solomonoff .

Amplió su teoría, publicando una serie de informes que condujeron a las publicaciones de 1964. Los artículos de 1964 dan una descripción más detallada de la probabilidad algorítmica y la inducción de Solomonoff, presentando cinco modelos diferentes, incluido el modelo popularmente llamado Distribución Universal.

Historia laboral de 1964 a 1984

Otros científicos que habían estado en la Conferencia de Verano de Dartmouth de 1956 (como Newell y Simon ) estaban desarrollando la rama de la Inteligencia Artificial que utilizaba máquinas regidas por reglas si-entonces, basadas en hechos. Solomonoff estaba desarrollando la rama de la Inteligencia Artificial que se centraba en la probabilidad y la predicción; su visión específica de la IA describía máquinas que se regían por la distribución de probabilidad algorítmica. La máquina genera teorías junto con sus probabilidades asociadas, para resolver problemas y, a medida que se desarrollan nuevos problemas y teorías, actualiza la distribución de probabilidad de las teorías.

En 1968 encontró una prueba de la eficacia de la probabilidad algorítmica, [21] pero, principalmente debido a la falta de interés general en ese momento, no la publicó hasta 10 años después. En su informe publicó la prueba del teorema de convergencia.

En los años posteriores a su descubrimiento de la probabilidad algorítmica, se centró en cómo utilizar esta probabilidad y la inducción de Solomonoff en la predicción real y la resolución de problemas para la IA. También quería comprender las implicaciones más profundas de este sistema de probabilidad.

Un aspecto importante de la probabilidad algorítmica es que es completa e incalculable.

En el informe de 1968 muestra que la probabilidad algorítmica es completa ; es decir, si hay alguna regularidad descriptible en un conjunto de datos, la probabilidad algorítmica eventualmente descubrirá esa regularidad, lo que requerirá una muestra relativamente pequeña de esos datos. La probabilidad algorítmica es el único sistema de probabilidad que se sabe que es completo de esta manera. Como consecuencia necesaria de su integridad es incomputable . La incomputabilidad se debe a que algunos algoritmos (un subconjunto de aquellos que son parcialmente recursivos) nunca pueden evaluarse completamente porque llevarían demasiado tiempo. Pero estos programas al menos serán reconocidos como posibles soluciones. Por otra parte, cualquier sistema computable es incompleto . Siempre habrá descripciones fuera del espacio de búsqueda de ese sistema, que nunca serán reconocidas ni consideradas, ni siquiera en un tiempo infinito. Los modelos de predicción computables ocultan este hecho al ignorar dichos algoritmos.

En muchos de sus artículos describió cómo buscar soluciones a los problemas y en los años 1970 y principios de los 1980 desarrolló lo que consideró era la mejor manera de actualizar la máquina.

El uso de la probabilidad en la IA, sin embargo, no tuvo un camino completamente fácil. En los primeros años de la IA, la relevancia de la probabilidad era problemática. Muchos miembros de la comunidad de IA sintieron que la probabilidad no era utilizable en su trabajo. El área de reconocimiento de patrones utilizó una forma de probabilidad, pero debido a que no existía una teoría de base amplia sobre cómo incorporar la probabilidad en ningún campo de la IA, la mayoría de los campos no la usaron en absoluto.

Sin embargo, hubo investigadores como Pearl y Peter Cheeseman que argumentaron que la probabilidad podría usarse en la inteligencia artificial.

Alrededor de 1984, en una reunión anual de la Asociación Estadounidense para la Inteligencia Artificial (AAAI), se decidió que la probabilidad no era de ninguna manera relevante para la IA.

Se formó un grupo de protesta y al año siguiente hubo un taller en la reunión de la AAAI dedicado a "Probabilidad e incertidumbre en la IA". Este taller anual ha continuado hasta el día de hoy. [22]

Como parte de la protesta en el primer taller, Solomonoff presentó un documento sobre cómo aplicar la distribución universal a problemas en IA [23]. Esta fue una versión temprana del sistema que ha estado desarrollando desde entonces.

En ese informe, describió la técnica de búsqueda que había desarrollado. En problemas de búsqueda, el mejor orden de búsqueda es el tiempo , donde es el tiempo necesario para probar la prueba y es la probabilidad de éxito de esa prueba. Llamó a esto el "tamaño del salto conceptual" del problema. La técnica de búsqueda de Levin se aproxima a este orden, [24] y por eso Solomonoff, que había estudiado el trabajo de Levin, llamó a esta técnica de búsqueda Lsearch.

Historial laboral: los últimos años

En otros artículos exploró cómo limitar el tiempo necesario para buscar soluciones, escribiendo sobre la búsqueda limitada por recursos. El espacio de búsqueda está limitado por el tiempo disponible o el costo de cálculo en lugar de recortar el espacio de búsqueda como se hace en otros métodos de predicción, como la longitud mínima de descripción.

A lo largo de su carrera, Solomonoff estuvo preocupado por los posibles beneficios y peligros de la IA y los analizó en muchos de sus informes publicados. En 1985 analizó una probable evolución de la IA, dando una fórmula que predecía cuándo alcanzaría el "Punto Infinito". [25] Este trabajo forma parte de la historia del pensamiento sobre una posible singularidad tecnológica .

Originalmente, los métodos de inducción algorítmica extrapolaban secuencias ordenadas de cadenas. Se necesitaban métodos para tratar otros tipos de datos.

Un informe de 1999 [26] generaliza la distribución universal y los teoremas de convergencia asociados a conjuntos desordenados de cadenas y un informe de 2008 [27] a pares desordenados de cadenas.

En 1997, [28] 2003 y 2006 demostró que la incomputabilidad y la subjetividad son características necesarias y deseables de cualquier sistema de inducción de alto rendimiento.

En 1970 formó su propia empresa, Oxbridge Research, y continuó su investigación allí, excepto durante períodos en otras instituciones como el MIT, la Universidad de Saarland en Alemania y el Instituto Dalle Molle de Inteligencia Artificial en Lugano, Suiza. En 2003 fue el primer ganador del Premio Kolmogorov otorgado por el Centro de Investigación sobre Aprendizaje Informático de la Royal Holloway de la Universidad de Londres, donde pronunció la Conferencia Kolmogorov inaugural. Solomonoff fue recientemente profesor visitante en el CLRC.

En 2006 habló en AI @ 50 , "Conferencia de Inteligencia Artificial de Dartmouth: los próximos cincuenta años", en conmemoración del quincuagésimo aniversario del grupo de estudio de verano original de Dartmouth. Solomonoff fue uno de los cinco participantes originales que asistieron.

En febrero de 2008, pronunció el discurso de apertura en la Conferencia "Tendencias actuales en la teoría y aplicación de las ciencias de la computación" (CTTACS), celebrada en la Universidad de Notre Dame en Líbano. Siguió esto con una breve serie de conferencias y comenzó a investigar nuevas aplicaciones de la probabilidad algorítmica.

La probabilidad algorítmica y la inducción de Solomonoff tienen muchas ventajas para la inteligencia artificial. La probabilidad algorítmica proporciona estimaciones de probabilidad extremadamente precisas. Estas estimaciones pueden revisarse mediante un método fiable para que sigan siendo aceptables. Utiliza el tiempo de búsqueda de una manera muy eficiente. Además de las estimaciones de probabilidad, la probabilidad algorítmica "tiene para la IA otro valor importante: su multiplicidad de modelos nos brinda muchas formas diferentes de entender nuestros datos;

Una descripción de la vida y obra de Solomonoff antes de 1997 se encuentra en "The Discovery of Algorithmic Probability", Journal of Computer and System Sciences, Vol 55, No. 1, pp 73–88, agosto de 1997. El artículo, así como la mayoría de los demás aquí mencionados, están disponibles en su sitio web en la página de publicaciones.

En un artículo publicado el año de su muerte, un artículo de revista decía de Solomonoff: "Un científico muy convencional entiende su ciencia utilizando un único 'paradigma actual', la forma de comprensión que está más de moda en la actualidad. Un hombre más creativo "El científico entiende su ciencia de muchas maneras y puede crear más fácilmente nuevas teorías, nuevas formas de comprensión, cuando el 'paradigma actual' ya no se ajusta a los datos actuales". [29]

Ver también

Referencias

  1. ^ "Ray Solomonoff, 1926-2009« La Tercera Conferencia sobre Inteligencia General Artificial ". Archivado desde el original el 7 de agosto de 2011 . Consultado el 12 de diciembre de 2009 .
  2. ^ Markoff, John (9 de enero de 2010). "Ray Solomonoff, pionero en inteligencia artificial, muere a los 83 años". Los New York Times . Consultado el 11 de enero de 2009 .
  3. ^ Vitanyi, Paul; Legg, Shane; Hutter, Marcus (2007). "Probabilidad algorítmica". Scholarpedia . 2 (8): 2572. Código bibliográfico : 2007SchpJ...2.2572H. doi : 10.4249/scholarpedia.2572 . hdl : 1885/15013 .
  4. ^ ab Samuel Rathmanner y Marcus Hutter . Un tratado filosófico de inducción universal. Entropía, 13(6):1076–1136, 2011.
  5. ^ Vitanyi, P. "Obituario: Ray Solomonoff, padre fundador de la teoría algorítmica de la información"
  6. ^ ab "Una máquina de inferencia inductiva", Dartmouth College, NH, versión del 14 de agosto de 1956. (copia escaneada en pdf del original)
  7. ^ Artículo de la conferencia sobre "Sistemas cerebrales y computadoras", Instituto de Tecnología de California, 8 al 11 de febrero de 1960, citado en "Una teoría formal de la inferencia inductiva, parte 1, 1964, p. 1.
  8. ^ Solomonoff, R., "Un informe preliminar sobre una teoría general de la inferencia inductiva", Informe V-131, Zator Co., Cambridge, Ma. 4 de febrero de 1960, revisión, noviembre de 1960.
  9. ^ Solomonoff, R., "Una teoría formal de la inferencia inductiva, parte I" Información y control , volumen 7, núm. 1, págs. 1 a 22, marzo de 1964.
  10. ^ ab Solomonoff, R., "Una teoría formal de la inferencia inductiva, parte II" Información y control , volumen 7, núm. 2, páginas 224-254, junio de 1964.
  11. ^ Inducción: de Kolmogorov y Solomonoff a De Finetti y de regreso a Kolmogorov JJ McCall - Metroeconomica, 2004 - Wiley Online Library.
  12. ^ Fundamentos de la navaja de Occam y la parsimonia en el aprendizaje de ricoh.com D Stork - Taller NIPS 2001, 2001
  13. ^ La navaja de Occam como base formal para una teoría física de arxiv.org AN Soklakov - Foundations of Physics Letters, 2002 - Springer
  14. ^ Más allá del test de Turing de uclm.es J HERNANDEZ-ORALLO – Revista de Lógica, Lenguaje y…, 2000 – dsi.uclm.es
  15. ^ Ming Li y Paul Vitanyi, Introducción a la complejidad de Kolmogorov y sus aplicaciones. Springer-Verlag, Nueva York, 2008p 339 y sigs.
  16. ^ "Un método exacto para el cálculo de la conectividad de redes aleatorias", Boletín de Biofísica Matemática , Vol 14, p. 153, 1952.
  17. ^ Una máquina de inferencia inductiva", Registro de la convención IRE, sección sobre teoría de la información, parte 2, págs. 56–62 (versión pdf).
  18. ^ "Un informe de progreso sobre máquinas para aprender a traducir idiomas y recuperar información", Avances en documentación y bibliotecología, Vol III, pt. 2, págs. 941–953. (Actas de una conferencia celebrada en septiembre de 1959.)
  19. ^ "Un informe preliminar sobre una teoría general de la inferencia inductiva", 1960 p. 1
  20. ^ "Un informe preliminar sobre una teoría general de la inferencia inductiva", 1960, p. 17
  21. ^ "Sistemas de inducción basados ​​en complejidad, comparaciones y teoremas de convergencia" IEEE Trans. sobre teoría de la información vol. IT-24, núm. 4, páginas 422–432, julio de 1978. (versión pdf)
  22. ^ "La distribución universal y el aprendizaje automático", Conferencia Kolmogorov, 27 de febrero de 2003, Royal Holloway, Univ. de Londres. The Computer Journal, volumen 46, núm. 6, 2003.
  23. ^ "La aplicación de la probabilidad algorítmica a problemas de inteligencia artificial", en Kanal y Lemmer (Eds.), Uncertainty in Artificial Intelligence, Elsevier Science Publishers BV, págs. 473–491, 1986.
  24. ^ Levin, LA, "Problemas de búsqueda universal", en Problemy Peredaci Informacii 9, págs. 115-116, 1973
  25. ^ "La escala de tiempo de la inteligencia artificial: reflexiones sobre los efectos sociales", Gestión de sistemas humanos, volumen 5, págs. 149-153, 1985 (versión pdf)
  26. ^ "Dos tipos de inducción probabilística", The Computer Journal, Vol 42, No. 4, 1999. (versión pdf)
  27. ^ "Tres tipos de inducción probabilística, distribuciones universales y teoremas de convergencia" 2008. (versión pdf)
  28. ^ "El descubrimiento de la probabilidad de algoritmos", Journal of Computer and System Sciences, volumen 55, n.º 1, págs. 73–88 (versión en pdf)
  29. ^ "Probabilidad, teoría y aplicaciones algorítmicas", en Teoría de la información y aprendizaje estadístico, Eds Frank Emmert-Streib y Matthias Dehmer, Springer Science and Business Media, 2009, p. 11

enlaces externos