stringtranslate.com

Song-Chun Zhu

Song-Chun Zhu ( chino :朱松纯; nacido en junio de 1968) es un científico informático y matemático aplicado chino conocido por su trabajo en visión artificial , inteligencia artificial cognitiva y robótica . Zhu trabaja actualmente en la Universidad de Pekín y anteriormente fue profesor en los Departamentos de Estadística y Ciencias de la Computación de la Universidad de California en Los Ángeles . [1] Zhu también se desempeñó anteriormente como Director del Centro de Visión, Cognición, Aprendizaje y Autonomía (VCLA) de la UCLA. [2]

En 2005, Zhu fundó el Lotus Hill Institute, una organización independiente sin fines de lucro para promover la colaboración internacional en los campos de la visión por computadora y el reconocimiento de patrones . [3] Zhu ha publicado extensamente y ha dado conferencias a nivel mundial sobre inteligencia artificial, y en 2011, se convirtió en miembro del IEEE ( Instituto de Ingenieros Eléctricos y Electrónicos ) por "contribuciones al modelado estadístico, el aprendizaje y la inferencia en la visión por computadora". [4]

Zhu tiene dos hijas, Stephanie y Yi. [5] Zhu Yi ( chino :朱易) es una patinadora artística competitiva . [6]

Vida temprana y educación

Nacido y criado en Ezhou , China, Zhu encontró inspiración, cuando era joven, en el desarrollo de computadoras que jugaban al ajedrez, lo que despertó su interés en la inteligencia artificial. En 1991, Zhu obtuvo su licenciatura en Ciencias de la Computación de la Universidad de Ciencia y Tecnología de China en Hefei . Durante sus años de estudiante universitario, Zhu, al encontrar la teoría computacional de la visión del fallecido neurocientífico del MIT David Marr profundamente influyente, aspiró a perseguir una teoría general unificada de la visión y la IA. [7] En 1992, Zhu continuó su estudio de visión por computadora en la Escuela de Graduados de Artes y Ciencias de Harvard . En Harvard, Zhu estudió bajo la supervisión del matemático estadounidense David Mumford y obtuvo una introducción al aprendizaje "probablemente aproximadamente correcto" (PAC) bajo la instrucción de Leslie Valiant . Zhu concluyó sus estudios en Harvard en 1996 con un doctorado en Ciencias de la Computación y siguió a Mumford a la División de Matemáticas Aplicadas de la Universidad de Brown como becario postdoctoral. [3]

Carrera

Tras su beca postdoctoral, Zhu impartió una breve conferencia en el Departamento de Ciencias de la Computación de la Universidad de Stanford . En 1998, se incorporó a la Universidad Estatal de Ohio como profesor adjunto en los Departamentos de Ciencias de la Computación y Ciencias Cognitivas. En 2002, Zhu se incorporó a la Universidad de California, Los Ángeles, en los Departamentos de Ciencias de la Computación y Estadística como profesor asociado, ascendiendo al rango de profesor titular en 2006. En la UCLA, Zhu estableció el Centro de Visión, Cognición, Aprendizaje y Autonomía. Su principal interés de investigación ha residido en la búsqueda de un marco estadístico y computacional unificado para la visión y la inteligencia, que incluye el gráfico And-Or espacial, temporal y causal (STC-AOG) como representación unificada y numerosos métodos de Monte Carlo para la inferencia y el aprendizaje. [8] [9]

En 2005, Zhu fundó una organización independiente sin fines de lucro en su ciudad natal de Ezhou, el Lotus Hill Institute (LHI). El LHI ha participado en la recopilación de conjuntos de datos de imágenes a gran escala y en la anotación de objetos, escenas y actividades, habiendo recibido contribuciones de muchos académicos de renombre, incluido Harry Shum . El instituto también cuenta con un equipo de anotación a tiempo completo para analizar las estructuras de las imágenes, habiendo acumulado más de 500.000 imágenes hasta la fecha. [ cita requerida ]

Desde que estableció LHI, Zhu ha organizado numerosos talleres y conferencias, además de desempeñarse como presidente general de la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) de 2012 en Providence, Rhode Island , donde le entregó a Ulf Grenander una Medalla Pionera, y la CVPR de 2019 celebrada en Long Beach, California . [10]

En julio de 2017, Zhu fundó DMAI en Los Ángeles como una empresa emergente de IA dedicada al desarrollo de una plataforma unificada de IA cognitiva. [11]

En septiembre de 2020, Zhu regresó a China para unirse a la Universidad de Pekín y dirigir su Instituto de Inteligencia Artificial, uniéndose así a otro experto chino en inteligencia artificial en Estados Unidos y conocido de Zhu desde hace mucho tiempo, el exjefe de inteligencia artificial e investigación de Microsoft, Harry Shum. Shum también fue designado por la Universidad de Pekín en agosto para presidir el comité académico del Instituto de Inteligencia Artificial. [12]

Zhu está trabajando en la creación de un nuevo instituto de investigación de IA independiente: el Instituto de Inteligencia Artificial General de Beijing (BIGAI). Según la introducción, basado en el paradigma de "datos pequeños para grandes tareas", el BIGAI se centra en la tecnología avanzada de IA, la integración multidisciplinaria y el intercambio académico internacional, para nutrir a la nueva generación de jóvenes talentos de IA. [12] Se espera que el instituto reúna a investigadores profesionales, académicos y expertos, para poner en práctica el marco teórico de Zhu sobre inteligencia artificial y promover conjuntamente las tecnologías de IA originales chinas y construir una nueva generación de plataformas de IA general. [ cita requerida ]

Investigación y trabajo

Zhu ha publicado más de trescientos artículos en revistas y actas revisadas por pares en las siguientes cuatro fases:

Modelos estadísticos pioneros para formular conceptos en el marco de Marr

A principios de los años 1990, Zhu, junto con colaboradores del grupo de teoría de patrones, desarrolló modelos estadísticos avanzados para la visión por computadora. Centrados en el desarrollo de un marco estadístico unificador para las representaciones de visión temprana presentadas en el trabajo publicado póstumamente por David Marr titulado Vision , primero formularon texturas en un nuevo modelo de campo aleatorio de Markov , llamado FRAME, utilizando un principio de entropía minimax para introducir descubrimientos en neurociencia y psicofísica en las distribuciones de Gibbs en física estadística. [13] Luego demostraron la equivalencia entre el modelo FRAME y el conjunto microcanónico, [14] al que llamaron el conjunto Julesz. Este trabajo recibió la nominación honoraria al Premio Marr durante la Conferencia Internacional sobre Visión por Computadora (ICCV) en 1999. [15]

Durante la década de 1990, Zhu desarrolló dos nuevas clases de ecuaciones diferenciales parciales (EDP) no lineales. Una clase para la segmentación de imágenes se denomina competencia de regiones. [16] Este trabajo que conecta las EDP con los modelos estadísticos de imágenes recibió el premio Helmholtz Test of Time en ICCV 2013. La otra clase, denominada GRADE (Gibbs Reaction and Diffusion Equations) se publicó en 1997 y emplea un enfoque de dinámica de Langevin para la inferencia y el aprendizaje del descenso de gradiente estocástico (SGD). [17]

A principios de la década de 2000, Zhu formuló textones [18] utilizando modelos generativos con teoría de codificación dispersa e integró los modelos de textura y textón para representar el boceto primario. [19] Con Ying Nian Wu, Zhu avanzó en el estudio de las transiciones perceptuales entre regímenes de modelos en escala de información y propuso una teoría del espacio de escala perceptual para extender el espacio de escala de imagen. [20]

Ampliación del paradigma gramatical de Fu mediante gráficos y/o estocásticos

Desde 1999 hasta 2002, junto con su estudiante de doctorado Zhuowen Tu, Zhu desarrolló un paradigma de Monte Carlo de cadena de Markov impulsado por datos (DDMCMC) [21] para recorrer todo el espacio de estados mediante la extensión del trabajo de difusión por saltos de Grenander-Miller. Con otro estudiante de doctorado, Adrian Barbu, generalizó el algoritmo de muestreo por conglomerados ( Swendsen-Wang ) en física a partir de los modelos de Ising/Potts a probabilidades arbitrarias. Este avance en el campo hizo que los operadores de división-fusión fueran reversibles por primera vez en la literatura y logró aceleraciones de 100 veces sobre el muestreador de Gibbs y la difusión por saltos. Este logro condujo al trabajo sobre análisis de imágenes [22] que ganó el Premio Marr en ICCV 2003. [15]

En 2004, Zhu pasó a la visión de alto nivel estudiando la gramática estocástica . El método gramatical se remonta al enfoque de reconocimiento de patrones sintácticos defendido por King-Sun Fu en la década de 1970. Zhu desarrolló modelos gramaticales para algunos problemas clave de la visión, como el modelado de rostros, el envejecimiento de los rostros, la ropa, la detección de objetos, el análisis de estructuras rectangulares y la clasificación. Escribió una monografía con Mumford en 2006 titulada A Stochastic Grammar of Images . [23] En 2007, Zhu y sus coautores recibieron una nominación al Premio Marr. Al año siguiente, Zhu recibió el Premio JK Aggarwal de la Asociación Internacional de Reconocimiento de Patrones por "contribuciones a una base unificada para la conceptualización, el modelado, el aprendizaje y la inferencia de patrones visuales". [24]

Zhu ha extendido los modelos de gráfico y-o al gráfico y-o espacial, temporal y causal (STC-AOG) para expresar las estructuras compositivas como una representación unificada de objetos, escenas, acciones, eventos y efectos causales en problemas de comprensión de escenas físicas y sociales.

Explorando la “materia oscura de la IA”: cognición y sentido común visual

Desde 2010, Zhu ha colaborado con académicos de la ciencia cognitiva, la IA, la robótica y el lenguaje para explorar lo que él llama la "materia oscura de la IA": el 95% del procesamiento inteligente que no se puede detectar directamente en la información sensorial.

Juntos han aumentado el problema del análisis de imágenes y la comprensión de escenas mediante el modelado cognitivo y el razonamiento sobre los siguientes aspectos: funcionalidad (funciones de objetos y escenas, el uso de herramientas), física intuitiva (relaciones de apoyo, materiales, estabilidad y riesgo), intención y atención (lo que las personas saben, piensan y pretenden hacer en una escena social), causalidad (los efectos causales de las acciones para cambiar los fluidos de los objetos) y utilidad (los valores comunes que impulsan las actividades humanas en el vídeo). [25] [26] [27] Los resultados se difunden a través de una serie de talleres. [28]

Hay muchos otros temas que Zhu ha explorado durante este período, incluidos los siguientes: la formulación de conceptos de IA como herramientas, contenedores, líquidos; la integración del análisis y la reconstrucción de escenas tridimensionales a partir de imágenes individuales mediante el razonamiento de la funcionalidad, la estabilidad física, los diálogos situados mediante el análisis conjunto de video y texto; el desarrollo del aprendizaje comunicativo; y el mapeo del paisaje energético de los problemas de aprendizaje no convexo. [29]

En pos de un paradigma de "datos pequeños para tareas grandes" para la IA general

En un artículo público de amplia circulación escrito en chino en 2017, Zhu se refirió a la popular investigación de aprendizaje profundo basada en datos como un paradigma de "grandes datos para pequeñas tareas" que entrena una red neuronal para cada tarea específica con datos anotados masivos, lo que da como resultado modelos ininterpretables y una IA limitada. Zhu, en cambio, abogó por un paradigma de "pequeños datos para grandes tareas" para lograr una IA general. [30]

En la reunión de 2023 del Comité Nacional de la Conferencia Consultiva Política del Pueblo Chino , Zhu dijo que, a raíz del lanzamiento de ChatGPT , China debería hacer de la inteligencia artificial general un objetivo estratégico, análogo a la búsqueda de tecnología nuclear, de misiles y satelitales por parte del proyecto Dos bombas, un satélite de la década de 1960. [31]

En febrero de 2024, el Instituto de Inteligencia Artificial General de Beijing (BIGAI), que opera bajo el liderazgo de Zhu, presentó lo que denominaron el primer niño con inteligencia artificial (IA) del mundo, llamado "Tong Tong", que posee sus propias emociones e intelecto y es capaz de asignarse tareas a sí mismo de forma independiente, demostrando un nivel de autonomía nunca antes visto en entidades virtuales. [32]

Publicaciones

Libros

Papeles

Referencias

  1. ^ "Canción-Chun Zhu".
  2. ^ "Centro de Visión, Cognición, Aprendizaje y Autonomía".
  3. ^ ab "Profesor Song-Chun Zhu, UCLA".
  4. ^ "Canción-Chun Zhu".
  5. ^ "Investigación: ¿estamos en el camino correcto?"
  6. ^ "Patinadora sobre hielo nacida en Estados Unidos se une a programa de entrenamiento en China - Global Times". 2018-09-28 . Consultado el 2022-02-06 .
  7. ^ "ACM图灵大会上的"华山论剑":朱松纯对话沈向洋 Diálogo de los Drs. Song-Chun Zhu y Harry Shum en ACM TURC 2019".
  8. ^ "Un marco unificado para la transferencia de conocimiento entre humanos y robots".
  9. ^ "Métodos de Monte Carlo (Tapa dura)".
  10. ^ "Una carta de los organizadores de PAMI TC y CVPR 2019".
  11. ^ "Aspectos positivos".
  12. ^ desde "DMAI".
  13. ^ Zhu, SC, Wu, Y., y Mumford, D. (1998). FRAME: filtros, campos aleatorios y entropía minimax hacia una teoría unificada para el modelado de texturas. Revista internacional de visión por computadora, 27(2) pp.1-20.
  14. ^ YN Wu, SC Zhu y XW Liu, (2000). Equivalencia de los modelos Julesz Ensemble y FRAME International Journal of Computer Vision, 38(3), 247-265.
  15. ^ ab "Premios de Visión por Computador".
  16. ^ Zhu, SC y Yuille, A. (1996). Competencia de regiones: serpientes unificadoras, crecimiento de regiones y Bayes/MDL para segmentación de imágenes multibanda. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(9), 884–900.
  17. ^ Zhu, SC y Mumford, D. (1997). Aprendizaje previo y reacción-difusión de Gibbs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(11), 1236–1250.
  18. ^ Zhu, S.-C., Guo, C., Wang, Y., y Xu, Z. (2005). ¿Qué son los textones? International Journal of Computer Vision, 62(1/2), 121–143.
  19. ^ Guo, C. Zhu, S.-C. y Wu, Y. (2007), Boceto primario: integración de textura y estructura. Computer Vision and Image Understanding, vol. 106, número 1, 5-19.
  20. ^ YN Wu, CE Guo y SC Zhu (2008), Del escalamiento de información de imágenes naturales a regímenes de modelos estadísticos, Quarterly of Applied Mathematics, vol. 66, núm. 1, 81-122.
  21. ^ Tu, Z. y Zhu, S.-C. Segmentación de imágenes mediante cadenas de Markov basadas en datos de Monte Carlo, IEEE Trans. en PAMI, 24(5), 657-673, 2002.
  22. ^ Tu, Z., Chen, X., Yuille y Zhu, S.-C. (2003). Análisis de imágenes: unificación de la segmentación, la detección y el reconocimiento. Actas de la Novena Conferencia Internacional IEEE sobre Visión por Computador.
  23. ^ Zhu, S.-C., y Mumford, D. (2006). Una gramática estocástica de imágenes. Fundamentos y tendencias en gráficos y visión por computadora, 2(4), 259–362.
  24. ^ "Premio JK Aggarwal 2008 otorgado al profesor Song-Chun Zhu".
  25. ^ B. Zheng, Y. Zhao, J. Yu, K. Ikeuchi y SC Zhu (2015), Comprensión de la escena mediante razonamiento de estabilidad y seguridad, Int'l Journal of Computer Vision, vol. 112, n.º 2, págs. 221-238, 2015.
  26. ^ Y. Zhu, YB Zhao y SC Zhu (2015), Comprensión de las herramientas: modelado, aprendizaje y reconocimiento de objetos orientados a tareas, Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR).
  27. ^ YX Zhu, C. Jiang, Y. Zhao, D. Terzopoulos y SC Zhu (2016), Inferencia de fuerzas y aprendizaje de utilidades humanas a partir de video, Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones (CVPR).
  28. ^ "La visión se encuentra con la cognición".
  29. ^ "El rey Song-chun".
  30. ^ "Algunas charlas invitadas".
  31. ^ "Propuestas de IA en 'dos ​​sesiones': ¿AGI como 'dos ​​bombas, un satélite'?"
  32. ^ "China crea el primer niño con inteligencia artificial del mundo que muestra emociones humanas". Interesting Engineering.com . Consultado el 16 de abril de 2024 .

Enlaces externos