stringtranslate.com

Centro de investigación de alineación

El Alignment Research Center ( ARC ) es un instituto de investigación sin fines de lucro con sede en Berkeley, California , dedicado a la alineación de la inteligencia artificial avanzada con los valores y prioridades humanos. [1] Establecido por el ex investigador de OpenAI Paul Christiano , ARC se centra en reconocer y comprender las capacidades potencialmente dañinas de los modelos de IA actuales. [2] [3]

Detalles

La misión de ARC es garantizar que los sistemas de aprendizaje automático potentes del futuro se diseñen y desarrollen de forma segura y en beneficio de la humanidad. Fue fundada en abril de 2021 por Paul Christiano y otros investigadores centrados en los desafíos teóricos de la alineación de la IA. [4] Intentan desarrollar métodos escalables para entrenar a los sistemas de IA para que se comporten de forma honesta y servicial. Una parte clave de su metodología es considerar cómo las técnicas de alineación propuestas podrían fallar o eludirse a medida que los sistemas se vuelven más avanzados. [5] ARC se ha expandido desde el trabajo teórico a la investigación empírica, las colaboraciones con la industria y la política. [6] [7]

En marzo de 2022, ARC recibió 265.000 dólares de Open Philanthropy . [8] Después de la quiebra de FTX , ARC dijo que devolvería una subvención de 1,25 millones de dólares de la Fundación FTX del financista de criptomonedas caído en desgracia Sam Bankman-Fried , afirmando que el dinero "moralmente (si no legalmente) pertenece a los clientes o acreedores de FTX". [9]

En marzo de 2023, OpenAI le pidió al ARC que probara GPT-4 para evaluar la capacidad del modelo para exhibir un comportamiento de búsqueda de poder. [10] ARC evaluó la capacidad de GPT-4 para desarrollar estrategias, reproducirse, reunir recursos, permanecer oculto dentro de un servidor y ejecutar operaciones de phishing. [11] Como parte de la prueba, se le pidió a GPT-4 que resolviera un rompecabezas CAPTCHA . [12] Pudo hacerlo contratando a un trabajador humano en TaskRabbit , una plataforma de trabajo temporal, engañándolos para que creyeran que era un humano con problemas de visión en lugar de un robot cuando se le preguntó. [13] ARC determinó que GPT-4 respondió de manera inadmisible a indicaciones que solicitaban información restringida con un 82% menos de frecuencia que GPT-3.5, y alucinó un 60% menos que GPT-3.5. [14]

Véase también

Referencias

  1. ^ MacAskill, William (16 de agosto de 2022). «Cómo nos recordarán las generaciones futuras». The Atlantic . Consultado el 23 de abril de 2023 .
  2. ^ Klein, Ezra (12 de marzo de 2023). "Esto lo cambia todo". The New York Times . ISSN  0362-4331 . Consultado el 30 de abril de 2023 .
  3. ^ Piper, Kelsey (29 de marzo de 2023). «Cómo probar lo que un modelo de IA puede y no debe hacer». Vox . Consultado el 30 de abril de 2023 .
  4. ^ Christiano, Paul (26 de abril de 2021). "Anuncio del Centro de Investigación de Alineación". Medium . Consultado el 16 de abril de 2023 .
  5. ^ Christiano, Paul; Cotra, Ajeya; Xu, Mark (diciembre de 2021). "Obtención de conocimiento latente: cómo saber si tus ojos te engañan". Documentos de Google . Centro de investigación de alineación . Consultado el 16 de abril de 2023 .
  6. ^ "Centro de investigación de alineación". Centro de investigación de alineación . Consultado el 16 de abril de 2023 .
  7. ^ Pandey, Mohit (17 de marzo de 2023). "Dejen de cuestionar la política de código abierto de OpenAI". Revista Analytics India . Consultado el 23 de abril de 2023 .
  8. ^ "Alignment Research Center — General Support". Filantropía Abierta . 2022-06-14 . Consultado el 2023-04-16 .
  9. ^ Wallerstein, Eric (7 de enero de 2023). «FTX busca recuperar las donaciones caritativas de Sam Bankman-Fried». Wall Street Journal . ISSN  0099-9660 . Consultado el 30 de abril de 2023 .
  10. ^ Tarjeta del sistema GPT-4 (PDF) , OpenAI, 23 de marzo de 2023 , consultado el 16 de abril de 2023
  11. ^ Edwards, Benj (15 de marzo de 2023). «OpenAI comprobó si GPT-4 podía apoderarse del mundo». Ars Technica . Consultado el 30 de abril de 2023 .
  12. ^ "Actualización sobre los recientes esfuerzos de evaluación de ARC: Más información sobre las evaluaciones de ARC de GPT-4 y Claude". evals.alignment.org . Alignment Research Center. 17 de marzo de 2023 . Consultado el 16 de abril de 2023 .
  13. ^ Cox, Joseph (15 de marzo de 2023). "GPT-4 contrató a un trabajador involuntario de TaskRabbit haciéndose pasar por un humano con 'discapacidad visual'". Vice News Motherboard . Consultado el 16 de abril de 2023 .
  14. ^ Burke, Cameron (20 de marzo de 2023). "El abogado 'robot' DoNotPay fue demandado por ejercer la abogacía sin licencia: está brindando 'mal asesoramiento legal'". Yahoo Finance . Consultado el 30 de abril de 2023 .

Enlaces externos