Centro de investigación de alineación

El Alignment Research Center ( ARC ) es un instituto de investigación sin fines de lucro con sede en Berkeley, California , dedicado a la alineación de la inteligencia artificial avanzada con los valores y prioridades humanos. ^[1] Establecido por el ex investigador de OpenAI Paul Christiano , ARC se centra en reconocer y comprender las capacidades potencialmente dañinas de los modelos de IA actuales. ^[2]^[3]

Detalles

La misión de ARC es garantizar que los sistemas de aprendizaje automático potentes del futuro se diseñen y desarrollen de forma segura y en beneficio de la humanidad. Fue fundada en abril de 2021 por Paul Christiano y otros investigadores centrados en los desafíos teóricos de la alineación de la IA. ^[4] Intentan desarrollar métodos escalables para entrenar a los sistemas de IA para que se comporten de forma honesta y servicial. Una parte clave de su metodología es considerar cómo las técnicas de alineación propuestas podrían fallar o eludirse a medida que los sistemas se vuelven más avanzados. ^[5] ARC se ha expandido desde el trabajo teórico a la investigación empírica, las colaboraciones con la industria y la política. ^[6]^[7]

En marzo de 2022, ARC recibió 265.000 dólares de Open Philanthropy . ^[8] Después de la quiebra de FTX , ARC dijo que devolvería una subvención de 1,25 millones de dólares de la Fundación FTX del financista de criptomonedas caído en desgracia Sam Bankman-Fried , afirmando que el dinero "moralmente (si no legalmente) pertenece a los clientes o acreedores de FTX". ^[9]

En marzo de 2023, OpenAI le pidió al ARC que probara GPT-4 para evaluar la capacidad del modelo para exhibir un comportamiento de búsqueda de poder. ^[10] ARC evaluó la capacidad de GPT-4 para desarrollar estrategias, reproducirse, reunir recursos, permanecer oculto dentro de un servidor y ejecutar operaciones de phishing. ^[11] Como parte de la prueba, se le pidió a GPT-4 que resolviera un rompecabezas CAPTCHA . ^[12] Pudo hacerlo contratando a un trabajador humano en TaskRabbit , una plataforma de trabajo temporal, engañándolos para que creyeran que era un humano con problemas de visión en lugar de un robot cuando se le preguntó. ^[13] ARC determinó que GPT-4 respondió de manera inadmisible a indicaciones que solicitaban información restringida con un 82% menos de frecuencia que GPT-3.5, y alucinó un 60% menos que GPT-3.5. ^[14]

Véase también

Seguridad de la IA

Referencias

^ MacAskill, William (16 de agosto de 2022). «Cómo nos recordarán las generaciones futuras». The Atlantic . Consultado el 23 de abril de 2023 .
^ Klein, Ezra (12 de marzo de 2023). "Esto lo cambia todo". The New York Times . ISSN 0362-4331 . Consultado el 30 de abril de 2023 .
^ Piper, Kelsey (29 de marzo de 2023). «Cómo probar lo que un modelo de IA puede y no debe hacer». Vox . Consultado el 30 de abril de 2023 .
^ Christiano, Paul (26 de abril de 2021). "Anuncio del Centro de Investigación de Alineación". Medium . Consultado el 16 de abril de 2023 .
^ Christiano, Paul; Cotra, Ajeya; Xu, Mark (diciembre de 2021). "Obtención de conocimiento latente: cómo saber si tus ojos te engañan". Documentos de Google . Centro de investigación de alineación . Consultado el 16 de abril de 2023 .
^ "Centro de investigación de alineación". Centro de investigación de alineación . Consultado el 16 de abril de 2023 .
^ Pandey, Mohit (17 de marzo de 2023). "Dejen de cuestionar la política de código abierto de OpenAI". Revista Analytics India . Consultado el 23 de abril de 2023 .
^ "Alignment Research Center — General Support". Filantropía Abierta . 2022-06-14 . Consultado el 2023-04-16 .
^ Wallerstein, Eric (7 de enero de 2023). «FTX busca recuperar las donaciones caritativas de Sam Bankman-Fried». Wall Street Journal . ISSN 0099-9660 . Consultado el 30 de abril de 2023 .
^ Tarjeta del sistema GPT-4 (PDF) , OpenAI, 23 de marzo de 2023 , consultado el 16 de abril de 2023
^ Edwards, Benj (15 de marzo de 2023). «OpenAI comprobó si GPT-4 podía apoderarse del mundo». Ars Technica . Consultado el 30 de abril de 2023 .
^ "Actualización sobre los recientes esfuerzos de evaluación de ARC: Más información sobre las evaluaciones de ARC de GPT-4 y Claude". evals.alignment.org . Alignment Research Center. 17 de marzo de 2023 . Consultado el 16 de abril de 2023 .
^ Cox, Joseph (15 de marzo de 2023). "GPT-4 contrató a un trabajador involuntario de TaskRabbit haciéndose pasar por un humano con 'discapacidad visual'". Vice News Motherboard . Consultado el 16 de abril de 2023 .
^ Burke, Cameron (20 de marzo de 2023). "El abogado 'robot' DoNotPay fue demandado por ejercer la abogacía sin licencia: está brindando 'mal asesoramiento legal'". Yahoo Finance . Consultado el 30 de abril de 2023 .

Enlaces externos

Sitio web oficial