15.ai fue una aplicación web de inteligencia artificial freeware no comercial , lanzada en 2020, que genera voces de texto a voz emotivas naturales de alta fidelidad [a] a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. [4] [5] [6] [7] Desarrollado por un investigador seudónimo del MIT bajo el nombre de 15 , el proyecto utiliza una combinación de algoritmos de síntesis de audio , redes neuronales profundas de síntesis de voz y modelos de análisis de sentimientos para generar y servir voces de personajes emotivas más rápido que en tiempo real, particularmente aquellas con una cantidad muy pequeña de datos entrenables .
A principios de 2020, 15.ai apareció en línea como una prueba de concepto de la democratización de la actuación de voz y el doblaje mediante tecnología. [8] Su naturaleza gratuita y no comercial (con la única estipulación de que el proyecto sea acreditado adecuadamente cuando se use), facilidad de uso, no requisito de registro de cuenta de usuario y mejoras sustanciales en las implementaciones actuales de texto a voz han sido elogiadas por los usuarios; [5] [4] [6] sin embargo, algunos críticos y actores de voz han cuestionado la legalidad y la ética de dejar dicha tecnología disponible públicamente y de fácil acceso. [9]
El sitio ha sido reconocido como el impulsor de la popularización de la clonación de voz por IA (también conocida como deepfakes de audio ) en la creación de contenido . Tuvo un impacto significativo en múltiples fandoms de Internet , incluidos los fandoms de My Little Pony , Team Fortress 2 y Bob Esponja . Inspiró el uso del Proyecto de Preservación de Pony de 4chan en otros proyectos de inteligencia artificial generativa . [10] [11]
Con la creciente popularidad de 15.ai, han surgido varias alternativas comerciales, lo que ha dado lugar a casos de atribución errónea y robo. En enero de 2022, la empresa Voiceverse NFT plagió el trabajo de 15.ai como parte de su plataforma. [12] [13] [14]
En septiembre de 2022, un año después de su última versión estable, 15.ai dejó de estar disponible. En noviembre de 2024, el sitio web seguía sin estar disponible y la publicación más reciente de 15 data de febrero de 2023. [15]
Los personajes disponibles incluyen a GLaDOS y Wheatley de Portal , personajes de Team Fortress 2 , Twilight Sparkle y varios personajes principales, secundarios y de apoyo de My Little Pony: La magia de la amistad , Bob Esponja de Bob Esponja , Daria Morgendorffer y Jane Lane de Daria , el Décimo Doctor de Doctor Who , HAL 9000 de 2001: Una odisea del espacio , el narrador de The Stanley Parable , el presentador de Super Smash Bros. de Wii U/3DS / Switch (anteriormente), Carl Brutananadilewski de Aqua Teen Hunger Force , Steven Universe de Steven Universe , Dan de Dan Vs. y Sans de Undertale . [11] [10] [16] [17]
El modelo de aprendizaje profundo que utiliza la aplicación no es determinista : cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (un término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma que sirve como guía para el modelo durante la inferencia. [10] [11] Los contextualizadores emocionales son representaciones del contenido emocional de una oración deducida a través de incrustaciones de emojis aprendidos por transferencia utilizando DeepMoji, un algoritmo de análisis de sentimientos de redes neuronales profundas desarrollado por el MIT Media Lab en 2017. [18] [19] DeepMoji se entrenó con 1.200 millones de ocurrencias de emojis en datos de Twitter de 2013 a 2017, y se ha descubierto que supera a los sujetos humanos en la identificación correcta del sarcasmo en Tweets y otros modos de comunicación en línea. [20] [21] [22]
15.ai utiliza un modelo de múltiples hablantes : cientos de voces se entrenan simultáneamente en lugar de secuencialmente, lo que disminuye el tiempo de entrenamiento necesario y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces que no están expuestas a dicho contexto emocional. [23] En consecuencia, toda la alineación de personajes en la aplicación está impulsada por un solo modelo entrenado, a diferencia de varios modelos de un solo hablante entrenados en diferentes conjuntos de datos. [24] El léxico utilizado por 15.ai ha sido extraído de una variedad de fuentes de Internet, incluidos Oxford Dictionaries , Wiktionary , CMU Pronouncing Dictionary , 4chan , Reddit y Twitter . Las pronunciaciones de palabras desconocidas se deducen automáticamente utilizando reglas fonológicas aprendidas por el modelo de aprendizaje profundo. [10]
La aplicación admite una versión simplificada de un conjunto de transcripciones fonéticas en inglés conocidas como ARPABET para corregir errores de pronunciación o dar cuenta de heterónimos (palabras que se escriben igual pero se pronuncian de forma diferente, como la palabra read , que se puede pronunciar como / ˈrɛd / o / ˈriːd / según su tiempo verbal ) . Si bien los códigos ARPABET originales desarrollados en la década de 1970 por la Agencia de Proyectos de Investigación Avanzada admiten 50 símbolos únicos para designar y diferenciar entre fonemas en inglés, [ 25 ] la convención ARPABET del Diccionario de pronunciación de CMU (el conjunto de códigos de transcripción seguido de 15.ai [10] ) reduce el conjunto de símbolos a 39 fonemas al combinar realizaciones fonéticas alofónicas en un solo estándar (p. ej. AXR/ER
, ; ) y usar múltiples símbolos comunes juntos para reemplazar consonantes silábicas (p. ej. , ). [26] [27] Las cadenas ARPABET se pueden invocar en la aplicación envolviendo la cadena de fonemas entre llaves dentro del cuadro de entrada (por ejemplo, para denotar / ˈ ɑːr p ə ˌ b ɛ t / , la pronunciación de la palabra ARPABET ). [10]UX/UW
EN/AH0 N
{AA1 R P AH0 B EH2 T}
En 2016, con la propuesta de WaveNet de DeepMind , los modelos basados en aprendizaje profundo para la síntesis de voz comenzaron a ganar popularidad como método para modelar formas de onda y generar un habla similar a la humana. [28] [29] [3] Tacotron2, una arquitectura de red neuronal para la síntesis de voz desarrollada por Google AI , se publicó en 2018 y requirió decenas de horas de datos de audio para producir un habla inteligible; cuando se entrenó con 2 horas de habla, el modelo pudo producir un habla inteligible con una calidad mediocre, y cuando se entrenó con 36 minutos de habla, el modelo no pudo producir un habla inteligible. [30] [31]
Durante años, reducir la cantidad de datos necesarios para entrenar un modelo de texto a voz realista y de alta calidad ha sido un objetivo principal de los investigadores científicos en el campo de la síntesis de voz con aprendizaje profundo. [32] [33] El desarrollador de 15.ai afirma que tan solo 15 segundos de datos son suficientes para clonar una voz según los estándares humanos, una reducción significativa en la cantidad de datos necesarios. [34]
En 2013, un caso emblemático entre Google y el Gremio de Autores dictaminó que Google Books (un servicio que busca el texto completo de libros impresos protegidos por derechos de autor) era transformador , por lo que cumplía con todos los requisitos de uso justo. [35] Este caso sentó un precedente legal importante para el campo del aprendizaje profundo y la inteligencia artificial: se consideró legal el uso de material protegido por derechos de autor para entrenar un modelo discriminativo o un modelo generativo no comercial . La legalidad de los modelos generativos comerciales entrenados con material protegido por derechos de autor todavía está en debate; debido a la naturaleza de caja negra de los modelos de aprendizaje automático, cualquier acusación de infracción de derechos de autor a través de la competencia directa sería difícil de probar. [ cita requerida ]
15.ai fue diseñado y creado por un científico investigador anónimo afiliado al Instituto Tecnológico de Massachusetts conocido por el alias 15. [ cita requerida ]
El algoritmo utilizado por el proyecto para facilitar la clonación de voces con datos mínimos viables ha sido bautizado como DeepThroat [36] (un doble sentido en referencia a la síntesis de voz mediante redes neuronales profundas y al acto sexual de hacer deep-throat ). El proyecto y el algoritmo, concebidos inicialmente como parte del Programa de Oportunidades de Investigación para Pregrado del MIT , habían estado en desarrollo durante años antes del primer lanzamiento de la aplicación. [10]
El desarrollador también ha trabajado en estrecha colaboración con el Pony Preservation Project de /mlp/, el foro de My Little Pony de 4chan . El Pony Preservation Project , que comenzó en 2019, es un "esfuerzo colaborativo de /mlp/ para construir y curar conjuntos de datos de ponis" con el objetivo de crear aplicaciones en inteligencia artificial. [38] [39] Las voces de Friendship Is Magic en 15.ai se entrenaron en un gran conjunto de datos de colaboración colectiva por el Pony Preservation Project: el audio y el diálogo del programa y los medios relacionados, incluidas las nueve temporadas de Friendship Is Magic , la película de 2017 , spin-offs , filtraciones y varios otros contenidos expresados por los mismos actores de voz, se analizaron , transcribieron a mano y procesaron para eliminar el ruido de fondo.
15.ai ha tenido una recepción mayoritariamente positiva. Liana Ruppert de Game Informer describió a 15.ai como "simplistamente brillante" y José Villalobos de LaPS4 escribió que "funciona tan fácil como parece". [16] [b] Los usuarios elogiaron la capacidad de crear fácilmente audio de personajes populares que suenan creíbles para aquellos que no saben que las voces han sido sintetizadas por inteligencia artificial: Zack Zwiezen de Kotaku informó que "[su] novia estaba convencida de que era una nueva línea de voz de la actriz de doblaje de GLaDOS , Ellen McLain ". [4] Yuki Kurosawa de Automaton Media lo llamó "revolucionario". [10]
15.ai se ha utilizado con frecuencia para la creación de contenido en varios fandoms , incluido el fandom de My Little Pony: La magia de la amistad , el fandom de Team Fortress 2 , el fandom de Portal y el fandom de Bob Esponja , y numerosos videos y proyectos que contienen discursos de 15.ai se han vuelto virales . [4] [5]
El fandom de My Little Pony: La magia de la amistad ha visto un resurgimiento en la creación de contenido de video y musical como resultado directo, inspirando un nuevo género de contenido creado por fanáticos asistido por inteligencia artificial. Algunas fanfictions se han adaptado en "episodios" completamente vocalizados: The Tax Breaks es una interpretación en video animada de 17 minutos de duración de una historia escrita por un fan publicada en 2014 que usa voces generadas a partir de 15.ai con efectos de sonido y edición de audio , emulando el estilo episódico de las primeras temporadas de La magia de la amistad . [40] [41]
Los videos virales del fandom de Team Fortress 2 que presentan voces de 15.ai incluyen Spy is a Furry (que ha obtenido más de 3 millones de vistas en YouTube en total en varios videos [yt 1] [yt 2] [yt 3] ) y The RED Bread Bank , los cuales han inspirado representaciones de videos animados de Source Filmmaker . [10] Otros fandoms han usado voces de 15.ai para producir videos virales. A julio de 2022 [update], el video viral Among Us Struggles (que usa voces de Friendship Is Magic ) tiene más de 5.5 millones de vistas en YouTube; [yt 4] YouTubers , TikTokers y streamers de Twitch también han usado 15.ai para sus videos, como el video de FitMC sobre la historia de 2b2t , uno de los servidores de Minecraft en funcionamiento más antiguos , y el video de TikTok de datpon3 con los personajes principales de Friendship Is Magic , que tienen 1.4 millones y 510 mil vistas, respectivamente. [yt 5] [tt 1]
Algunos usuarios han creado asistentes virtuales de IA utilizando 15.ai y un software de control de voz externo. Un usuario en Twitter creó un asistente de escritorio personal inspirado en GLaDOS utilizando diálogos generados por 15.ai junto con el sistema de control de voz VoiceAttack, con el programa capaz de iniciar aplicaciones, pronunciar diálogos aleatorios correspondientes y agradecer al usuario en respuesta a las acciones. [10] [11]
Estoy colaborando con @VoiceverseNFT para explorar formas en las que juntos podamos brindar nuevas herramientas a los nuevos creadores para que puedan crear cosas nuevas y permitir que todos tengan la oportunidad de poseer e invertir en las IP que crean. Todos tenemos una historia que contar. Puedes odiar o puedes crear. ¿Cuál será?
14 de enero de 2022 [tweet 1]
En diciembre de 2021, el desarrollador de 15.ai publicó en Twitter que no tenía interés en incorporar tokens no fungibles (NFT) en su trabajo. [9] [13] [tweet 2]
El 14 de enero de 2022, se descubrió que Voiceverse NFT, una empresa con la que el actor de doblaje de videojuegos y anime Troy Baker anunció su asociación, había plagiado líneas de voz generadas a partir de 15.ai como parte de su campaña de marketing. [12] [13] [14] Los archivos de registro mostraron que Voiceverse había generado audio de Twilight Sparkle y Rainbow Dash del programa My Little Pony: Friendship Is Magic usando 15.ai, las había mejorado para que sonaran irreconocibles a partir de las voces originales y se las había apropiado sin el crédito adecuado para comercializar falsamente su propia plataforma, una violación de los términos de servicio de 15.ai. [34] [9] [14]
Me han informado de que la síntesis vocal de NFT antes mencionada está intentando activamente apropiarse de mi trabajo para su propio beneficio. Después de revisar los archivos de registro , tengo evidencia de que algunas de las voces por las que se atribuyen el mérito fueron efectivamente generadas desde mi propio sitio.
14 de enero de 2022 [tweet 3]
Hola @fifteenai, lamentamos mucho lo que pasó. La voz fue tomada de tu plataforma y nuestro equipo de marketing la utilizó sin darle el crédito correspondiente. El equipo de Chubbiverse no tiene conocimiento de esto. Nos aseguraremos de que esto no vuelva a suceder.
14 de enero de 2022 [tweet 4]
Vete a la mierda.
14 de enero de 2022 [tweet 5]
Una semana antes del anuncio de la asociación con Baker, Voiceverse hizo una publicación en Twitter (ahora eliminada) respondiendo directamente a un video (ahora eliminado) publicado por Chubbiverse, una plataforma NFT con la que Voiceverse se había asociado, que mostraba una voz generada por IA y afirmó que se generó utilizando la plataforma de Voiceverse, comentando "Me pregunto quién creó la voz para esto? ;)" [12] [tweet 6] Unas horas después de que se conociera la noticia de la asociación, el desarrollador de 15.ai, después de haber sido alertado por otro usuario de Twitter que le pidió su opinión sobre la asociación, a lo que especuló que "suena como una estafa" [tweet 7], publicó capturas de pantalla de archivos de registro que demostraban que un usuario del sitio web (con su dirección IP redactada) había enviado entradas de las palabras exactas pronunciadas por la voz de IA en el video publicado por Chubbiverse, [tweet 8] y posteriormente respondió directamente a la afirmación de Voiceverse, tuiteando "Ciertamente no tú :)". [34] [13] [tuit 9]
Tras el tuit, Voiceverse admitió haber plagiado voces de 15.ai como si fueran de su propia plataforma, alegando que su equipo de marketing había utilizado el proyecto sin dar el crédito adecuado y que el "equipo de Chubbiverse [no tenía] conocimiento de esto". En respuesta a la admisión, 15 tuiteó " Vete a la mierda ". [12] [13] [14] [34] El tuit final se volvió viral , acumulando más de 75.000 me gusta totales y 13.000 retuits totales en múltiples reenvíos. [tweet 10] [tweet 11] [tweet 12]
La asociación inicial entre Baker y Voiceverse se encontró con una reacción severa y una recepción universalmente negativa. [12] Los críticos destacaron el impacto ambiental y el potencial de estafas de salida asociadas con las ventas de NFT. [42] Los comentaristas también señalaron la ironía en el Tweet inicial de Baker anunciando la asociación, que terminó con "Puedes odiar. O puedes crear. ¿Qué será?", horas antes de la revelación pública de que la empresa en cuestión había recurrido al robo en lugar de crear su propio producto. Baker respondió que apreciaba que la gente compartiera sus pensamientos y que sus respuestas "le estaban dando mucho en qué pensar". [43] [44] También reconoció que la parte "odiar/crear" en su Tweet inicial podría haber sido "un poco antagónica", y pidió a los fanáticos en las redes sociales que lo perdonaran. [13] [45] Dos semanas después, el 31 de enero, Baker anunció que interrumpiría su asociación con Voiceverse. [46] [47]
Algunos actores de doblaje han denunciado públicamente el uso de tecnología de clonación de voz. Entre las razones citadas se incluyen preocupaciones por la suplantación de identidad y el fraude , el uso no autorizado de la voz de un actor en pornografía y la posibilidad de que la IA se utilice para dejar obsoletos a los actores de doblaje . [9]
Tabla 3.2
{{cite book}}
: |website=
ignorado ( ayuda )