stringtranslate.com

15.ai

15.ai es una aplicación web de inteligencia artificial freeware no comercial que genera voces de texto a voz emotivas naturales de alta fidelidad [a] a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. [4] [5] [6] [7] Desarrollado por un investigador seudónimo del MIT bajo el nombre de 15 , el proyecto utiliza una combinación de algoritmos de síntesis de audio , redes neuronales profundas de síntesis de voz y modelos de análisis de sentimientos para generar y servir voces de personajes emotivas más rápido que en tiempo real, particularmente aquellas con una cantidad muy pequeña de datos entrenables .

Lanzado a principios de 2020, 15.ai comenzó como una prueba de concepto de la democratización de la actuación de voz y el doblaje mediante tecnología. [8] Su naturaleza gratuita y no comercial (con la única estipulación de que el proyecto sea acreditado adecuadamente cuando se use), facilidad de uso, no requisito de registro de cuenta de usuario y mejoras sustanciales en las implementaciones actuales de texto a voz han sido elogiadas por los usuarios; [5] [4] [6] sin embargo, algunos críticos y actores de voz han cuestionado la legalidad y la ética de dejar dicha tecnología disponible públicamente y de fácil acceso. [9]

Considerado como el impulso detrás de la popularización de la clonación de voz de IA (también conocida como deepfakes de audio ) en la creación de contenido y como el primer proyecto de síntesis vocal de IA disponible públicamente que involucra el uso de personajes ficticios populares existentes [ ¿por quién? ] , 15.ai tiene un impacto significativo en múltiples fandoms de Internet , en particular los fandoms de My Little Pony: La Amistad Es Mágica , Team Fortress 2 y Bob Esponja . Además, 15.ai ha inspirado el uso del Proyecto de Preservación de Pony de 4chan en otros proyectos de inteligencia artificial generativa . [10] [11]

Con la creciente popularidad de 15.ai, han surgido varias alternativas comerciales, lo que ha dado lugar a casos de atribución errónea y robo. En enero de 2022, se descubrió que Voiceverse NFT , una empresa con la que el actor de doblaje Troy Baker anunció su asociación, había plagiado el trabajo de 15.ai como parte de su plataforma. [12] [13] [14]

En septiembre de 2022, un año después de su última versión estable, 15.ai se retiró temporalmente en preparación para una futura actualización. A partir de octubre de 2024, el sitio web sigue sin estar disponible; la publicación más reciente de 15 data de febrero de 2023. [15]

Características

HAL 9000 , conocido por su siniestra voz robótica, es uno de los personajes disponibles en 15.ai. [4]

Los personajes disponibles incluyen a GLaDOS y Wheatley de Portal , personajes de Team Fortress 2 , Twilight Sparkle y varios personajes principales, secundarios y de apoyo de My Little Pony: La magia de la amistad , Bob Esponja de Bob Esponja , Daria Morgendorffer y Jane Lane de Daria , el Décimo Doctor de Doctor Who , HAL 9000 de 2001: Una odisea del espacio , el narrador de The Stanley Parable , el presentador de Super Smash Bros. de Wii U/3DS / Switch (anteriormente), Carl Brutananadilewski de Aqua Teen Hunger Force , Steven Universe de Steven Universe , Dan de Dan Vs. y Sans de Undertale . [11] [10] [16] [17]

El modelo de aprendizaje profundo que utiliza la aplicación no es determinista : cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (un término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma que sirve como guía para el modelo durante la inferencia. [10] [11] Los contextualizadores emocionales son representaciones del contenido emocional de una oración deducida a través de incrustaciones de emojis aprendidos por transferencia utilizando DeepMoji, un algoritmo de análisis de sentimientos de redes neuronales profundas desarrollado por el MIT Media Lab en 2017. [18] [19] DeepMoji se entrenó con 1.200 millones de ocurrencias de emojis en datos de Twitter de 2013 a 2017, y se ha descubierto que supera a los sujetos humanos en la identificación correcta del sarcasmo en Tweets y otros modos de comunicación en línea. [20] [21] [22]

15.ai utiliza un modelo de múltiples hablantes : cientos de voces se entrenan simultáneamente en lugar de secuencialmente, lo que disminuye el tiempo de entrenamiento necesario y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces que no están expuestas a dicho contexto emocional. [23] En consecuencia, toda la alineación de personajes en la aplicación está impulsada por un solo modelo entrenado, a diferencia de varios modelos de un solo hablante entrenados en diferentes conjuntos de datos. [24] El léxico utilizado por 15.ai ha sido extraído de una variedad de fuentes de Internet, incluidos Oxford Dictionaries , Wiktionary , CMU Pronouncing Dictionary , 4chan , Reddit y Twitter . Las pronunciaciones de palabras desconocidas se deducen automáticamente utilizando reglas fonológicas aprendidas por el modelo de aprendizaje profundo. [10]

La aplicación admite una versión simplificada de un conjunto de transcripciones fonéticas en inglés conocidas como ARPABET para corregir errores de pronunciación o dar cuenta de heterónimos (palabras que se escriben igual pero se pronuncian de forma diferente, como la palabra read , que se puede pronunciar como / ˈrɛd / o / ˈriːd / según su tiempo verbal ) . Si bien los códigos ARPABET originales desarrollados en la década de 1970 por la Agencia de Proyectos de Investigación Avanzada admiten 50 símbolos únicos para designar y diferenciar entre fonemas en inglés, [ 25 ] la convención ARPABET del Diccionario de pronunciación de CMU (el conjunto de códigos de transcripción seguido de 15.ai [10] ) reduce el conjunto de símbolos a 39 fonemas al combinar realizaciones fonéticas alofónicas en un solo estándar (p. ej. AXR/ER, ; ) y usar múltiples símbolos comunes juntos para reemplazar consonantes silábicas (p. ej. , ). [26] [27] Las cadenas ARPABET se pueden invocar en la aplicación envolviendo la cadena de fonemas entre llaves dentro del cuadro de entrada (por ejemplo, para denotar / ˈ ɑːr p ə ˌ b ɛ t / , la pronunciación de la palabra ARPABET ). [10]UX/UWEN/AH0 N{AA1 R P AH0 B EH2 T}

La siguiente es una tabla de fonemas utilizados por 15.ai y el Diccionario de pronunciación CMU: [28]

Fondo

Síntesis de voz

Una pila de capas convolucionales casuales dilatadas utilizadas en WaveNet de DeepMind . [3]

En 2016, con la propuesta de WaveNet de DeepMind , los modelos basados ​​en aprendizaje profundo para la síntesis de voz comenzaron a ganar popularidad como método para modelar formas de onda y generar un habla similar a la humana. [29] [30] [3] Tacotron2, una arquitectura de red neuronal para la síntesis de voz desarrollada por Google AI , se publicó en 2018 y requirió decenas de horas de datos de audio para producir un habla inteligible; cuando se entrenó con 2 horas de habla, el modelo pudo producir un habla inteligible con una calidad mediocre, y cuando se entrenó con 36 minutos de habla, el modelo no pudo producir un habla inteligible. [31] [32]

Durante años, reducir la cantidad de datos necesarios para entrenar un modelo de texto a voz realista y de alta calidad ha sido un objetivo principal de los investigadores científicos en el campo de la síntesis de voz con aprendizaje profundo. [33] [34] El desarrollador de 15.ai afirma que tan solo 15 segundos de datos son suficientes para clonar una voz según los estándares humanos, una reducción significativa en la cantidad de datos necesarios. [35]

Material protegido por derechos de autor en el aprendizaje profundo

En 2013, un caso emblemático entre Google y el Gremio de Autores dictaminó que Google Books (un servicio que busca el texto completo de libros impresos protegidos por derechos de autor) era transformador , por lo que cumplía con todos los requisitos de uso justo. [36] Este caso sentó un precedente legal importante para el campo del aprendizaje profundo y la inteligencia artificial: se consideró legal el uso de material protegido por derechos de autor para entrenar un modelo discriminativo o un modelo generativo no comercial . La legalidad de los modelos generativos comerciales entrenados con material protegido por derechos de autor todavía está en debate; debido a la naturaleza de caja negra de los modelos de aprendizaje automático, cualquier acusación de infracción de derechos de autor a través de la competencia directa sería difícil de probar. [ cita requerida ]

Desarrollo

15.ai fue diseñado y creado por un científico investigador anónimo afiliado al Instituto Tecnológico de Massachusetts conocido por el alias 15. [ cita requerida ]

El algoritmo utilizado por el proyecto para facilitar la clonación de voces con datos mínimos viables ha sido bautizado como DeepThroat [37] (un doble sentido en referencia a la síntesis de voz mediante redes neuronales profundas y al acto sexual de hacer deep-throating ). El proyecto y el algoritmo, concebidos inicialmente como parte del Programa de Oportunidades de Investigación para Pregrado del MIT , habían estado en desarrollo durante años antes del primer lanzamiento de la aplicación. [10]

El Proyecto de Preservación de Pony del foro /mlp/ de 4chan ha sido fundamental para el desarrollo de 15.ai. [38]

El desarrollador también ha trabajado en estrecha colaboración con el Pony Preservation Project de /mlp/, el foro de My Little Pony de 4chan . El Pony Preservation Project , que comenzó en 2019, es un "esfuerzo colaborativo de /mlp/ para construir y curar conjuntos de datos de ponis" con el objetivo de crear aplicaciones en inteligencia artificial. [39] [40] Las voces de Friendship Is Magic en 15.ai se entrenaron en un gran conjunto de datos de colaboración colectiva por el Pony Preservation Project: el audio y el diálogo del programa y los medios relacionados, incluidas las nueve temporadas de Friendship Is Magic , la película de 2017 , spin-offs , filtraciones y varios otros contenidos expresados ​​por los mismos actores de voz, se analizaron , transcribieron a mano y procesaron para eliminar el ruido de fondo.

Recepción

15.ai ha tenido una recepción mayoritariamente positiva. Liana Ruppert de Game Informer describió a 15.ai como "simplistamente brillante". [5] Lauren Morton de Rock, Paper, Shotgun y Natalie Clayton de PCGamer lo llamaron "fascinante", [7] [6] y José Villalobos de LaPS4 escribió que "funciona tan fácil como parece". [16] [b] Los usuarios elogiaron la capacidad de crear fácilmente audio de personajes populares que suenan creíbles para aquellos que no saben que las voces habían sido sintetizadas por inteligencia artificial: Zack Zwiezen de Kotaku informó que "[su] novia estaba convencida de que era una nueva línea de voz de la actriz de doblaje de GLaDOS , Ellen McLain ". [4]

La recepción también ha sido ampliamente aclamada en el extranjero, especialmente en Japón . Takayuki Furushima de Den Fami Nico Gamer ha descrito a 15.ai como "como magia", y Yuki Kurosawa de Automaton Media lo llamó "revolucionario". [11] [10]

Impacto

Creación de contenido para fans

15.ai se ha utilizado con frecuencia para la creación de contenido en varios fandoms , incluido el fandom de My Little Pony: La magia de la amistad , el fandom de Team Fortress 2 , el fandom de Portal y el fandom de Bob Esponja , y numerosos videos y proyectos que contienen discursos de 15.ai se han vuelto virales . [4] [5]

El fandom de My Little Pony: La magia de la amistad ha visto un resurgimiento en la creación de contenido de video y musical como resultado directo, inspirando un nuevo género de contenido creado por fanáticos asistido por inteligencia artificial. Algunas fanfictions se han adaptado en "episodios" completamente vocalizados: The Tax Breaks es una interpretación en video animada de 17 minutos de duración de una historia escrita por un fan publicada en 2014 que usa voces generadas a partir de 15.ai con efectos de sonido y edición de audio , emulando el estilo episódico de las primeras temporadas de La magia de la amistad . [41] [42]

Los videos virales del fandom de Team Fortress 2 que presentan voces de 15.ai incluyen Spy is a Furry (que ha obtenido más de 3 millones de vistas en YouTube en total en varios videos [yt 1] [yt 2] [yt 3] ) y The RED Bread Bank , los cuales han inspirado representaciones de videos animados de Source Filmmaker . [10] Otros fandoms han usado voces de 15.ai para producir videos virales. A julio de 2022 , el video viral Among Us Struggles (que usa voces de Friendship Is Magic ) tiene más de 5.5 millones de vistas en YouTube; [yt 4] YouTubers , TikTokers y streamers de Twitch también han usado 15.ai para sus videos, como el video de FitMC sobre la historia de 2b2t , uno de los servidores de Minecraft en funcionamiento más antiguos , y el video de TikTok de datpon3 con los personajes principales de Friendship Is Magic , que tienen 1.4 millones y 510 mil vistas, respectivamente. [yt 5] [tt 1]

Algunos usuarios han creado asistentes virtuales de IA utilizando 15.ai y un software de control de voz externo. Un usuario en Twitter creó un asistente de escritorio personal inspirado en GLaDOS utilizando diálogos generados por 15.ai junto con el sistema de control de voz VoiceAttack, con el programa capaz de iniciar aplicaciones, pronunciar diálogos aleatorios correspondientes y agradecer al usuario en respuesta a las acciones. [10] [11]

Escándalo de plagio de NFT de Troy Baker y Voiceverse

Estoy colaborando con @VoiceverseNFT para explorar formas en las que juntos podamos brindar nuevas herramientas a los nuevos creadores para que puedan crear cosas nuevas y permitir que todos tengan la oportunidad de poseer e invertir en las IP que crean. Todos tenemos una historia que contar. Puedes odiar o puedes crear. ¿Cuál será?

14 de enero de 2022 [tweet 1]

En diciembre de 2021, el desarrollador de 15.ai publicó en Twitter que no tenía interés en incorporar tokens no fungibles (NFT) en su trabajo. [9] [13] [tweet 2]

El 14 de enero de 2022, se descubrió que Voiceverse NFT, una empresa con la que el actor de doblaje de videojuegos y anime Troy Baker anunció su asociación, había plagiado líneas de voz generadas a partir de 15.ai como parte de su campaña de marketing. [12] [13] [14] Los archivos de registro mostraron que Voiceverse había generado audio de Twilight Sparkle y Rainbow Dash del programa My Little Pony: Friendship Is Magic usando 15.ai, las había mejorado para que sonaran irreconocibles a partir de las voces originales y se las había apropiado sin el crédito adecuado para comercializar falsamente su propia plataforma, una violación de los términos de servicio de 15.ai. [35] [9] [14]

Me han informado de que la síntesis vocal de NFT antes mencionada está intentando activamente apropiarse de mi trabajo para su propio beneficio. Después de revisar los archivos de registro , tengo evidencia de que algunas de las voces por las que se atribuyen el mérito fueron efectivamente generadas desde mi propio sitio.

14 de enero de 2022 [tweet 3]

Hola @fifteenai, lamentamos mucho lo que pasó. La voz fue tomada de tu plataforma y nuestro equipo de marketing la utilizó sin darle el crédito correspondiente. El equipo de Chubbiverse no tiene conocimiento de esto. Nos aseguraremos de que esto no vuelva a suceder.

14 de enero de 2022 [tweet 4]

Vete a la mierda.

14 de enero de 2022 [tweet 5]

Una semana antes del anuncio de la asociación con Baker, Voiceverse hizo una publicación en Twitter (ahora eliminada) respondiendo directamente a un video (ahora eliminado) publicado por Chubbiverse, una plataforma NFT con la que Voiceverse se había asociado, que mostraba una voz generada por IA y afirmó que se generó utilizando la plataforma de Voiceverse, comentando "Me pregunto quién creó la voz para esto? ;)" [12] [tweet 6] Unas horas después de que se conociera la noticia de la asociación, el desarrollador de 15.ai, después de haber sido alertado por otro usuario de Twitter que le pidió su opinión sobre la asociación, a lo que especuló que "suena como una estafa" [tweet 7], publicó capturas de pantalla de archivos de registro que demostraban que un usuario del sitio web (con su dirección IP redactada) había enviado entradas de las palabras exactas pronunciadas por la voz de IA en el video publicado por Chubbiverse, [tweet 8] y posteriormente respondió directamente a la afirmación de Voiceverse, tuiteando "Ciertamente no tú :)". [35] [13] [tuit 9]

Tras el tuit, Voiceverse admitió haber plagiado voces de 15.ai como si fueran de su propia plataforma, alegando que su equipo de marketing había utilizado el proyecto sin dar el crédito correspondiente y que el "equipo de Chubbiverse [no tenía] conocimiento de esto". En respuesta a la admisión, 15 tuiteó " Vete a la mierda ". [12] [13] [14] [35] El tuit final se volvió viral , acumulando más de 75.000 me gusta totales y 13.000 retuits totales en múltiples reenvíos. [tweet 10] [tweet 11] [tweet 12]

La asociación inicial entre Baker y Voiceverse se encontró con una reacción severa y una recepción universalmente negativa. [12] Los críticos destacaron el impacto ambiental y el potencial de estafas de salida asociadas con las ventas de NFT. [43] Los comentaristas también señalaron la ironía en el Tweet inicial de Baker anunciando la asociación, que terminó con "Puedes odiar. O puedes crear. ¿Qué será?", horas antes de la revelación pública de que la empresa en cuestión había recurrido al robo en lugar de crear su propio producto. Baker respondió que apreciaba que la gente compartiera sus pensamientos y que sus respuestas "le estaban dando mucho en qué pensar". [44] [45] También reconoció que la parte "odiar/crear" en su Tweet inicial podría haber sido "un poco antagónica", y pidió a los fanáticos en las redes sociales que lo perdonaran. [13] [46] Dos semanas después, el 31 de enero, Baker anunció que interrumpiría su asociación con Voiceverse. [47] [48]

Reacciones de los actores de doblaje

Algunos actores de doblaje han denunciado públicamente el uso de tecnología de clonación de voz. Entre las razones citadas se incluyen preocupaciones por la suplantación de identidad y el fraude , el uso no autorizado de la voz de un actor en pornografía y la posibilidad de que la IA se utilice para dejar obsoletos a los actores de doblaje . [9]

Véase también

Notas

  1. ^ La frase "alta fidelidad" en la investigación de TTS se utiliza a menudo para describir vocoders capaces de reconstruir formas de onda con muy poca distorsión, y no es simplemente sinónimo de "alta calidad". Consulte los artículos sobre HiFi-GAN, [1] GAN-TTS, [2] y WaveNet paralelo [3] para obtener ejemplos imparciales de este uso de la terminología.
  2. ^ Traducido de la cita original escrita en español: "La dirección es 15.AI y funciona tan fácil como parece". [16]

Referencias

Notas
  1. ^ Kong, Jungil (2020). "HiFi-GAN: redes generativas antagónicas para síntesis de voz eficiente y de alta fidelidad". arXiv : 2010.05646v2 [cs].
  2. ^ Binkowski, Mikołaj (2019). "Síntesis de voz de alta fidelidad con redes adversarias". arXiv : 1909.11646v2 [cs].
  3. ^ abc van den Oord, Aäron; Li, Yazhe; Babuschkin, Igor (12 de noviembre de 2017). «Síntesis de voz de alta fidelidad con WaveNet». DeepMind . Archivado desde el original el 18 de junio de 2022. Consultado el 5 de junio de 2022 .
  4. ^ abcde Zwiezen, Zack (18 de enero de 2021). «Sitio web que te permite hacer que GLaDOS diga lo que quieras». Kotaku . Archivado desde el original el 17 de enero de 2021. Consultado el 18 de enero de 2021 .
  5. ^ abcd Ruppert, Liana (18 de enero de 2021). "Haz que GLaDOS de Portal y otros personajes queridos digan las cosas más raras con esta aplicación". Game Informer . Archivado desde el original el 18 de enero de 2021 . Consultado el 18 de enero de 2021 .
  6. ^ abc Clayton, Natalie (19 de enero de 2021). «Haz que el elenco de TF2 recite viejos memes con esta herramienta de texto a voz con inteligencia artificial». PC Gamer . Archivado desde el original el 19 de enero de 2021. Consultado el 19 de enero de 2021 .
  7. ^ ab Morton, Lauren (18 de enero de 2021). "Pon palabras en boca de los personajes del juego con esta fascinante herramienta de texto a voz". Piedra, papel, escopeta . Archivado desde el original el 18 de enero de 2021. Consultado el 18 de enero de 2021 .
  8. ^ Ng, Andrew (1 de abril de 2020). «Clonación de voces para las masas». The Batch . Archivado desde el original el 7 de agosto de 2020. Consultado el 5 de abril de 2020 .
  9. ^ abcd Lopez, Ule (16 de enero de 2022). «La empresa de NFT respaldada por Troy Baker admite haber utilizado líneas de voz tomadas de otro servicio sin permiso». Wccftech . Archivado desde el original el 16 de enero de 2022 . Consultado el 7 de junio de 2022 .
  10. ^ abcdefghij Kurosawa, Yuki (19 de enero de 2021). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる". AUTÓMATO . Archivado desde el original el 19 de enero de 2021 . Consultado el 19 de enero de 2021 .
  11. ^ abcde Yoshiyuki, Furushima (18 de enero de 2021). "『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に". Denfaminicogamer . Archivado desde el original el 18 de enero de 2021 . Recuperado el 18 de enero de 2021 .
  12. ^ abcde Williams, Demi (18 de enero de 2022). «Voiceverse NFT admite haber tomado líneas de voz de un servicio no comercial». NME . Archivado desde el original el 18 de enero de 2022. Consultado el 18 de enero de 2022 .
  13. ^ abcdef Wright, Steve (17 de enero de 2022). «La empresa de NFT respaldada por Troy Baker admite usar contenido sin permiso». Stevivor . Archivado desde el original el 17 de enero de 2022 . Consultado el 17 de enero de 2022 .
  14. ^ abcd Henry, Joseph (18 de enero de 2022). «Según se informa, la empresa de NFT asociada de Troy Baker, Voiceverse, roba líneas de voz de 15.ai». Tech Times . Archivado desde el original el 26 de enero de 2022 . Consultado el 14 de febrero de 2022 .
  15. ^ @fifteenai (23 de febrero de 2023). "Si todo va bien, la próxima actualización debería ser la culminación de un año y medio de trabajo ininterrumpido dedicado a una gran cantidad de correcciones y mejoras importantes del algoritmo. Solo denme un poco más de tiempo; debería valer la pena" ( Tweet ) – vía Twitter .
  16. ↑ abc Villalobos, José (18 de enero de 2021). "Descubre 15.AI, un sitio web en el que podrás hacer que GlaDOS diga lo que quieras". LaPS4 . Archivado desde el original el 18 de enero de 2021 . Consultado el 18 de enero de 2021 .
  17. Moto, Eugenio (20 de enero de 2021). "15.ai, el sitio que te permite usar voces de personajes populares para que digan lo que quieras". Yahoo! Finanzas . Archivado desde el original el 8 de marzo de 2022 . Consultado el 20 de enero de 2021 .
  18. ^ Felbo, Bjarke (2017). "Uso de millones de ocurrencias de emojis para aprender representaciones de cualquier dominio para detectar sentimientos, emociones y sarcasmo". Actas de la Conferencia de 2017 sobre métodos empíricos en procesamiento del lenguaje natural . págs. 1615–1625. arXiv : 1708.00524 . doi :10.18653/v1/D17-1169. S2CID  2493033.
  19. ^ Corfield, Gareth (7 de agosto de 2017). "¿Un robot detector de sarcasmo? Eso suena absolutamente brillante. Definitivamente". The Register . Archivado desde el original el 2 de junio de 2022. Consultado el 2 de junio de 2022 .
  20. ^ "Un algoritmo entrenado con emojis sabe cuándo estás siendo sarcástico en Twitter". MIT Technology Review . 3 de agosto de 2017. Archivado desde el original el 2 de junio de 2022 . Consultado el 2 de junio de 2022 .
  21. ^ "Los emojis ayudan al software a detectar emociones y sarcasmo". BBC . 7 de agosto de 2017. Archivado desde el original el 2 de junio de 2022 . Consultado el 2 de junio de 2022 .
  22. ^ Lowe, Josh (7 de agosto de 2017). «Los tuits malintencionados llenos de emojis ayudan a los científicos a crear un robot detector de sarcasmo que podría descubrir discursos de odio». Newsweek . Archivado desde el original el 2 de junio de 2022 . Consultado el 2 de junio de 2022 .
  23. ^ Valle, Rafael (2020). "Mellotron: síntesis de voz expresiva multiparlante mediante condicionamiento de ritmo, tono y tokens de estilo global". arXiv : 1910.11997 [eess].
  24. ^ Cooper, Erica (2020). "Texto a voz de múltiples hablantes con cero disparos e incrustaciones de hablantes neuronales de última generación". arXiv : 1910.10838 [eess].
  25. ^ Klautau, Aldebaro (2001). «ARPABET y el alfabeto TIMIT» (PDF) . Archivado desde el original (PDF) el 3 de junio de 2016 . Consultado el 8 de septiembre de 2017 .
  26. ^ "Fonética" (PDF) . Universidad de Columbia . 2017. Archivado (PDF) del original el 19 de junio de 2022 . Consultado el 11 de junio de 2022 .
  27. ^ Loots, Linsen (marzo de 2010). Data-Driven Augmentation of Pronunciation Dictionaries (MSc). Universidad de Stellenbosch, Departamento de Ingeniería Eléctrica y Electrónica. CiteSeerX 10.1.1.832.2872 . Archivado desde el original el 11 de junio de 2022. Consultado el 11 de junio de 2022. Tabla 3.2 
  28. ^ "El diccionario de pronunciación de la CMU". Diccionario de pronunciación de la CMU . 16 de julio de 2015. Archivado desde el original el 3 de junio de 2022. Consultado el 4 de junio de 2022 .
  29. ^ Hsu, Wei-Ning (2018). "Modelado generativo jerárquico para síntesis de voz controlable". arXiv : 1810.07217 [cs.CL].
  30. ^ Habib, Raza (2019). "Modelado generativo semisupervisado para síntesis de voz controlable". arXiv : 1910.01709 [cs.CL].
  31. ^ "Muestras de audio de "Entrenamiento semisupervisado para mejorar la eficiencia de los datos en la síntesis de voz de extremo a extremo"". 30 de agosto de 2018. Archivado desde el original el 11 de noviembre de 2020. Consultado el 5 de junio de 2022 .
  32. ^ Shen, Jonathan; Pang, Ruoming; Weiss, Ron J.; Schuster, Mike; Jaitly, Navdeep; Yang, Zongheng; Chen, Zhifeng; Zhang, Yu; Wang, Yuxuan; Skerry-Ryan, RJ; Saurous, Rif A.; Agiomyrgiannakis, Yannis; Wu, Yonghui (2018). "Síntesis natural de TTS mediante el condicionamiento de WaveNet en predicciones de espectrogramas Mel". arXiv : 1712.05884 [cs.CL].
  33. ^ Chung, Yu-An (2018). "Entrenamiento semisupervisado para mejorar la eficiencia de los datos en la síntesis de voz de extremo a extremo". arXiv : 1808.10128 [cs.CL].
  34. ^ Ren, Yi (2019). "Texto a voz casi sin supervisión y reconocimiento automático de voz". arXiv : 1905.06791 [cs.CL].
  35. ^ abcd Phillips, Tom (17 de enero de 2022). «La empresa de NFT respaldada por Troy Baker admite haber utilizado líneas de voz tomadas de otro servicio sin permiso». Eurogamer . Archivado desde el original el 17 de enero de 2022. Consultado el 17 de enero de 2022 .
  36. ^ - F.2d – (2d Cir, 2015). (citas temporales: 2015 US App. LEXIS 17988; opinión de Slip [ enlace muerto permanente ] (16 de octubre de 2015))
  37. ^ "15.ai – Acerca de". 15.ai . 20 de febrero de 2022. Archivado desde el original el 6 de octubre de 2021 . Consultado el 20 de febrero de 2022 .
  38. ^ Branwen, Gwern (6 de marzo de 2020). ""15.ai "⁠, 15, Proyecto de preservación de ponis". Gwern.net . Gwen. Archivado desde el original el 18 de marzo de 2022 . Consultado el 17 de junio de 2022 .
  39. ^ Scotellaro, Shaun (14 de marzo de 2020). "Proyecto de preservación de ponis: uso de redes neuronales para crear voces de ponis". Equestria Daily . Archivado desde el original el 23 de junio de 2021. Consultado el 11 de junio de 2022 .
  40. ^ "Proyecto de preservación de ponis (Hilo 108)". 4chan . Desuarchive. 20 de febrero de 2022 . Consultado el 20 de febrero de 2022 .
  41. ^ Scotellaro, Shaun (15 de mayo de 2022). «Episodio animado simple y completo: Las exenciones fiscales (Crepúsculo)». Equestria Daily . Archivado desde el original el 21 de mayo de 2022. Consultado el 28 de mayo de 2022 .
  42. ^ Las terribles tribulaciones de Twilight Sparkle. 27 de abril de 2014. Archivado desde el original el 30 de junio de 2022. Consultado el 28 de abril de 2022 . {{cite book}}: |website=ignorado ( ayuda )
  43. ^ Phillips, Tom (14 de enero de 2022). «El actor de doblaje de videojuegos Troy Baker ahora está promocionando NFT». Eurogamer . Archivado desde el original el 14 de enero de 2022. Consultado el 14 de enero de 2022 .
  44. ^ McWhertor, Michael (14 de enero de 2022). «El actor de doblaje de The Last of Us quiere vender 'NFT de voz', lo que genera ira». Polygon . Archivado desde el original el 14 de enero de 2022 . Consultado el 14 de enero de 2022 .
  45. ^ "El actor de doblaje de The Last Of Us enfurece a todos con la promoción de NFT". Kotaku . 14 de enero de 2022. Archivado desde el original el 14 de enero de 2022 . Consultado el 14 de enero de 2022 .
  46. ^ Purslow, Matt (14 de enero de 2022). «Troy Baker está trabajando con NFT, pero los fans no están impresionados». IGN . Archivado desde el original el 14 de enero de 2022 . Consultado el 14 de enero de 2022 .
  47. ^ Strickland, Derek (31 de enero de 2022). «El actor de The Last of Us, Troy Baker, hace caso a los fans y abandona los planes de NFT». Tweaktown . Archivado desde el original el 31 de enero de 2022 . Consultado el 31 de enero de 2022 .
  48. ^ Peters, Jay (31 de enero de 2022). «La voz de Joel de The Last of Us se aleja del proyecto NFT tras las protestas». The Verge . Archivado desde el original el 4 de febrero de 2022. Consultado el 4 de febrero de 2022 .
Tweets
  1. ^ @TroyBakerVA (14 de enero de 2022). "Me estoy asociando con @VoiceverseNFT para explorar formas en las que juntos podamos brindar nuevas herramientas a los nuevos creadores para que puedan crear cosas nuevas y permitir que todos tengan la oportunidad de poseer e invertir en las IP que crean. Todos tenemos una historia que contar. Puedes odiar. O puedes crear. ¿Qué será?" ( Tweet ) – vía Twitter .
  2. ^ @fifteenai (12 de diciembre de 2021). "No tengo ningún interés en incorporar NFT en ningún aspecto de mi trabajo. Por favor, dejen de preguntar" ( Tweet ) – vía Twitter .
  3. ^ @fifteenai (14 de enero de 2022). "Me han informado de que la síntesis vocal NFT antes mencionada está intentando activamente apropiarse de mi trabajo para su propio beneficio. Después de revisar los archivos de registro, tengo evidencia de que algunas de las voces por las que se atribuyen el mérito fueron efectivamente generadas desde mi propio sitio" ( Tweet ) – vía Twitter .
  4. ^ @VoiceverseNFT (14 de enero de 2022). "Hola @fifteenai, lamentamos mucho esto. La voz fue tomada de su plataforma y nuestro equipo de marketing la utilizó sin darle el crédito correspondiente. El equipo de Chubbiverse no tiene conocimiento de esto. Nos aseguraremos de que esto no vuelva a suceder" ( Tweet ) – vía Twitter .
  5. ^ @fifteenai (14 de enero de 2022). "Vete a la mierda" ( Tweet ) – vía Twitter .
  6. ^ @VoiceverseNFT (7 de enero de 2022). "Me pregunto quién creó la voz para esto ;)" ( Tweet ). Archivado del original el 7 de enero de 2022 – vía Twitter .
  7. ^ @fifteenai (14 de enero de 2022). "Parece una estafa" ( Tweet ) – vía Twitter .
  8. ^ @fifteenai (14 de enero de 2022). "Otorgue el crédito correspondiente o elimine esta publicación" ( Tweet ) – vía Twitter .
  9. ^ @fifteenai (14 de enero de 2022). "Ciertamente no tú :)" ( Tweet ) – vía Twitter .
  10. ^ @fifteenai (14 de enero de 2022). "Vete a la mierda" ( Tweet ) – vía Twitter .
  11. ^ @yongyea (14 de enero de 2022). "El plan NFT que Troy Baker está promoviendo ya se encuentra en problemas después de robar y sacar provecho del trabajo de otros. ¿Quién podría haberlo previsto?" ( Tweet ) – vía Twitter .
  12. ^ @BronyStruggle (15 de enero de 2022). "actual" ( Tweet ) – vía Twitter .
YouTube (se hace referencia únicamente a los recuentos de vistas y al uso de 15.ai)
  1. ^ "SPY IS A FURRY". YouTube . 17 de enero de 2021. Archivado desde el original el 13 de junio de 2022 . Consultado el 14 de junio de 2022 .
  2. ^ "Spy es un Furry Animated". YouTube . Archivado desde el original el 14 de junio de 2022 . Consultado el 14 de junio de 2022 .
  3. ^ "[SFM] – La confesión de un espía – [TF2 15.ai]". YouTube . 15 de enero de 2021. Archivado desde el original el 30 de junio de 2022 . Consultado el 14 de junio de 2022 .
  4. ^ "Entre nosotros luchan". YouTube . 21 de septiembre de 2020 . Consultado el 15 de julio de 2022 .
  5. ^ "La cronología ACTUALIZADA de 2b2t (2010-2020)". YouTube . 14 de marzo de 2020. Archivado desde el original el 1 de junio de 2022 . Consultado el 14 de junio de 2022 .
TikTok
  1. ^ "Ella dijo " 👹 "". TikTok . Consultado el 15 de julio de 2022 .

Enlaces externos