stringtranslate.com

15.ai

15.ai es una aplicación web de inteligencia artificial gratuita y no comercial que genera voces naturales emotivas de alta fidelidad [a] de texto a voz a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. [4] [5] [6] [7] Desarrollado por un investigador seudónimo del MIT bajo el nombre 15 , el proyecto utiliza una combinación de algoritmos de síntesis de audio , redes neuronales profundas de síntesis de voz y modelos de análisis de sentimientos para generar y servir voces de personajes emotivas. más rápido que en tiempo real, particularmente aquellos con una cantidad muy pequeña de datos entrenables .

Lanzado a principios de 2020, 15.ai comenzó como una prueba de concepto de democratización de la actuación de voz y el doblaje mediante la tecnología. [8] Se han elogiado su naturaleza gratuita y no comercial (con la única estipulación de que el proyecto se acreditará adecuadamente cuando se utilice), su facilidad de uso, la ausencia de requisitos de registro de cuenta de usuario y las mejoras sustanciales en las implementaciones actuales de texto a voz. por los usuarios; [5] [9] [4] [6] sin embargo, algunos críticos y actores de voz han cuestionado la legalidad y ética de dejar dicha tecnología disponible públicamente y fácilmente accesible. [8] [10] [11]

Acreditado como el impulso detrás de la popularización de la clonación de voz con IA (también conocida como audio deepfakes ) en la creación de contenido y como el primer proyecto de síntesis vocal con IA disponible públicamente que involucra el uso de personajes ficticios populares existentes, 15.ai ha tenido un impacto significativo en múltiples fandoms de Internet , en particular los fandoms de My Little Pony: Friendship Is Magic , Team Fortress 2 y Bob Esponja . Además, 15.ai ha inspirado el uso del Proyecto de Preservación de Pony de 4chan en otros proyectos de inteligencia artificial generativa . [12] [13]

Con la creciente popularidad de 15.ai, han surgido varias alternativas comerciales, lo que ha dado lugar a casos de atribución errónea y robo. En enero de 2022, se descubrió que Voiceverse NFT , una empresa con la que el actor de doblaje Troy Baker anunció su asociación, había plagiado el trabajo de 15.ai como parte de su plataforma. [14] [15] [16]

El 8 de septiembre de 2022, 15.ai se eliminó temporalmente en preparación para una próxima actualización, un año después de su última versión estable (v24.2.1). En febrero de 2024, todavía está temporalmente fuera de línea, aunque el nuevo ícono de avatar se actualizó en Twitter. [17]

Características

HAL 9000 , conocido por su siniestra voz robótica, es uno de los personajes disponibles en 15.ai. [4]

Los personajes disponibles incluyen GLaDOS y Wheatley de Portal , personajes de Team Fortress 2 , Twilight Sparkle y varios personajes principales, secundarios y secundarios de My Little Pony: La Magia de la Amistad , Bob Esponja de Bob Esponja , Daria Morgendorffer y Jane Lane de Daria . el Décimo Doctor de Doctor Who , HAL 9000 de 2001: Una Odisea en el Espacio , el Narrador de The Stanley Parable , el Locutor de Super Smash Bros. de Wii U/3DS / Switch (anteriormente), Carl Brutananadilewski de Aqua Teen Hunger Force , Steven Universe de Steven Universe , Dan de Dan vs. y Sans de Undertale . [13] [12] [18] [19]

El modelo de aprendizaje profundo utilizado por la aplicación no es determinista : cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma y que sirve como guía para el modelo durante la inferencia. [9] [12] [13] Los contextualizadores emocionales son representaciones del contenido emocional de una oración deducida mediante incrustaciones de emoji aprendidas mediante transferencia utilizando DeepMoji, un algoritmo de análisis de sentimiento de red neuronal profunda desarrollado por el MIT Media Lab en 2017. [20] [21 ] DeepMoji se entrenó en 1.200 millones de apariciones de emoji en datos de Twitter de 2013 a 2017, y se descubrió que supera a los seres humanos en la identificación correcta del sarcasmo en tweets y otros modos de comunicación en línea. [22] [23] [24]

15.ai utiliza un modelo de múltiples hablantes: se entrenan cientos de voces simultáneamente en lugar de secuencialmente, lo que reduce el tiempo de entrenamiento requerido y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces sin exposición a dicho contexto emocional. [25] En consecuencia, toda la gama de personajes de la aplicación funciona con un único modelo entrenado, a diferencia de varios modelos de un solo hablante entrenados en diferentes conjuntos de datos. [26] El léxico utilizado por 15.ai ha sido extraído de una variedad de fuentes de Internet, incluidos los diccionarios de Oxford , Wiktionary , el diccionario de pronunciación CMU , 4chan , Reddit y Twitter . Las pronunciaciones de palabras desconocidas se deducen automáticamente utilizando reglas fonológicas aprendidas mediante el modelo de aprendizaje profundo. [12]

La aplicación admite una versión simplificada de un conjunto de transcripciones fonéticas en inglés conocidas como ARPABET para corregir errores de pronunciación o dar cuenta de heterónimos : palabras que se escriben igual pero se pronuncian de manera diferente (como la palabra leído , que se puede pronunciar como / ˈ r ɛ d / o / ˈ r d / dependiendo de su tiempo verbal ). Mientras que los códigos ARPABET originales desarrollados en la década de 1970 por la Agencia de Proyectos de Investigación Avanzada admiten 50 símbolos únicos para designar y diferenciar entre fonemas en inglés, [27] la convención ARPABET del Diccionario de pronunciación CMU (el conjunto de códigos de transcripción seguido de 15.ai [ 12] ) reduce el conjunto de símbolos a 39 fonemas combinando realizaciones fonéticas alofónicasAXR/ER en un único estándar (p. ej .; ) y utilizando múltiples símbolos comunes juntos para reemplazar consonantes silábicas (p.ej. ). [28] [29] Las cadenas ARPABET se pueden invocar en la aplicación envolviendo la cadena de fonemas entre llaves dentro del cuadro de entrada (por ejemplo, para indicar / ˈ ɑːr p ə ˌ b ɛ t / , la pronunciación de la palabra ARPABET ). [12]UX/UWEN/AH0 N{AA1 R P AH0 B EH2 T}

La siguiente es una tabla de fonemas utilizados por 15.ai y el Diccionario de pronunciación CMU: [30]

Fondo

Síntesis de voz

Una pila de capas convolucionales casuales dilatadas utilizadas en WaveNet de DeepMind . [3]

En 2016, con la propuesta de WaveNet de DeepMind , los modelos basados ​​en aprendizaje profundo para la síntesis de voz comenzaron a ganar popularidad como método para modelar formas de onda y generar un habla similar a la humana. [31] [32] [3] [8] Tacotron2, una arquitectura de red neuronal para síntesis de voz desarrollada por Google AI , se publicó en 2018 y requirió decenas de horas de datos de audio para producir un habla inteligible; cuando se entrenó con 2 horas de habla, el modelo pudo producir un habla inteligible con una calidad mediocre, y cuando se entrenó con 36 minutos de habla, el modelo no pudo producir un habla inteligible. [33] [34]

Durante años, reducir la cantidad de datos necesarios para entrenar un modelo realista de conversión de texto a voz de alta calidad ha sido el objetivo principal de los investigadores científicos en el campo de la síntesis de voz con aprendizaje profundo. [35] [36] El desarrollador de 15.ai afirma que tan solo 15 segundos de datos son suficientes para clonar una voz hasta los estándares humanos, una reducción significativa en la cantidad de datos necesarios. [9] [37]

Material con derechos de autor en aprendizaje profundo

Un caso histórico entre Google y el Authors Guild en 2013 dictaminó que Google Books (un servicio que busca el texto completo de libros impresos protegidos por derechos de autor) era transformador y, por lo tanto, cumplía con todos los requisitos de uso legítimo. [38] Este caso sentó un precedente legal importante para el campo del aprendizaje profundo y la inteligencia artificial: el uso de material protegido por derechos de autor para entrenar un modelo discriminativo o un modelo generativo no comercial se consideró legal. [39] La legalidad de los modelos generativos comerciales entrenados utilizando material protegido por derechos de autor aún está en debate; Debido a la naturaleza de caja negra de los modelos de aprendizaje automático, cualquier acusación de infracción de derechos de autor a través de competencia directa sería difícil de probar. [39]

Desarrollo

15.ai fue diseñado y creado por un investigador científico anónimo afiliado al Instituto de Tecnología de Massachusetts conocido con el alias 15 . [40] El proyecto comenzó a desarrollarse mientras el desarrollador era un estudiante universitario. El desarrollador ha declarado que son capaces de pagar el alto costo de administrar el sitio de su bolsillo. [9]

Según publicaciones realizadas por su desarrollador en Hacker News , el funcionamiento de 15.ai cuesta varios miles de dólares al mes; pueden apoyar el proyecto gracias a una salida exitosa de la startup . [41] El desarrollador ha declarado que durante sus años universitarios en el MIT, les pagaron la tarifa mínima por hora para trabajar en un proyecto relacionado (aproximadamente $14 por hora en Massachusetts [42] ) que eventualmente evolucionó a 15.ai. También afirmaron que la democratización de la tecnología de clonación de voz no es la única función del sitio web; En respuesta a un usuario que preguntó si la investigación podría realizarse sin un sitio web público, el desarrollador escribió:

[...] El sitio web tiene múltiples propósitos. Sirve como prueba de concepto de una plataforma que permite a cualquiera crear contenido , incluso si no pueden contratar a alguien para expresar sus proyectos.

También demuestra el progreso de mi investigación de una manera mucho más atractiva: al poder usar el modelo real, puedes descubrir cosas sobre él que ni siquiera yo conocía (como hacer que los personajes emitan jadeos o gemidos al colocar comas entre ciertos fonemas).

Tampoco me permite elegir los mejores resultados y mostrar solo los que funcionan (lo cual creo que es un gran problema endémico en ML hoy en día: es falso y engañoso). Ser capaz de interactuar con el modelo sin filtro permite al usuario juzgar exactamente qué tan bueno es el trabajo actual al pie de la letra.

—  15ai, Noticias de hackers [41]

El algoritmo utilizado por el proyecto para facilitar la clonación de voces con datos mínimos viables ha sido denominado DeepThroat [43] (un doble sentido en referencia a la síntesis del habla utilizando redes neuronales profundas y el acto sexual de garganta profunda ). El proyecto y el algoritmo, inicialmente concebidos como parte del Programa de Oportunidades de Investigación para Pregrado del MIT , habían estado en desarrollo durante años antes del primer lanzamiento de la aplicación. [9] [12]

El Proyecto de Preservación de Pony del tablero /mlp/ de 4chan ha sido parte integral del desarrollo de 15.ai. [44]

El desarrollador también ha trabajado estrechamente con el Proyecto de Preservación de Pony de /mlp/, el tablero My Little Pony de 4chan . El Proyecto de Preservación de Pony , que comenzó en 2019, es un "esfuerzo colaborativo de /mlp/ para construir y curar conjuntos de datos de pony" con el objetivo de crear aplicaciones en inteligencia artificial. [44] [45] [46] Las voces de Friendship Is Magic en 15.ai se entrenaron en un gran conjunto de datos recopilados por el Pony Preservation Project: audio y diálogo del programa y medios relacionados, incluidas las nueve temporadas de Friendship Is Magic . La película de 2017 , los derivados , las filtraciones y otros contenidos expresados ​​por los mismos actores de doblaje se analizaron , transcribieron a mano y procesaron para eliminar el ruido de fondo. Según el desarrollador, los esfuerzos colectivos y las críticas constructivas del Proyecto de Preservación de Pony han sido parte integral del desarrollo de 15.ai. [44]

Además, el desarrollador ha declarado que el logotipo de 15.ai, que presenta una Twilight Sparkle robótica , es un homenaje al hecho de que su voz (tal como la interpretó originalmente Tara Strong ) era indispensable para la implementación de contextualizadores emocionales. [41]

Recepción

El informático Andrew Ng escribió que la tecnología detrás de 15.ai podría potencialmente abrirse a casos de suplantación de identidad y fraude .

15.ai ha tenido una acogida muy positiva. Liana Ruppert de Game Informer describió 15.ai como "simplistamente brillante". [5] Lauren Morton de Rock, Paper, Shotgun y Natalia Clayton de PCGamer lo llamaron "fascinante", [7] [6] y José Villalobos de LaPS4 escribió que "funciona tan fácil como parece". [18] [b] Los usuarios elogiaron la capacidad de crear fácilmente audio de personajes populares que suenan creíbles para quienes no saben que las voces habían sido sintetizadas por inteligencia artificial: Zack Zwiezen de Kotaku informó que "[su] novia estaba convencida de que era una nueva línea de voz de la actriz de voz de GLaDOS , Ellen McLain ", [4] mientras que Rionaldi Chandraseta de Towards Data Science escribió que, al ver un video de YouTube con voces de personajes populares generados por 15.ai, "[su] primer pensamiento fue el creador del video usó cameo.com para pagar nuevos diálogos de los actores de doblaje originales" y afirmó que "la calidad de las voces realizadas por 15.ai está muy por delante de [sus competidores]". [9]

La recepción también ha sido muy aclamada en el extranjero, especialmente en Japón . Takayuki Furushima de Den Fami Nico Gamer ha descrito 15.ai como "como magia", y Yuki Kurosawa de Automaton Media lo llamó "revolucionario". [13] [12]

El informático y empresario tecnológico Andrew Ng comentó en su boletín The Batch que la tecnología detrás de 15.ai podría ser "enormemente productiva" y podría "revolucionar el uso de actores virtuales "; sin embargo, también señaló que "sintetizar la voz de un actor humano sin consentimiento es posiblemente poco ético y posiblemente ilegal" y podría dar lugar a casos de suplantación de identidad y fraude . [8] [10] En su blog Marginal Revolution , el economista Tyler Cowen consideró a 15 como uno de los "talentos más subestimados en IA y aprendizaje automático". [47]

Impacto

Creación de contenido fandom.

15.ai se ha utilizado con frecuencia para la creación de contenido en varios fandoms , incluido el fandom de My Little Pony: Friendship Is Magic , el fandom de Team Fortress 2 , el fandom de Portal y el fandom de Bob Esponja . Numerosos vídeos y proyectos que contienen discursos de 15.ai se han vuelto virales . [9] [4] [5] Sin embargo, algunos videos y proyectos que contienen discursos no generados por 15.ai también se han vuelto virales, muchos de los cuales no dan crédito adecuadamente a las fuentes del discurso sintético que aparecen en ellos. Como consecuencia, muchos vídeos y proyectos que se han realizado con otro software de síntesis de voz se han confundido con 15.ai, y viceversa. Debido a esta atribución errónea y la falta de crédito adecuado, los términos de servicio de 15.ai tienen una regla que prohíbe tener discursos generados por 15.ai y no generados por 15.ai en los mismos videos y proyectos. [48]

Como resultado directo, el fandom de My Little Pony: La Magia de la Amistad ha visto un resurgimiento en la creación de contenido musical y de vídeo, inspirando un nuevo género de contenido creado por fans asistido por inteligencia artificial. Algunos fanfiction se han adaptado en "episodios" con voz completa: The Tax Breaks es una interpretación en video animado de 17 minutos de duración de una historia escrita por un fan publicada en 2014 que utiliza voces generadas a partir de 15.ai con efectos de sonido y edición de audio , emulando el Estilo episódico de las primeras temporadas de Friendship Is Magic . [49] [50]

Los videos virales del fandom de Team Fortress 2 que presentan voces de 15.ai incluyen Spy is a Furry (que ha obtenido más de 3 millones de visitas en total en YouTube en múltiples videos [yt 1] [yt 2] [yt 3] ) y The RED. Bread Bank , los cuales han inspirado las interpretaciones de videos animados de Source Filmmaker . [12] Otros fandoms han utilizado voces de 15.ai para producir videos virales. En julio de 2022 , el vídeo viral Among Us Struggles (que utiliza voces de Friendship Is Magic ) tiene más de 5,5 millones de visitas en YouTube; [yt 4] YouTubers , TikTokers y streamers de Twitch también han utilizado 15.ai para sus videos, como el video de FitMC sobre la historia de 2b2t , uno de los servidores de Minecraft más antiguos , y el video de TikTok de datpon3 que presenta a los personajes principales de Friendship Is. Magic , que cuentan con 1,4 millones y 510 mil visualizaciones, respectivamente. [yt 5] [tt 1]

Algunos usuarios han creado asistentes virtuales de IA utilizando 15.ai y un software de control de voz externo. Un usuario de Twitter creó su propio asistente de escritorio personal para GLaDOS utilizando el sistema de control por voz VoiceAttack, que es capaz de iniciar aplicaciones, pronunciar los diálogos aleatorios correspondientes y agradecer al usuario en respuesta a sus acciones. [12] [13]

Escándalo de plagio de Troy Baker/Voiceverse NFT

Me estoy asociando con @VoiceverseNFT para explorar formas en las que juntos podamos brindar nuevas herramientas a los nuevos creadores para que creen cosas nuevas y permitir que todos tengan la oportunidad de poseer e invertir en las IP que crean. Todos tenemos una historia que contar. Puedes odiar. O puedes crear. ¿Qué será?

14 de enero de 2022 [tuit 1]

En diciembre de 2021, el desarrollador de 15.ai publicó en Twitter que no tenía interés en incorporar tokens no fungibles (NFT) en su trabajo. [11] [15] [tuit 2]

El 14 de enero de 2022, se descubrió que Voiceverse NFT, una empresa con la que el actor de doblaje de videojuegos y anime Troy Baker anunció su asociación, había plagiado líneas de voz generadas a partir de 15.ai como parte de su campaña de marketing. [14] [15] [16] Los archivos de registro mostraron que Voiceverse había generado audio de Twilight Sparkle y Rainbow Dash del programa My Little Pony: Friendship Is Magic usando 15.ai, los había mejorado para que sonaran irreconocibles de las voces originales. y se apropió de ellos sin el crédito adecuado para comercializar falsamente su propia plataforma, una violación de los términos de servicio de 15.ai. [37] [11] [16]

Me han informado que la síntesis vocal NFT antes mencionada está intentando activamente apropiarse de mi trabajo para su propio beneficio. Después de revisar los archivos de registro , tengo evidencia de que algunas de las voces por las que se atribuyen el mérito se generaron desde mi propio sitio.

14 de enero de 2022 [tuit 3]

Hola @fifteenai, lamentamos mucho esto. De hecho, la voz fue tomada de su plataforma, que nuestro equipo de marketing utilizó sin dar el crédito adecuado. El equipo de Chubbiverse no tiene conocimiento de esto. Nos aseguraremos de que esto nunca vuelva a suceder.

14 de enero de 2022 [tuit 4]

Vete a la mierda.

14 de enero de 2022 [tuit 5]

Una semana antes del anuncio de la asociación con Baker, Voiceverse hizo una publicación en Twitter (ahora eliminada) respondiendo directamente a un video (ahora eliminado) publicado por Chubbiverse, una plataforma NFT con la que Voiceverse se había asociado, que muestra una imagen generada por IA. voz y afirmó que se generó usando la plataforma de Voiceverse, comentando "Me pregunto quién creó la voz para esto? ;)" [14] [tweet 6] Unas horas después de que se supo la noticia de la asociación, el desarrollador de 15.ai—habiendo sido alertado por otro usuario de Twitter que le pedía su opinión sobre la asociación, a lo que especuló que "suena como una estafa" [tweet 7] : publicó capturas de pantalla de archivos de registro que demostraban que un usuario del sitio web (con su dirección IP redactada ) había enviado aportes de las palabras exactas pronunciadas por la voz de IA en el video publicado por Chubbiverse, [tweet 8] y posteriormente respondió directamente al reclamo de Voiceverse, tuiteando "Ciertamente, tú no :)". [37] [15] [tuit 9]

Tras el tweet, Voiceverse admitió haber plagiado voces de 15.ai como su propia plataforma, alegando que su equipo de marketing había utilizado el proyecto sin dar el crédito adecuado y que "el equipo de Chubbiverse no tenía conocimiento de esto". En respuesta a la admisión, 15 tuiteó " Vete a la mierda ". [14] [15] [16] [37] El tweet final se volvió viral , acumulando más de 75.000 me gusta en total y 13.000 retweets en total en múltiples publicaciones. [tuit 10] [tuit 11] [tuit 12]

La asociación inicial entre Baker y Voiceverse se encontró con una fuerte reacción y una recepción universalmente negativa. [14] Los críticos destacaron el impacto ambiental y el potencial de estafas de salida asociadas con las ventas de NFT. [51] Los comentaristas también señalaron la ironía del Tweet inicial de Baker anunciando la asociación, que terminaba con "Puedes odiar. O puedes crear. ¿Qué será?", horas antes de la revelación pública de que la empresa en cuestión había recurrido al robo en lugar de crear su propio producto. Baker respondió que apreciaba que las personas compartieran sus pensamientos y que sus respuestas "le daban mucho en qué pensar". [52] [53] También reconoció que la parte "odiar/crear" en su Tweet inicial podría haber sido "un poco antagónica" y pidió a los fans en las redes sociales que lo perdonaran. [15] [54] Dos semanas después, el 31 de enero, Baker anunció que descontinuaría su asociación con Voiceverse. [55] [56] [57]

Reacciones de los actores de doblaje.

Algunos actores de doblaje han denunciado públicamente el uso de tecnología de clonación de voz. Las razones citadas incluyen preocupaciones sobre la suplantación de identidad y el fraude , el uso no autorizado de la voz de un actor en pornografía y el potencial de la IA para volver obsoletos a los actores de doblaje . [8] [10] [11]

Ver también

Notas

  1. ^ La frase "alta fidelidad" en la investigación de TTS se utiliza a menudo para describir codificadores de voz que pueden reconstruir formas de onda con muy poca distorsión y no es simplemente sinónimo de "alta calidad". Consulte los artículos sobre HiFi-GAN, [1] GAN-TTS, [2] y WaveNet paralelo [3] para obtener ejemplos imparciales de este uso de terminología.
  2. ^ Traducido de la cita original escrita en español: "La dirección es 15.AI y funciona tan fácil como parece". [18]

Referencias

Notas
  1. ^ Kong, Jungil (2020). "HiFi-GAN: redes generativas adversarias para una síntesis de voz eficiente y de alta fidelidad". arXiv : 2010.05646v2 [cs].
  2. ^ Binkowski, Mikołaj (2019). "Síntesis de voz de alta fidelidad con redes adversarias". arXiv : 1909.11646v2 [cs].
  3. ^ abc van den Oord, Aäron; Li, Yazhe; Babuschkin, Igor (12 de noviembre de 2017). "Síntesis de voz de alta fidelidad con WaveNet". Mente profunda . Archivado desde el original el 18 de junio de 2022 . Consultado el 5 de junio de 2022 .
  4. ^ abcde Zwiezen, Zack (18 de enero de 2021). "El sitio web te permite hacer que GLaDOS diga lo que quieras". Kotaku . Kotaku . Archivado desde el original el 17 de enero de 2021 . Consultado el 18 de enero de 2021 .
  5. ^ abcd Ruppert, Liana (18 de enero de 2021). "Haz que GLaDOS de Portal y otros personajes queridos digan las cosas más raras con esta aplicación". Informador del juego . Informador del juego . Archivado desde el original el 18 de enero de 2021 . Consultado el 18 de enero de 2021 .
  6. ^ abc Clayton, Natalie (19 de enero de 2021). "Haz que el elenco de TF2 recite viejos memes con esta herramienta de conversión de texto a voz con IA". Jugador de PC . Jugador de PC . Archivado desde el original el 19 de enero de 2021 . Consultado el 19 de enero de 2021 .
  7. ^ ab Morton, Lauren (18 de enero de 2021). "Pon palabras en la boca de los personajes del juego con esta fascinante herramienta de conversión de texto a voz". Piedra, papel, escopeta . Piedra, papel, escopeta . Archivado desde el original el 18 de enero de 2021 . Consultado el 18 de enero de 2021 .
  8. ^ abcde Ng, Andrew (1 de abril de 2020). "Clonación de voz para las masas". El lote . El lote. Archivado desde el original el 7 de agosto de 2020 . Consultado el 5 de abril de 2020 .
  9. ^ abcdefg Chandraseta, Rionaldi (19 de enero de 2021). "Genera las líneas de voz de tus personajes favoritos mediante el aprendizaje automático". Hacia la ciencia de datos . Archivado desde el original el 21 de enero de 2021 . Consultado el 23 de enero de 2021 .
  10. ^ abc Ng, Andrew (7 de marzo de 2021). "Boletín semanal número 83". El lote . El lote. Archivado desde el original el 26 de febrero de 2022 . Consultado el 7 de marzo de 2021 .
  11. ^ abcd López, Ule (16 de enero de 2022). "La empresa NFT respaldada por Troy Baker admite el uso de líneas de voz extraídas de otro servicio sin permiso". Wccftech . Wccftech. Archivado desde el original el 16 de enero de 2022 . Consultado el 7 de junio de 2022 .
  12. ^ abcdefghij Kurosawa, Yuki (19 de enero de 2021). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる". AUTÓMATO . AUTÓMATA. Archivado desde el original el 19 de enero de 2021 . Consultado el 19 de enero de 2021 .
  13. ^ abcde Yoshiyuki, Furushima (18 de enero de 2021). "『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に". Denfaminicogamer . Archivado desde el original el 18 de enero de 2021 . Consultado el 18 de enero de 2021 .
  14. ^ abcde Williams, Demi (18 de enero de 2022). "Voiceverse NFT admite haber tomado líneas de voz de un servicio no comercial". NME . NME . Archivado desde el original el 18 de enero de 2022 . Consultado el 18 de enero de 2022 .
  15. ^ abcdef Wright, Steve (17 de enero de 2022). "La empresa NFT respaldada por Troy Baker admite haber utilizado contenido sin permiso". Stevivor . Archivado desde el original el 17 de enero de 2022 . Consultado el 17 de enero de 2022 .
  16. ^ abcd Henry, Joseph (18 de enero de 2022). "Según se informa, Voiceverse, la empresa NFT socia de Troy Baker, roba líneas de voz de 15.ai". Tiempos tecnológicos . Archivado desde el original el 26 de enero de 2022 . Consultado el 14 de febrero de 2022 .
  17. ^ "15 en Twitter:" (Probablemente no volveré a abrir Twitter hasta que finalmente lo ponga en funcionamiento) "/ Twitter". Gorjeo . Consultado el 6 de junio de 2023 .
  18. ↑ abc Villalobos, José (18 de enero de 2021). "Descubre 15.AI, un sitio web en el que podrás hacer que GlaDOS diga lo que quieras". LaPS4 . LaPS4. Archivado desde el original el 18 de enero de 2021 . Consultado el 18 de enero de 2021 .
  19. Moto, Eugenio (20 de enero de 2021). "15.ai, el sitio que te permite usar voces de personajes populares para que digan lo que quieras". Yahoo! Finanzas . Yahoo! Finanzas . Archivado desde el original el 8 de marzo de 2022 . Consultado el 20 de enero de 2021 .
  20. ^ Felbo, Bjarke (2017). "Usar millones de apariciones de emoji para aprender representaciones de cualquier dominio para detectar sentimientos, emociones y sarcasmo". Actas de la Conferencia de 2017 sobre métodos empíricos en el procesamiento del lenguaje natural . págs. 1615-1625. arXiv : 1708.00524 . doi :10.18653/v1/D17-1169. S2CID  2493033.
  21. ^ Corfield, Gareth (7 de agosto de 2017). "¿Un robot detector de sarcasmo? Eso suena absolutamente brillante. Definitivamente". El registro . El registro . Archivado desde el original el 2 de junio de 2022 . Consultado el 2 de junio de 2022 .
  22. ^ "Un algoritmo entrenado en emoji sabe cuándo estás siendo sarcástico en Twitter". Revisión de tecnología del MIT . Revisión de tecnología del MIT . 3 de agosto de 2017. Archivado desde el original el 2 de junio de 2022 . Consultado el 2 de junio de 2022 .
  23. ^ "Los emojis ayudan al software a detectar emociones y sarcasmo". BBC . BBC . 7 de agosto de 2017. Archivado desde el original el 2 de junio de 2022 . Consultado el 2 de junio de 2022 .
  24. ^ Lowe, Josh (7 de agosto de 2017). "Los tweets malvados llenos de emojis ayudan a los científicos a crear un robot detector de sarcasmo que podría descubrir el discurso de odio". Semana de noticias . Semana de noticias . Archivado desde el original el 2 de junio de 2022 . Consultado el 2 de junio de 2022 .
  25. Valle, Rafael (2020). "Mellotron: síntesis de voz expresiva de múltiples altavoces condicionando el ritmo, el tono y las fichas de estilo global". arXiv : 1910.11997 [eess].
  26. ^ Cooper, Erica (2020). "Conversión de texto a voz de varios altavoces Zero-Shot con incorporaciones de altavoces neuronales de última generación". arXiv : 1910.10838 [eess].
  27. ^ Klautau, Aldebaro (2001). «ARPABET y el alfabeto TIMIT» (PDF) . Archivado desde el original (PDF) el 3 de junio de 2016 . Consultado el 8 de septiembre de 2017 .
  28. ^ "Fonética" (PDF) . Universidad de Colombia . Universidad de Colombia . 2017. Archivado (PDF) desde el original el 19 de junio de 2022 . Consultado el 11 de junio de 2022 .
  29. ^ Botín, Linsen (marzo de 2010). Aumento basado en datos de diccionarios de pronunciación (Maestría). Universidad Stellenbosch, Departamento de Ingeniería Eléctrica y Electrónica. CiteSeerX 10.1.1.832.2872 . Archivado desde el original el 11 de junio de 2022 . Consultado el 11 de junio de 2022 . Tabla 3.2 
  30. ^ "El diccionario de pronunciación de CMU". Diccionario de pronunciación CMU . Diccionario de pronunciación CMU . 16 de julio de 2015. Archivado desde el original el 3 de junio de 2022 . Consultado el 4 de junio de 2022 .
  31. ^ Hsu, Wei-Ning (2018). "Modelado generativo jerárquico para síntesis de voz controlable". arXiv : 1810.07217 [cs.CL].
  32. ^ Habib, Raza (2019). "Modelado generativo semisupervisado para síntesis de voz controlable". arXiv : 1910.01709 [cs.CL].
  33. ^ "Muestras de audio de" Capacitación semisupervisada para mejorar la eficiencia de los datos en la síntesis de voz de un extremo a otro"". 30 de agosto de 2018. Archivado desde el original el 11 de noviembre de 2020 . Consultado el 5 de junio de 2022 .
  34. ^ Shen, Jonatán; Pang, Ruoming; Weiss, Ron J.; Schuster, Mike; Jaitly, Navdeep; Yang, Zongheng; Chen, Zhifeng; Zhang, Yu; Wang, Yuxuan; Skerry-Ryan, RJ; Sauroso, Rif A.; Agiomyrgiannakis, Yannis; Wu, Yonghui (2018). "Síntesis natural de TTS condicionando WaveNet en predicciones de espectrograma Mel". arXiv : 1712.05884 [cs.CL].
  35. ^ Chung, Yu-An (2018). "Capacitación semisupervisada para mejorar la eficiencia de los datos en la síntesis de voz de un extremo a otro". arXiv : 1808.10128 [cs.CL].
  36. ^ Ren, Yi (2019). "Texto a voz casi sin supervisión y reconocimiento automático de voz". arXiv : 1905.06791 [cs.CL].
  37. ^ abcd Phillips, Tom (17 de enero de 2022). "La empresa NFT respaldada por Troy Baker admite el uso de líneas de voz extraídas de otro servicio sin permiso". Eurogamer . Eurogamer . Archivado desde el original el 17 de enero de 2022 . Consultado el 17 de enero de 2022 .
  38. ^ - F.2d - (2.º Cir, 2015). (citas temporales: Solicitud de EE. UU. de 2015 LEXIS 17988; opinión deslizada (16 de octubre de 2015))
  39. ^ ab Stewart, Matthew (31 de octubre de 2019). "La decisión judicial más importante para la ciencia de datos y el aprendizaje automático". Hacia la ciencia de datos . Archivado desde el original el 21 de febrero de 2022 . Consultado el 21 de febrero de 2022 .
  40. ^ "15". Gorjeo . 9 de junio de 2022 . Consultado el 9 de junio de 2022 .
  41. ^ abc "15.ai". Noticias de piratas informáticos . 12 de junio de 2022. Archivado desde el original el 13 de junio de 2022 . Consultado el 13 de junio de 2022 .
  42. ^ "Pago, crédito y voluntariado". MITUROP . _ Archivado desde el original el 19 de junio de 2022 . Consultado el 13 de junio de 2022 .
  43. ^ "15.ai - Acerca de". 15.ai. _ 20 de febrero de 2022 . Consultado el 20 de febrero de 2022 .
  44. ^ abc Branwen, Gwern (6 de marzo de 2020). ""15.ai "⁠, 15, Proyecto de preservación de ponis". Gwern.net . Gwen. Archivado desde el original el 18 de marzo de 2022 . Consultado el 17 de junio de 2022 .
  45. ^ Scotellaro, Shaun (14 de marzo de 2020). Proyecto de preservación de ponis "inteligente" que utiliza redes neuronales para crear voces de ponis. Equestria diario . Equestria diario . Archivado desde el original el 23 de junio de 2021 . Consultado el 11 de junio de 2022 .
  46. ^ "Proyecto de preservación de ponis (hilo 108)". 4chan . Desuarchivo. 20 de febrero de 2022 . Consultado el 20 de febrero de 2022 .
  47. ^ Cowen, Tyler (12 de mayo de 2022). "¿El talento más subestimado en IA?". Revolución Marginal (blog) . Revolución Marginal (blog) . Archivado desde el original el 19 de junio de 2022 . Consultado el 16 de junio de 2022 .
  48. ^ "15.ai - Preguntas frecuentes". 15.ai. _ 18 de enero de 2021 . Consultado el 18 de enero de 2021 .
  49. ^ Scotellaro, Shaun (15 de mayo de 2022). "Episodio animado completo y sencillo: las exenciones fiscales (Crepúsculo)". Equestria diario . Equestria diario . Archivado desde el original el 21 de mayo de 2022 . Consultado el 28 de mayo de 2022 .
  50. ^ "Las tribulaciones terriblemente agotadoras de Twilight Sparkle". Fimfiction.net . 27 de abril de 2014. Archivado desde el original el 30 de junio de 2022 . Consultado el 28 de abril de 2022 .
  51. ^ Phillips, Tom (14 de enero de 2022). "El actor de doblaje de videojuegos Troy Baker ahora está promocionando NFT". Eurogamer . Eurogamer . Archivado desde el original el 14 de enero de 2022 . Consultado el 14 de enero de 2022 .
  52. ^ McWhertor, Michael (14 de enero de 2022). "El actor de doblaje de The Last of Us quiere vender 'NFT de voz', lo que genera ira". Polígono . Archivado desde el original el 14 de enero de 2022 . Consultado el 14 de enero de 2022 .
  53. ^ "El actor de doblaje de Last Of Us cabrea a todos con NFT Push". Kotaku . 14 de enero de 2022. Archivado desde el original el 14 de enero de 2022 . Consultado el 14 de enero de 2022 .
  54. ^ Purslow, Matt (14 de enero de 2022). "Troy Baker está trabajando con NFT, pero los fanáticos no están impresionados". IGN . Archivado desde el original el 14 de enero de 2022 . Consultado el 14 de enero de 2022 .
  55. ^ Strickland, Derek (31 de enero de 2022). "El actor de Last of Us, Troy Baker, hace caso a los fans y abandona los planes de NFT". Tweaktown . Archivado desde el original el 31 de enero de 2022 . Consultado el 31 de enero de 2022 .
  56. ^ Peterson, Danny (31 de enero de 2022). "'El actor de The Last of Us, Troy Baker, invierte el rumbo de las NFT en medio de la reacción de los fanáticos ". Tenemos esto cubierto . Archivado desde el original el 14 de febrero de 2022 . Consultado el 14 de febrero de 2022 .
  57. ^ Peters, Jay (31 de enero de 2022). "La voz de Joel de The Last of Us se aleja del proyecto NFT tras las protestas". El borde . Archivado desde el original el 4 de febrero de 2022 . Consultado el 4 de febrero de 2022 .
tuits
  1. ^ @TroyBakerVA (14 de enero de 2022). "Me estoy asociando con @VoiceverseNFT para explorar formas en las que juntos podamos brindar nuevas herramientas a los nuevos creadores para que creen cosas nuevas y permitir que todos tengan la oportunidad de poseer e invertir en las IP que crean. Todos tenemos una historia que contar. Puedes odiar. O puedes crear. ¿Qué será?" ( Pío ) – vía Twitter .
  2. ^ @fifteenai (13 de diciembre de 2021). "No tengo ningún interés en incorporar NFT en ningún aspecto de mi trabajo. Por favor, deja de preguntar" ( Tweet ) - vía Twitter .
  3. ^ @fifteenai (14 de enero de 2022). "Me informaron que la síntesis vocal de NFT antes mencionada está intentando activamente apropiarse de mi trabajo para su propio beneficio. Después de investigar los archivos de registro, tengo evidencia de que algunas de las voces por las que se atribuyen el mérito se generaron a partir de mi propio sitio" ( Tweet ) - vía Twitter .
  4. ^ @VoiceverseNFT (14 de enero de 2022). "Hola @fifteenai, lamentamos mucho esto. De hecho, la voz fue tomada de su plataforma, que nuestro equipo de marketing utilizó sin dar el crédito adecuado. El equipo de Chubbiverse no tiene conocimiento de esto. Nos aseguraremos de que esto nunca vuelva a suceder" ( Tweet ) – vía Gorjeo .
  5. ^ @fifteenai (14 de enero de 2022). "Vete a la mierda" ( Tweet ) - vía Twitter .
  6. ^ @VoiceverseNFT (7 de enero de 2022). "Me pregunto ¿quién creó la voz para esto? ;)" ( Pío ). Archivado desde el original el 7 de enero de 2022, vía Twitter .
  7. ^ @fifteenai (14 de enero de 2022). "Suena como una estafa" ( Tweet ) - vía Twitter .
  8. ^ @fifteenai (14 de enero de 2022). "Dé el crédito adecuado o elimine esta publicación" ( Tweet ) - vía Twitter .
  9. ^ @fifteenai (14 de enero de 2022). "Ciertamente tú no :)" ( Tweet ) - vía Twitter .
  10. ^ @fifteenai (14 de enero de 2022). "Vete a la mierda" ( Tweet ) - vía Twitter .
  11. ^ @yongyea (14 de enero de 2022). "El plan NFT que promueve Troy Baker ya se está metiendo en problemas después de robar y sacar provecho del trabajo de otra persona. ¿Quién hubiera podido verlo venir?" ( Tweet ) - vía Twitter .
  12. ^ @BronyStruggle (15 de enero de 2022). "actual" ( Tweet ) - vía Twitter .
YouTube (referenciado para el recuento de visualizaciones y el uso de 15.ai únicamente)
  1. ^ "EL ESPÍA ES UN PELUDO". YouTube . Archivado desde el original el 13 de junio de 2022 . Consultado el 14 de junio de 2022 .
  2. ^ "El espía es un peludo animado". YouTube . Archivado desde el original el 14 de junio de 2022 . Consultado el 14 de junio de 2022 .
  3. ^ "[SFM] - Confesión del espía - [TF2 15.ai]". YouTube . Archivado desde el original el 30 de junio de 2022 . Consultado el 14 de junio de 2022 .
  4. ^ "Entre nosotros, luchas". YouTube . Consultado el 15 de julio de 2022 .
  5. ^ "La cronología ACTUALIZADA de 2b2t (2010-2020)". YouTube . Archivado desde el original el 1 de junio de 2022 . Consultado el 14 de junio de 2022 .
Tik Tok
  1. ^ "Ella dijo" 👹 "". Tik Tok . Consultado el 15 de julio de 2022 .

enlaces externos