Computación de voz

La computación de voz es la disciplina que desarrolla hardware o software para procesar entradas de voz. ^[1]

Abarca muchos otros campos, incluidos la interacción hombre-computadora , la computación conversacional , la lingüística , el procesamiento del lenguaje natural , el reconocimiento automático de voz , la síntesis de voz , la ingeniería de audio , el procesamiento de señales digitales , la computación en la nube , la ciencia de datos , la ética , el derecho y la seguridad de la información .

La computación por voz ha adquirido cada vez mayor importancia en los tiempos modernos, especialmente con la llegada de altavoces inteligentes como Amazon Echo y Google Assistant , un cambio hacia la computación sin servidor y una mayor precisión en el reconocimiento de voz y los modelos de texto a voz .

Historia

La computación por voz tiene una rica historia. ^[2] Primero, científicos como Wolfgang Kempelen comenzaron a construir máquinas de voz para producir los primeros sonidos de voz sintéticos. Esto llevó a que Thomas Edison siguiera trabajando para grabar audio con máquinas de dictado y reproducirlo en entornos corporativos. En las décadas de 1950 y 1960 hubo intentos primitivos de construir sistemas de reconocimiento de voz automatizados por parte de Bell Labs , IBM y otros. Sin embargo, no fue hasta la década de 1980 que se utilizaron los modelos ocultos de Markov para reconocer hasta 1000 palabras que los sistemas de reconocimiento de voz se volvieron relevantes.

Alrededor de 2011, Siri apareció en los iPhones de Apple como el primer asistente de voz accesible para los consumidores. Esta innovación condujo a un cambio drástico en la construcción de arquitecturas informáticas que priorizan la voz. PS4 fue lanzado por Sony en América del Norte en 2013 (más de 70 millones de dispositivos), Amazon lanzó Amazon Echo en 2014 (más de 30 millones de dispositivos), Microsoft lanzó Cortana (2015 - 400 millones de usuarios de Windows 10), Google lanzó Google Assistant (2016 - 2 mil millones de usuarios mensuales activos en teléfonos Android) y Apple lanzó HomePod (2018 - 500.000 dispositivos vendidos y 1 mil millones de dispositivos activos con iOS/Siri). Estos cambios, junto con los avances en la infraestructura de la nube (por ejemplo, Amazon Web Services ) y los códecs , han solidificado el campo de la computación de voz y lo han hecho ampliamente relevante para el público en general.

Hardware

Una computadora de voz es un conjunto de hardware y software ensamblados para procesar entradas de voz.

Tenga en cuenta que las computadoras de voz no necesariamente necesitan una pantalla, como en el caso del Amazon Echo tradicional . En otras realizaciones, se podrían usar computadoras portátiles o teléfonos móviles tradicionales como computadoras de voz. Además, cada vez hay más interfaces para las computadoras de voz con la llegada de dispositivos habilitados para IoT , como en los automóviles o los televisores.

A partir de septiembre de 2018, actualmente hay más de 20.000 tipos de dispositivos compatibles con Amazon Alexa. ^[3]

Software

El software de computación de voz puede leer/escribir, grabar, limpiar, cifrar/descifrar, reproducir, transcodificar, transcribir, comprimir, publicar, caracterizar, modelar y visualizar archivos de voz.

A continuación se muestran algunos paquetes de software populares relacionados con la computación de voz:

Aplicaciones

Las aplicaciones de computación por voz abarcan muchas industrias, entre ellas, los asistentes de voz, la atención médica, el comercio electrónico, las finanzas, la cadena de suministro, la agricultura, la conversión de texto a voz, la seguridad, el marketing, la atención al cliente, la contratación, la computación en la nube, los micrófonos, los altavoces y el podcasting. Se prevé que la tecnología de voz crezca a una tasa de crecimiento anual compuesta (CAGR) del 19-25 % para 2025, lo que la convierte en una industria atractiva tanto para las empresas emergentes como para los inversores. ^[14]

Consideraciones legales

En Estados Unidos, las leyes de grabación de llamadas telefónicas varían según el estado . En algunos estados, es legal grabar una conversación con el consentimiento de una sola de las partes, mientras que en otros se requiere el consentimiento de todas las partes.

Además, la COPPA es una ley importante para proteger a los menores que utilizan Internet. Con un número cada vez mayor de menores que interactúan con dispositivos informáticos de voz (por ejemplo, Amazon Alexa), el 23 de octubre de 2017 la Comisión Federal de Comercio flexibilizó la regla de la COPAA para que los niños puedan realizar búsquedas y comandos de voz. ^[15]^[16]

Por último, el RGPD es una nueva ley europea que regula el derecho al olvido y muchas otras cláusulas para los ciudadanos de la UE. El RGPD también establece claramente que las empresas deben delinear medidas claras para obtener el consentimiento si se realizan grabaciones de audio y definir el propósito y el alcance de cómo se utilizarán estas grabaciones, por ejemplo, para fines de capacitación. El RGPD ha elevado el nivel de validez del consentimiento. Los consentimientos deben darse libremente, ser específicos, informados e inequívocos; el consentimiento tácito ya no es suficiente. ^[17]

Conferencias de investigación

Existen muchas conferencias de investigación relacionadas con la computación de voz. Algunas de ellas son:

Conferencia internacional sobre acústica, habla y procesamiento de señales
Interdiscurso ^[18]
Con ^[19]
Conferencia internacional IEEE sobre reconocimiento automático de rostros y gestos ^[20]
ACII2019 La 8va Conferencia Internacional sobre Computación Afectiva e Interacción Inteligente ^[21]

Comunidad de desarrolladores

El Asistente de Google tiene aproximadamente 2000 acciones a enero de 2018. ^[22]

En septiembre de 2018, había más de 50 000 habilidades de Alexa en todo el mundo. ^[23]

En junio de 2017, Google lanzó AudioSet, ^[24] una colección a gran escala de clips de sonido de 10 segundos etiquetados por humanos extraídos de videos de YouTube. Contiene 1.010.480 videos de archivos de voz humana, o 2.793,5 horas en total. ^[25] Se lanzó como parte de la Conferencia IEEE ICASSP 2017. ^[26]

En noviembre de 2017, la Fundación Mozilla lanzó el Common Voice Project, una colección de archivos de voz para ayudar a contribuir a la comunidad más grande de aprendizaje automático de código abierto. ^[27]^[28] El banco de voz tiene actualmente un tamaño de 12 GB, con más de 500 horas de datos de voz en inglés que se han recopilado de 112 países desde el inicio del proyecto en junio de 2017. ^[29] Este conjunto de datos ya ha dado lugar a proyectos creativos como el modelo DeepSpeech, un modelo de transcripción de código abierto. ^[30]

Véase también

Referencias

^ Schwoebel, J. (2018). Introducción a la computación de voz en Python. Boston; Seattle, Atlanta: NeuroLex Laboratories. https://neurolex.ai/voicebook
^ Cronología del reconocimiento de voz. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
^ FFmpeg. https://www.ffmpeg.org/
^ Audacia. https://www.audacityteam.org/
^ SoX. http://sox.sourceforge.net/
^ NLTK. https://www.nltk.org/
^ LibROSA. https://librosa.github.io/librosa/
^ AbrirSONRISA. https://www.audeering.com/technology/opensmile/
^ "PocketSphinx es un motor de reconocimiento de voz ligero, especialmente diseñado para dispositivos portátiles y móviles, aunque funciona igual de bien en el escritorio: Cmusphinx/Pocketsphinx". GitHub . 29 de marzo de 2020.
^ Pyttsx3. https://github.com/nateshmbhat/pyttsx3
^ Pycryptodome. https://pycryptodome.readthedocs.io/es/latest/
^ AudioFlux. https://github.com/libAudioFlux/audioFlux/
^ Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
^ Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaja-la-norma-sobre-la-coppa-para-que-los-niños-puedan-emitir-búsquedas-y-comandos-por-voz/
^ "Registro Federal:: Solicitud de acceso".
^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
^ Interspeech 2018. http://interspeech2018.org/
^ AVEC 2018. http://avec2018.org/
^ 2018 FG. https://fg2018.cse.sc.edu/
^ ASCII 2019. http://acii-conf.org/2019/
^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/.
^ Google AudioSet. https://research.google.com/audioset/
^ Datos del conjunto de audio. https://research.google.com/audioset/dataset/speech.html
^ Gemmeke, JF, Ellis, DP, Freedman, D., Jansen, A., Lawrence, W., Moore y Ritter, M. (marzo de 2017). Conjunto de audio: una ontología y un conjunto de datos etiquetados por humanos para eventos de audio. En Acústica, habla y procesamiento de señales (ICASSP), Conferencia internacional IEEE de 2017 (pp. 776-780). IEEE.
^ Proyecto de voz común. https://voice.mozilla.org/
^ Proyecto de voz común. https://blog.mozilla.org/blog/2017/11/29/anuncio-de-la-liberación-inicial-del-modelo-de-reconocimiento-de-voz-y-conjunto-de-datos-de-voz-de-código-abierto-de-mozilla/
^ El gran repositorio de datos de voz de Mozilla dará forma al futuro del aprendizaje automático. https://opensource.com/article/18/4/common-voice
^ DeepSpeech. https://github.com/mozilla/DeepSpeech