Interfaz de usuario de voz

Una interfaz de usuario de voz ( VUI ) permite la interacción humana hablada con las computadoras, utilizando el reconocimiento de voz para comprender comandos hablados y responder preguntas , y normalmente texto a voz para reproducir una respuesta. Un dispositivo de comando de voz es un dispositivo controlado con una interfaz de usuario de voz.

Se han agregado interfaces de usuario de voz a automóviles , sistemas de automatización del hogar , sistemas operativos de computadoras , electrodomésticos como lavadoras y hornos microondas , y controles remotos de televisión . Son la forma principal de interactuar con asistentes virtuales en teléfonos inteligentes y parlantes inteligentes . Los asistentes automáticos más antiguos (que enrutan las llamadas telefónicas a la extensión correcta) y los sistemas de respuesta de voz interactivos (que realizan transacciones más complicadas por teléfono) pueden responder al presionar los botones del teclado mediante tonos DTMF , pero aquellos con una interfaz de usuario de voz completa permiten a las personas que llaman para hablar solicitudes y respuestas sin tener que presionar ningún botón.

Los dispositivos de comando de voz más nuevos son independientes del hablante, por lo que pueden responder a múltiples voces, independientemente del acento o las influencias dialectales. También son capaces de responder a varias órdenes a la vez, separar mensajes vocales y proporcionar la retroalimentación adecuada , imitando con precisión una conversación natural. ^[1]

Descripción general

Una VUI es la interfaz de cualquier aplicación de voz. Hasta hace poco tiempo, controlar una máquina simplemente hablando con ella sólo era posible en la ciencia ficción . Hasta hace poco, esta área se consideraba inteligencia artificial . Sin embargo, los avances en tecnologías como texto a voz, voz a texto, procesamiento del lenguaje natural y servicios en la nube contribuyeron a la adopción masiva de este tipo de interfaces. Las VUI se han vuelto más comunes y la gente está aprovechando el valor que estas interfaces manos libres y ojos libres brindan en muchas situaciones.

Las VUI deben responder a las entradas de manera confiable, o serán rechazadas y, a menudo, ridiculizadas por sus usuarios. Diseñar una buena VUI requiere talentos interdisciplinarios de ciencias de la computación , lingüística y psicología de los factores humanos , todas las cuales son habilidades costosas y difíciles de conseguir. Incluso con herramientas de desarrollo avanzadas, construir una VUI eficaz requiere una comprensión profunda tanto de las tareas a realizar como del público objetivo que utilizará el sistema final. Cuanto más se acerque la VUI al modelo mental de la tarea del usuario, más fácil será usarla con poca o ninguna capacitación, lo que resultará en una mayor eficiencia y una mayor satisfacción del usuario.

Una VUI diseñada para el público en general debe enfatizar la facilidad de uso y brindar mucha ayuda y orientación a quienes llaman por primera vez. Por el contrario, una VUI diseñada para un pequeño grupo de usuarios avanzados (incluidos los trabajadores de servicios de campo) debería centrarse más en la productividad y menos en la ayuda y la orientación. Dichas aplicaciones deberían agilizar los flujos de llamadas, minimizar las indicaciones, eliminar iteraciones innecesarias y permitir " diálogos de iniciativa mixta " elaborados, que permitan a las personas que llaman ingresar varios datos en una sola expresión y en cualquier orden o combinación. En resumen, las aplicaciones de voz deben diseñarse cuidadosamente para el proceso empresarial específico que se está automatizando.

No todos los procesos de negocio funcionan igual de bien para la automatización del habla. En general, cuanto más complejas sean las consultas y transacciones, más difícil será automatizarlas y más probabilidades habrá de que fracasen ante el público en general. En algunos escenarios, la automatización simplemente no es aplicable, por lo que la asistencia de un agente en vivo es la única opción. Una línea directa de asesoramiento jurídico, por ejemplo, sería muy difícil de automatizar. Por otro lado, la voz es perfecta para manejar transacciones rápidas y rutinarias, como cambiar el estado de una orden de trabajo, completar una entrada de tiempo o gastos o transferir fondos entre cuentas.

Historia

Las primeras aplicaciones de VUI incluían la marcación de teléfonos activada por voz , ya sea directamente o mediante unos auriculares (normalmente Bluetooth ) o un sistema de audio del vehículo.

En 2007, un artículo de negocios de CNN informó que el comando de voz era una industria de más de mil millones de dólares y que empresas como Google y Apple estaban tratando de crear funciones de reconocimiento de voz. ^[2] En los años transcurridos desde la publicación del artículo, el mundo ha sido testigo de una variedad de dispositivos de comando de voz. Además, Google creó un motor de reconocimiento de voz llamado Pico TTS y Apple lanzó Siri. Los dispositivos de comando de voz están cada vez más disponibles y siempre se están creando formas innovadoras de utilizar la voz humana. Por ejemplo, Business Week sugiere que el futuro control remoto será la voz humana. Actualmente Xbox Live permite este tipo de funciones y Jobs insinuó dicha función en el nuevo Apple TV . ^[3]

Productos de software de comando de voz en dispositivos informáticos

Tanto Apple Mac como Windows PC ofrecen funciones integradas de reconocimiento de voz para sus últimos sistemas operativos .

Microsoft Windows

Dos sistemas operativos de Microsoft, Windows 7 y Windows Vista , brindan capacidades de reconocimiento de voz. Microsoft integró comandos de voz en sus sistemas operativos para proporcionar un mecanismo para las personas que desean limitar el uso del mouse y el teclado, pero aún desean mantener o aumentar su productividad general. ^[4]

Windows Vista

Con el control por voz de Windows Vista, un usuario puede dictar documentos y correos electrónicos en aplicaciones convencionales, iniciar y alternar entre aplicaciones, controlar el sistema operativo, formatear documentos, guardar documentos, editar archivos, corregir errores de manera eficiente y completar formularios en la Web . El software de reconocimiento de voz aprende automáticamente cada vez que un usuario lo utiliza y el reconocimiento de voz está disponible en inglés (EE. UU.), inglés (Reino Unido), alemán (Alemania), francés (Francia), español (España), japonés y chino (tradicional). y chino (simplificado). Además, el software viene con un tutorial interactivo, que puede utilizarse para formar tanto al usuario como al motor de reconocimiento de voz. ^[5]

ventana 7

Además de todas las funciones proporcionadas en Windows Vista, Windows 7 proporciona un asistente para configurar el micrófono y un tutorial sobre cómo utilizar la función. ^[6]

Mac OS X

Todas las computadoras Mac OS X vienen preinstaladas con el software de reconocimiento de voz. El software es independiente del usuario y le permite "navegar por menús e ingresar atajos de teclado; pronunciar nombres de casillas de verificación, nombres de botones de opción, elementos de lista y nombres de botones; y abrir, cerrar, controlar y cambiar entre aplicaciones. " ^[7] Sin embargo, el sitio web de Apple recomienda al usuario comprar un producto comercial llamado Dictate . ^[7]

Productos comerciales

Si un usuario no está satisfecho con el software de reconocimiento de voz integrado o si no tiene un software de reconocimiento de voz integrado para su sistema operativo, entonces puede experimentar con un producto comercial como Braina Pro o DragonNaturallySpeaking para PC con Windows, ^[8] y Dictate, el nombre del mismo software para Mac OS. ^[9]

Dispositivos móviles con comando de voz

Cualquier dispositivo móvil que ejecute el sistema operativo Android, Microsoft Windows Phone, iOS 9 o posterior o el sistema operativo Blackberry proporciona capacidades de comando de voz. Además del software de reconocimiento de voz integrado para el sistema operativo de cada teléfono móvil, un usuario puede descargar aplicaciones de comandos de voz de terceros desde la tienda de aplicaciones de cada sistema operativo: Apple App store , Google Play , Windows Phone Marketplace (inicialmente Windows Marketplace for Mobile ). o BlackBerry App World .

Sistema operativo Android

Google ha desarrollado un sistema operativo de código abierto llamado Android , que permite al usuario realizar comandos de voz como: enviar mensajes de texto, escuchar música, obtener direcciones, llamar a empresas, llamar a contactos, enviar correos electrónicos, ver un mapa, ir a sitios web, escribe una nota y busca en Google. ^[10] El software de reconocimiento de voz está disponible para todos los dispositivos desde Android 2.2 "Froyo" , pero la configuración debe estar configurada en inglés. ^[10] Google permite que el usuario cambie el idioma y, cuando utiliza por primera vez la función de reconocimiento de voz, se le pregunta si desea que sus datos de voz se adjunten a su cuenta de Google. Si un usuario decide optar por este servicio, le permite a Google entrenar el software según la voz del usuario. ^[11]

Google presentó el Asistente de Google con Android 7.0 "Nougat" . Es mucho más avanzado que la versión anterior.

Amazon.com tiene el Echo que utiliza la versión personalizada de Android de Amazon para proporcionar una interfaz de voz.

Microsoft Windows

Windows Phone es el sistema operativo del dispositivo móvil de Microsoft . En Windows Phone 7.5, la aplicación de voz es independiente del usuario y se puede utilizar para: llamar a alguien de su lista de contactos, llamar a cualquier número de teléfono, volver a marcar el último número, enviar un mensaje de texto, llamar a su correo de voz, abrir una aplicación, leer citas , consultar el estado del teléfono y buscar en la web. ^[12]^[13] Además, la voz también se puede utilizar durante una llamada telefónica, y las siguientes acciones son posibles durante una llamada telefónica: presionar un número, encender el altavoz o llamar a alguien, lo que activa la llamada actual. sostener. ^[13]

Windows 10 presenta Cortana , un sistema de control por voz que reemplaza el control por voz utilizado anteriormente en los teléfonos con Windows.

iOS

Apple agregó Voice Control a su familia de dispositivos iOS como una nueva característica del iPhone OS 3 . El iPhone 4S , iPad 3 , iPad Mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G y posteriores vienen con un asistente de voz más avanzado llamado Siri . El control por voz aún se puede habilitar a través del menú Configuración de dispositivos más nuevos. Siri es una función de reconocimiento de voz incorporada e independiente del usuario que le permite emitir comandos de voz. Con la ayuda de Siri, un usuario puede emitir comandos como enviar un mensaje de texto, consultar el clima, configurar un recordatorio, buscar información, programar reuniones, enviar un correo electrónico, buscar un contacto, configurar una alarma, obtener direcciones, realizar un seguimiento de sus acciones, configure un temporizador y solicite ejemplos de consultas de comandos de voz de muestra. ^[14] Además, Siri funciona con Bluetooth y auriculares con cable. ^[15]

alexa amazona

En 2014, Amazon presentó el dispositivo doméstico inteligente Alexa . Su objetivo principal era simplemente un altavoz inteligente que permitía al consumidor controlar el dispositivo con su voz. Con el tiempo, se convirtió en un dispositivo novedoso que tenía la capacidad de controlar electrodomésticos con voz. Ahora casi todos los electrodomésticos son controlables con Alexa, incluidas las bombillas y la temperatura. Al permitir el control por voz, Alexa puede conectarse a la tecnología del hogar inteligente, lo que le permite cerrar su casa, controlar la temperatura y activar varios dispositivos. Esta forma de IA permite que alguien simplemente le haga una pregunta y, en respuesta, Alexa busca, encuentra y le recita la respuesta. ^[dieciséis]

Reconocimiento de voz en coches

A medida que la tecnología de los automóviles mejore, se agregarán más funciones a los automóviles y estas funciones podrían distraer al conductor. Los comandos de voz para automóviles, según CNET , deberían permitir al conductor dar órdenes y no distraerse. CNET afirmó que Nuance estaba sugiriendo que en el futuro crearían un software que se pareciera a Siri, pero para automóviles. ^[17] La mayoría del software de reconocimiento de voz en el mercado en 2011 tenía solo entre 50 y 60 comandos de voz, pero Ford Sync tenía 10,000. ^[17] Sin embargo, CNET sugirió que incluso 10.000 comandos de voz no eran suficientes dada la complejidad y la variedad de tareas que un usuario puede querer realizar mientras conduce. ^[17] El comando de voz para automóviles es diferente del comando de voz para teléfonos móviles y computadoras porque un conductor puede usar la función para buscar restaurantes cercanos, buscar gasolina, direcciones de manejo, condiciones de la carretera y la ubicación del hotel más cercano. ^[17] Actualmente, la tecnología permite al conductor emitir comandos de voz tanto en un GPS portátil como un Garmin como en el sistema de navegación de un fabricante de automóviles. ^[18]

Lista de sistemas de comando por voz proporcionados por los fabricantes de motores:

Sincronización Ford
Comando de voz de Lexus
Chrysler UConnect
Honda Accord
GM IntelliLink
BMW
mercedes
Pionero
Harman
hyundai

Entrada no verbal

Si bien la mayoría de las interfaces de usuario de voz están diseñadas para admitir la interacción a través del lenguaje humano hablado, también se han realizado exploraciones recientes en el diseño de interfaces que toman como entrada sonidos humanos no verbales. En estos sistemas, el usuario controla la interfaz emitiendo sonidos que no son de voz, como tarareos, silbidos o soplar en un micrófono. ^[19]

Un ejemplo de interfaz de usuario de voz no verbal es Blendie, ^[20]^[21] una instalación de arte interactiva creada por Kelly Dobson. La pieza constaba de una licuadora clásica de la década de 1950 que fue adaptada para responder a la entrada de un micrófono. Para controlar la licuadora, el usuario debe imitar los zumbidos mecánicos que normalmente produce una licuadora: la licuadora girará lentamente en respuesta al gruñido grave del usuario y aumentará la velocidad a medida que el usuario emita sonidos vocales más agudos.

Otro ejemplo es VoiceDraw, ^[22] un sistema de investigación que permite el dibujo digital para personas con capacidades motoras limitadas. VoiceDraw permite a los usuarios "pintar" trazos en un lienzo digital modulando los sonidos de las vocales, que se asignan a las direcciones del pincel. Modular otras características paralingüísticas (por ejemplo, el volumen de su voz) permite al usuario controlar diferentes características del dibujo, como el grosor de la pincelada.

Otros enfoques incluyen la adopción de sonidos no verbales para aumentar las interfaces táctiles (por ejemplo, en un teléfono móvil) para admitir nuevos tipos de gestos que no serían posibles con la entrada de los dedos únicamente. ^[19]

Desafíos de diseño

Las interfaces de voz plantean una cantidad sustancial de desafíos para la usabilidad. A diferencia de las interfaces gráficas de usuario (GUI), las mejores prácticas para el diseño de interfaces de voz aún están surgiendo. ^[23]

Descubribilidad

Con una interacción puramente basada en audio, las interfaces de usuario de voz tienden a sufrir de baja capacidad de descubrimiento : ^[23] es difícil para los usuarios comprender el alcance de las capacidades de un sistema. Para que el sistema transmita lo que es posible sin una pantalla visual, sería necesario enumerar las opciones disponibles, lo que puede resultar tedioso o inviable. La baja capacidad de descubrimiento a menudo resulta en que los usuarios reporten confusión sobre lo que se les "permite" decir, o una discrepancia en las expectativas sobre la amplitud de la comprensión de un sistema. ^[24]^[25]

Transcripción

Si bien la tecnología de reconocimiento de voz ha mejorado considerablemente en los últimos años, las interfaces de usuario de voz todavía sufren errores de análisis o transcripción en los que el discurso de un usuario no se interpreta correctamente. ^[26] Estos errores tienden a ser especialmente frecuentes cuando el contenido del discurso utiliza vocabulario técnico (por ejemplo, terminología médica) o ortografía no convencional, como artistas musicales o nombres de canciones. ^[27]

Comprensión

El diseño de sistemas eficaces para maximizar la comprensión conversacional sigue siendo un área abierta de investigación. Las interfaces de usuario de voz que interpretan y gestionan el estado conversacional son difíciles de diseñar debido a la dificultad inherente de integrar tareas complejas de procesamiento del lenguaje natural como la resolución de correferencias , el reconocimiento de entidades nombradas , la recuperación de información y la gestión de diálogos . ^[28] La mayoría de los asistentes de voz actuales son capaces de ejecutar muy bien comandos individuales, pero tienen una capacidad limitada para gestionar el diálogo más allá de una tarea limitada o un par de turnos en una conversación. ^[29]

Usos futuros

Los dispositivos de bolsillo, como PDA o teléfonos móviles , actualmente dependen de pequeños botones para la entrada del usuario. Estos están integrados en el dispositivo o forman parte de una interfaz de pantalla táctil, como la de la aplicación Siri para iPod Touch y iPhone de Apple . Presionar mucho los botones en dispositivos con botones tan pequeños puede ser tedioso e inexacto, por lo que una VUI fácil de usar, precisa y confiable sería potencialmente un gran avance en la facilidad de su uso. No obstante, una VUI de este tipo también beneficiaría a los usuarios de computadoras portátiles y de escritorio, ya que resolvería numerosos problemas actualmente asociados con el uso del teclado y el mouse , incluidas lesiones por esfuerzos repetitivos como el síndrome del túnel carpiano , los desafíos de la navegación e introducción de texto dentro de interfaces digitales por parte de personas con discapacidad visual, ^[30] y velocidad de escritura lenta por parte de usuarios de teclados sin experiencia. Además, el uso del teclado normalmente implica sentarse o permanecer de pie frente a la pantalla conectada; por el contrario, una VUI permitiría al usuario tener mucha más movilidad, ya que la entrada de voz elimina la necesidad de mirar el teclado.

Estos avances podrían cambiar la cara de las máquinas actuales y tener implicaciones de gran alcance en la forma en que los usuarios interactúan con ellas. Los dispositivos portátiles se diseñarían con pantallas más grandes y más fáciles de ver, ya que no se necesitaría un teclado. Los dispositivos de pantalla táctil ya no necesitarían dividir la pantalla entre el contenido y un teclado en pantalla, proporcionando así una visualización del contenido en pantalla completa. Básicamente, las computadoras portátiles podrían reducirse a la mitad en términos de tamaño, ya que se eliminaría la mitad del teclado y todos los componentes internos se integrarían detrás de la pantalla, lo que efectivamente daría como resultado una simple tableta . Las computadoras de escritorio consistirían en una CPU y una pantalla, ahorrando espacio en el escritorio que de otro modo ocuparía el teclado y eliminando los soportes deslizantes para el teclado construidos debajo de la superficie del escritorio. También podrían eliminarse los controles remotos de televisión y los teclados de docenas de otros dispositivos, desde hornos microondas hasta fotocopiadoras.

Sin embargo, para que se produzcan tales avances sería necesario superar numerosos desafíos. En primer lugar, la VUI tendría que ser lo suficientemente sofisticada para distinguir entre entradas, como comandos, y conversaciones en segundo plano; de lo contrario, se registrarían entradas falsas y el dispositivo conectado se comportaría de forma errática. Un mensaje estándar, como el famoso "¡Equipo!" La llamada de personajes de programas de televisión y películas de ciencia ficción como Star Trek podría activar la VUI y prepararla para recibir más información del mismo hablante. Posiblemente, la VUI también podría incluir una representación similar a la humana: una voz o incluso un personaje en pantalla, por ejemplo, que responda (por ejemplo, "¿Sí, Vamshi?") y continúe comunicándose con el usuario en para aclarar los comentarios recibidos y garantizar su exactitud.

En segundo lugar, la VUI tendría que funcionar en conjunto con un software altamente sofisticado para poder procesar y encontrar/recuperar información con precisión o llevar a cabo una acción según las preferencias del usuario particular. Por ejemplo, si Samantha prefiere información de un periódico en particular y prefiere que la información se resuma en forma de puntos, podría decir: "Computadora, búscame información sobre las inundaciones en el sur de China anoche"; en respuesta, la VUI que está familiarizada con sus preferencias "encontrará" datos sobre las "inundaciones" en el "sur de China" de esa fuente, los convertirá en puntos y se los entregará en pantalla y/o en forma de voz. completar con una cita. Por lo tanto, se necesitaría un software preciso de reconocimiento de voz , junto con cierto grado de inteligencia artificial por parte de la máquina asociada con la VUI.

Implicaciones de privacidad

Las preocupaciones sobre la privacidad surgen por el hecho de que los comandos de voz están disponibles para los proveedores de interfaces de usuario de voz en forma no cifrada y, por lo tanto, pueden compartirse con terceros y procesarse de manera no autorizada o inesperada. ^[31]^[32] Además del contenido lingüístico del habla grabada, la forma de expresión y las características de la voz de un usuario pueden contener implícitamente información sobre su identidad biométrica, rasgos de personalidad, forma corporal, condición de salud física y mental, sexo, género, estados de ánimo y emociones , estatus socioeconómico y origen geográfico. ^[33]

Ver también

Referencias

^ "Control por voz de la lavadora". Revista de electrodomésticos .
^ Borzo, Jeanette (8 de febrero de 2007). "Ahora estas hablando". Dinero de CNN . Consultado el 25 de abril de 2012 .
^ "Control por voz, ¿el fin del control remoto del televisor?". Bloomberg.com . Semana Empresarial. 9 de diciembre de 2011. Archivado desde el original el 8 de diciembre de 2011 . Consultado el 1 de mayo de 2012 .
^ "Windows Vista integrado en voz". Windows Vista . Consultado el 25 de abril de 2012 .
^ "Operación de voz en Vista". Microsoft.
^ "Configuración del reconocimiento de voz". Microsoft.
^ ab "Habilidades físicas y motoras". Manzana.
^ "PC DragonNaturallySpeaking". Matiz.
^ "Mac DragonNaturallySpeaking". Matiz.
^ ab "Acciones de voz".
^ "La búsqueda por voz de Google para Android ahora se puede" entrenar "a su voz". 14 de diciembre de 2010 . Consultado el 24 de abril de 2012 .
^ "Uso del comando de voz". Microsoft . Consultado el 24 de abril de 2012 .
^ ab "Uso de comandos de voz". Microsoft . Consultado el 27 de abril de 2012 .
^ "Siri, el iPhone 3GS y 4, iPod 3 y 4, tienen control por voz como un Siri exprés, reproduce música, pausa la música, sufle, Facetime y funciones de llamadas". Manzana . Consultado el 27 de abril de 2012 .
^ "Preguntas frecuentes sobre Siri". Manzana.
^ "Cómo el Echo de Amazon pasó de ser un altavoz inteligente al centro de su hogar". Business Insider .
^ abcd "Voz similar a Siri". CNET.
^ "GPS portátil con voz". CNET.
^ ab "Manipulación aumentada por voz | Actas de la 15ª conferencia internacional sobre interacción persona-computadora con dispositivos y servicios móviles". dlnext.acm.org . doi :10.1145/2493190.2493244. S2CID 6251400 . Consultado el 27 de febrero de 2019 .
^ "Blendie | Actas de la V conferencia sobre Diseño de sistemas interactivos: procesos, prácticas, métodos y técnicas". dlnext.acm.org . doi : 10.1145/1013115.1013159 . Consultado el 27 de febrero de 2019 .
^ "Kelly Dobson: Blendie". web.media.mit.edu . Consultado el 27 de febrero de 2019 .
^ "Voicedraw | Actas de la novena conferencia internacional ACM SIGACCESS sobre Computadoras y accesibilidad". dlnext.acm.org . doi :10.1145/1296843.1296850. S2CID 218338 . Consultado el 27 de febrero de 2019 .
^ ab "Pautas de diseño para la interacción de voz con manos libres | Actas de la XX Conferencia internacional sobre interacción persona-computadora con dispositivos y servicios móviles adjuntos". dlnext.acm.org . doi :10.1145/3236112.3236149. S2CID 52099112 . Consultado el 27 de febrero de 2019 .
^ "Diseño de actos de habla | Actas de la Conferencia SIGCHI sobre factores humanos en sistemas informáticos". dlnext.acm.org . doi :10.1145/223904.223952. S2CID 9313029 . Consultado el 27 de febrero de 2019 .
^ "¿Qué puedo decir? | Actas de la 18ª Conferencia Internacional sobre Interacción Humano-Computadora con Dispositivos y Servicios Móviles". doi : 10.1145/2935334.2935386 . S2CID 6246618. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ "Patrones sobre cómo los usuarios superan los obstáculos en las interfaces de usuario de voz | Actas de la Conferencia CHI de 2018 sobre factores humanos en los sistemas informáticos". dlnext.acm.org . doi :10.1145/3173574.3173580. S2CID 5041672 . Consultado el 27 de febrero de 2019 .
^ ""Play PRBLMS "| Actas de la Conferencia CHI de 2018 sobre factores humanos en sistemas informáticos". dlnext.acm.org . doi :10.1145/3173574.3173870. S2CID 5050837 . Consultado el 27 de febrero de 2019 .
^ Galitsky, Boris (2019). Desarrollo de chatbots empresariales: aprendizaje de estructuras lingüísticas (1ª ed.). Cham, Suiza: Springer. págs. 13-24. doi :10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1. S2CID 102486666.
^ Perla, Cathy (6 de diciembre de 2016). Diseño de interfaces de usuario de voz: principios de las experiencias conversacionales (1ª ed.). Sebastopol, CA: O'Reilly Media. págs. 16-19. ISBN 978-1-491-95541-3.
^ Messaoudi, Mohamed Dhiaeddine; Menelas, Bob-Antoine J.; Mcheick, Hamid (17 de octubre de 2022). "Revisión de tecnologías y herramientas de asistencia a la navegación para personas con discapacidad visual". Sensores . 22 (20): 7888. doi : 10.3390/s22207888 . ISSN 1424-8220. PMC 9606951 . PMID 36298237.
^ "Apple, Google y Amazon pueden haber violado su privacidad al revisar los comandos del asistente digital". Fortuna . 2019-08-05 . Consultado el 13 de mayo de 2020 .
^ Hern, Alex (11 de abril de 2019). "El personal de Amazon escucha las grabaciones de Alexa de los clientes, según un informe". el guardián . Consultado el 21 de mayo de 2020 .
^ Kröger, Jacob León; Lutz, Otto Hans-Martin; Raschke, Philip (2020). "Implicaciones para la privacidad del análisis de voz y habla: divulgación de información por inferencia". Gestión de privacidad e identidad. Datos para una vida mejor: IA y privacidad . Avances del IFIP en tecnologías de la información y las comunicaciones. vol. 576, págs. 242-258. doi : 10.1007/978-3-030-42504-3_16 . ISBN 978-3-030-42503-6. ISSN 1868-4238.

enlaces externos

Interfaces de voz: evaluación del potencial por Jakob Nielsen
El ascenso de la voz: una cronología
Glosario de términos de Voice First
Voice First Una lista de lectura