Una interfaz de usuario de voz ( VUI ) permite la interacción hablada entre humanos y computadoras, utilizando el reconocimiento de voz para comprender comandos hablados y responder preguntas , y, por lo general, texto a voz para reproducir una respuesta. Un dispositivo de comando de voz es un dispositivo controlado con una interfaz de usuario de voz.
Las interfaces de usuario de voz se han incorporado a automóviles , sistemas de automatización del hogar , sistemas operativos de computadoras , electrodomésticos como lavadoras y hornos microondas y controles remotos de televisión . Son la forma principal de interactuar con asistentes virtuales en teléfonos inteligentes y parlantes inteligentes . Los asistentes automáticos más antiguos (que enrutan las llamadas telefónicas a la extensión correcta) y los sistemas de respuesta de voz interactiva (que realizan transacciones más complicadas por teléfono) pueden responder a la pulsación de botones del teclado mediante tonos DTMF , pero aquellos con una interfaz de usuario de voz completa permiten a los llamantes decir solicitudes y respuestas sin tener que presionar ningún botón.
Los dispositivos de comandos de voz más nuevos son independientes del hablante, por lo que pueden responder a múltiples voces, independientemente del acento o las influencias dialectales. También son capaces de responder a varios comandos a la vez, separando los mensajes vocales y brindando la retroalimentación adecuada , imitando con precisión una conversación natural. [1]
Una VUI es la interfaz de cualquier aplicación de voz. Hace poco tiempo, controlar una máquina simplemente hablándole solo era posible en la ciencia ficción . Hasta hace poco, esta área se consideraba inteligencia artificial . Sin embargo, los avances en tecnologías como texto a voz, voz a texto, procesamiento del lenguaje natural y servicios en la nube contribuyeron a la adopción masiva de este tipo de interfaces. Las VUI se han vuelto más comunes y las personas están aprovechando el valor que estas interfaces de manos libres y ojos libres brindan en muchas situaciones.
Las VUI deben responder a las entradas de forma fiable, o serán rechazadas y, a menudo, ridiculizadas por sus usuarios. Diseñar una buena VUI requiere talentos interdisciplinarios de informática , lingüística y psicología de factores humanos , todas ellas habilidades caras y difíciles de conseguir. Incluso con herramientas de desarrollo avanzadas, construir una VUI eficaz requiere un conocimiento profundo tanto de las tareas que se van a realizar como del público objetivo que utilizará el sistema final. Cuanto más coincida la VUI con el modelo mental de la tarea del usuario, más fácil será utilizarla con poco o ningún entrenamiento, lo que se traduce en una mayor eficiencia y una mayor satisfacción del usuario.
Una interfaz de usuario de voz diseñada para el público en general debe enfatizar la facilidad de uso y brindar mucha ayuda y orientación para quienes llaman por primera vez. Por el contrario, una interfaz de usuario de voz diseñada para un grupo pequeño de usuarios avanzados (incluidos los trabajadores de servicios de campo) debe centrarse más en la productividad y menos en la ayuda y la orientación. Estas aplicaciones deben agilizar los flujos de llamadas, minimizar los avisos, eliminar iteraciones innecesarias y permitir " diálogos de iniciativa mixta " elaborados, que permitan a los usuarios ingresar varios datos en una sola expresión y en cualquier orden o combinación. En resumen, las aplicaciones de voz deben diseñarse cuidadosamente para el proceso comercial específico que se está automatizando.
No todos los procesos empresariales se prestan igual de bien a la automatización por voz. En general, cuanto más complejas sean las consultas y transacciones, más difícil será automatizarlas y más probabilidades habrá de que no funcionen con el público en general. En algunos casos, la automatización simplemente no es aplicable, por lo que la asistencia de un agente en vivo es la única opción. Una línea directa de asesoramiento legal, por ejemplo, sería muy difícil de automatizar. Por otro lado, la voz es perfecta para gestionar transacciones rápidas y rutinarias, como cambiar el estado de una orden de trabajo, completar una entrada de tiempo o gasto o transferir fondos entre cuentas.
Las primeras aplicaciones de VUI incluyeron la marcación de teléfonos activada por voz , ya sea directamente o a través de un auricular (normalmente Bluetooth ) o un sistema de audio del vehículo.
En 2007, un artículo de negocios de la CNN informó que el comando de voz era una industria de más de mil millones de dólares y que empresas como Google y Apple estaban tratando de crear funciones de reconocimiento de voz. [2] En los años transcurridos desde que se publicó el artículo, el mundo ha sido testigo de una variedad de dispositivos de comando de voz. Además, Google ha creado un motor de reconocimiento de voz llamado Pico TTS y Apple lanzó Siri. Los dispositivos de comando de voz están cada vez más disponibles y siempre se están creando formas innovadoras de utilizar la voz humana. Por ejemplo, Business Week sugiere que el futuro control remoto va a ser la voz humana. Actualmente, Xbox Live permite tales funciones y Jobs insinuó que habría una característica de este tipo en el nuevo Apple TV . [3]
Tanto Apple Mac como Windows PC ofrecen funciones de reconocimiento de voz integradas para sus últimos sistemas operativos .
Dos sistemas operativos de Microsoft, Windows 7 y Windows Vista , ofrecen capacidades de reconocimiento de voz. Microsoft integró comandos de voz en sus sistemas operativos para proporcionar un mecanismo para las personas que desean limitar el uso del mouse y el teclado, pero que aún desean mantener o aumentar su productividad general. [4]
Con el control de voz de Windows Vista, un usuario puede dictar documentos y correos electrónicos en aplicaciones principales, iniciar y cambiar entre aplicaciones, controlar el sistema operativo, formatear documentos, guardar documentos, editar archivos, corregir errores de manera eficiente y completar formularios en la Web . El software de reconocimiento de voz aprende automáticamente cada vez que un usuario lo usa, y el reconocimiento de voz está disponible en inglés (EE. UU.), inglés (Reino Unido), alemán (Alemania), francés (Francia), español (España), japonés, chino (tradicional) y chino (simplificado). Además, el software viene con un tutorial interactivo, que se puede utilizar para entrenar tanto al usuario como al motor de reconocimiento de voz. [5]
Además de todas las funciones proporcionadas en Windows Vista, Windows 7 proporciona un asistente para configurar el micrófono y un tutorial sobre cómo utilizar la función. [6]
Todas las computadoras Mac OS X vienen preinstaladas con el software de reconocimiento de voz. El software es independiente del usuario y le permite "navegar por los menús e ingresar atajos de teclado; decir los nombres de las casillas de verificación, los nombres de los botones de opción, los elementos de la lista y los nombres de los botones; y abrir, cerrar, controlar y cambiar entre aplicaciones". [7] Sin embargo, el sitio web de Apple recomienda que el usuario compre un producto comercial llamado Dictate . [7]
Si un usuario no está satisfecho con el software de reconocimiento de voz integrado o no tiene un software de reconocimiento de voz integrado para su sistema operativo, puede experimentar con un producto comercial como Braina Pro o DragonNaturallySpeaking para PC con Windows, [8] y Dictate, el nombre del mismo software para Mac OS. [9]
Cualquier dispositivo móvil que funcione con el sistema operativo Android, Microsoft Windows Phone, iOS 9 o posterior, o el sistema operativo Blackberry ofrece funciones de comandos de voz. Además del software de reconocimiento de voz integrado para el sistema operativo de cada teléfono móvil, un usuario puede descargar aplicaciones de comandos de voz de terceros desde la tienda de aplicaciones de cada sistema operativo: Apple App Store , Google Play , Windows Phone Marketplace (inicialmente Windows Marketplace for Mobile ) o BlackBerry App World .
Google ha desarrollado un sistema operativo de código abierto llamado Android , que permite al usuario ejecutar comandos de voz como: enviar mensajes de texto, escuchar música, obtener direcciones, llamar a empresas, llamar a contactos, enviar correo electrónico, ver un mapa, ir a sitios web, escribir una nota y buscar en Google. [10] El software de reconocimiento de voz está disponible para todos los dispositivos desde Android 2.2 "Froyo" , pero la configuración debe establecerse en inglés. [10] Google permite al usuario cambiar el idioma, y se le pregunta al usuario cuando usa por primera vez la función de reconocimiento de voz si desea que sus datos de voz se adjunten a su cuenta de Google. Si un usuario decide optar por este servicio, permite a Google entrenar el software para la voz del usuario. [11]
Google presentó el Asistente de Google con Android 7.0 "Nougat" . Es mucho más avanzado que la versión anterior.
Amazon.com tiene el Echo que utiliza la versión personalizada de Android de Amazon para proporcionar una interfaz de voz.
Windows Phone es el sistema operativo de los dispositivos móviles de Microsoft . En Windows Phone 7.5, la aplicación de voz es independiente del usuario y se puede utilizar para: llamar a alguien de su lista de contactos, llamar a cualquier número de teléfono, volver a marcar el último número, enviar un mensaje de texto, llamar a su buzón de voz, abrir una aplicación, leer citas, consultar el estado del teléfono y buscar en la web. [12] [13] Además, la voz también se puede utilizar durante una llamada telefónica, y las siguientes acciones son posibles durante una llamada telefónica: presionar un número, encender el altavoz del teléfono o llamar a alguien, lo que pone la llamada actual en espera. [13]
Windows 10 presenta Cortana , un sistema de control de voz que reemplaza el control de voz utilizado anteriormente en los teléfonos Windows.
Apple agregó el Control de Voz a su familia de dispositivos iOS como una nueva característica del iPhone OS 3. El iPhone 4S , iPad 3 , iPad Mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G y posteriores, todos vienen con un asistente de voz más avanzado llamado Siri . El Control de Voz aún se puede habilitar a través del menú de Configuración de los dispositivos más nuevos. Siri es una función de reconocimiento de voz incorporada independiente del usuario que le permite al usuario emitir comandos de voz. Con la ayuda de Siri, un usuario puede emitir comandos como, enviar un mensaje de texto, verificar el clima, configurar un recordatorio, buscar información, programar reuniones, enviar un correo electrónico, encontrar un contacto, configurar una alarma, obtener direcciones, rastrear sus acciones, configurar un temporizador y solicitar ejemplos de consultas de comandos de voz de muestra. [14] Además, Siri funciona con Bluetooth y auriculares con cable. [15]
Apple introdujo Personal Voice como una función de accesibilidad en iOS 17 , que se lanzó el 18 de septiembre de 2023. [16] Esta función permite a los usuarios crear una versión personalizada, generada por aprendizaje automático (IA) de su voz para usarla en aplicaciones de texto a voz . Diseñada especialmente para personas con discapacidades del habla , Personal Voice ayuda a preservar el sonido único de la voz de un usuario. Mejora Siri y otras herramientas de accesibilidad al brindar una experiencia de usuario más personalizada e inclusiva . Personal Voice refleja el compromiso continuo de Apple con la accesibilidad y la innovación . [17] [18]
En 2014, Amazon presentó el dispositivo doméstico inteligente Alexa . Su principal objetivo era simplemente un altavoz inteligente que permitía al consumidor controlar el dispositivo con su voz. Con el tiempo, se convirtió en un dispositivo novedoso que tenía la capacidad de controlar electrodomésticos con la voz. Ahora, casi todos los electrodomésticos se pueden controlar con Alexa, incluidas las bombillas y la temperatura. Al permitir el control por voz, Alexa puede conectarse a la tecnología del hogar inteligente, lo que le permite cerrar la casa, controlar la temperatura y activar varios dispositivos. Esta forma de IA permite que alguien simplemente le haga una pregunta y, en respuesta, Alexa busca, encuentra y recita la respuesta. [19]
A medida que la tecnología de los automóviles mejora, se añadirán más funciones a los coches y estas funciones podrían distraer al conductor. Los comandos de voz para coches, según CNET , deberían permitir al conductor emitir comandos y no distraerse. CNET afirmó que Nuance estaba sugiriendo que en el futuro crearían un software que se pareciera a Siri, pero para coches. [20] La mayoría del software de reconocimiento de voz del mercado en 2011 tenía sólo entre 50 y 60 comandos de voz, pero Ford Sync tenía 10.000. [20] Sin embargo, CNET sugirió que incluso 10.000 comandos de voz no eran suficientes dada la complejidad y la variedad de tareas que un usuario puede querer hacer mientras conduce. [20] El comando de voz para coches es diferente del comando de voz para teléfonos móviles y ordenadores porque un conductor puede utilizar la función para buscar restaurantes cercanos, buscar gasolina, indicaciones para conducir, condiciones de la carretera y la ubicación del hotel más cercano. [20] Actualmente, la tecnología permite al conductor emitir comandos de voz tanto en un GPS portátil como un Garmin como en un sistema de navegación del fabricante del coche. [21]
Lista de sistemas de comando de voz proporcionados por los fabricantes de motores:
Si bien la mayoría de las interfaces de usuario de voz están diseñadas para admitir la interacción a través del lenguaje humano hablado, también ha habido exploraciones recientes en el diseño de interfaces que toman sonidos humanos no verbales como entrada. [22] [23] En estos sistemas, el usuario controla la interfaz emitiendo sonidos no verbales, como zumbidos, silbidos o soplando en un micrófono. [24]
Un ejemplo de interfaz de usuario de voz no verbal es Blendie, [25] [26] una instalación de arte interactiva creada por Kelly Dobson. La pieza constaba de una licuadora clásica de la década de 1950 que se adaptó para responder a la entrada de un micrófono. Para controlar la licuadora, el usuario debe imitar los sonidos mecánicos de zumbido que suele producir una licuadora: la licuadora girará lentamente en respuesta al gruñido grave del usuario y aumentará la velocidad a medida que el usuario haga sonidos vocales más agudos.
Otro ejemplo es VoiceDraw, [27] un sistema de investigación que permite el dibujo digital para personas con capacidades motoras limitadas. VoiceDraw permite a los usuarios "pintar" trazos en un lienzo digital modulando los sonidos de las vocales, que se asignan a las direcciones del pincel. La modulación de otras características paralingüísticas (por ejemplo, el volumen de la voz) permite al usuario controlar diferentes características del dibujo, como el grosor del trazo del pincel.
Otros enfoques incluyen la adopción de sonidos no verbales para aumentar las interfaces táctiles (por ejemplo, en un teléfono móvil) para admitir nuevos tipos de gestos que no serían posibles solo con la entrada de los dedos. [24]
Las interfaces de voz plantean una cantidad sustancial de desafíos para la usabilidad. A diferencia de las interfaces gráficas de usuario (GUI), las mejores prácticas para el diseño de interfaces de voz aún están en desarrollo. [28]
En las interacciones basadas exclusivamente en audio, las interfaces de usuario de voz tienden a tener una baja capacidad de descubrimiento : [28] a los usuarios les resulta difícil comprender el alcance de las capacidades de un sistema. Para que el sistema transmita lo que es posible sin una pantalla visual, necesitaría enumerar las opciones disponibles, lo que puede volverse tedioso o inviable. La baja capacidad de descubrimiento a menudo hace que los usuarios informen de que están confundidos sobre lo que se les "permite" decir, o de que no coinciden con las expectativas sobre la amplitud de la comprensión de un sistema. [29] [30]
Si bien la tecnología de reconocimiento de voz ha mejorado considerablemente en los últimos años, las interfaces de usuario de voz aún sufren errores de análisis o transcripción en los que el habla de un usuario no se interpreta correctamente. [31] Estos errores tienden a ser especialmente frecuentes cuando el contenido del habla utiliza vocabulario técnico (por ejemplo, terminología médica) o ortografías no convencionales, como nombres de artistas musicales o canciones. [32]
El diseño eficaz de sistemas para maximizar la comprensión conversacional sigue siendo un área de investigación abierta. Las interfaces de usuario de voz que interpretan y gestionan el estado conversacional son difíciles de diseñar debido a la dificultad inherente de integrar tareas complejas de procesamiento del lenguaje natural como la resolución de correferencia , el reconocimiento de entidades nombradas , la recuperación de información y la gestión de diálogos . [33] La mayoría de los asistentes de voz actuales son capaces de ejecutar comandos individuales muy bien, pero su capacidad para gestionar diálogos más allá de una tarea limitada o un par de turnos en una conversación es limitada. [34]
Los dispositivos de bolsillo, como las PDA o los teléfonos móviles , dependen actualmente de pequeños botones para la entrada del usuario. Estos están integrados en el dispositivo o son parte de una interfaz de pantalla táctil, como la del iPod Touch de Apple y la aplicación Siri del iPhone . Presionar botones extensamente en dispositivos con botones tan pequeños puede ser tedioso e impreciso, por lo que una VUI fácil de usar, precisa y confiable podría ser un gran avance en la facilidad de uso. No obstante, una VUI de este tipo también beneficiaría a los usuarios de computadoras portátiles y de escritorio, ya que resolvería numerosos problemas actualmente asociados con el uso del teclado y el mouse , incluidas las lesiones por esfuerzo repetitivo como el síndrome del túnel carpiano , los desafíos de navegar e ingresar texto dentro de interfaces digitales por parte de personas con discapacidad visual [35] y la velocidad de escritura lenta por parte de usuarios de teclado inexpertos. Además, el uso del teclado generalmente implica sentarse o permanecer de pie frente a la pantalla conectada; Por el contrario, una VUI permitiría al usuario ser mucho más móvil, ya que la entrada de voz elimina la necesidad de mirar un teclado.
Estos avances podrían cambiar la faz de las máquinas actuales y tener implicaciones de largo alcance en la forma en que los usuarios interactúan con ellas. Los dispositivos portátiles se diseñarían con pantallas más grandes y fáciles de ver, ya que no se necesitaría teclado. Los dispositivos de pantalla táctil ya no necesitarían dividir la pantalla entre el contenido y un teclado en pantalla, lo que proporcionaría una visualización de pantalla completa del contenido. Las computadoras portátiles podrían reducirse esencialmente a la mitad en términos de tamaño, ya que se eliminaría la mitad del teclado y todos los componentes internos se integrarían detrás de la pantalla, lo que daría como resultado una simple computadora tipo tableta . Las computadoras de escritorio constarían de una CPU y una pantalla, ahorrando espacio en el escritorio que de otro modo ocuparía el teclado y eliminando los reposapiés deslizantes para teclado construidos debajo de la superficie del escritorio. También podrían eliminarse los controles remotos de televisión y los teclados numéricos en docenas de otros dispositivos, desde hornos microondas hasta fotocopiadoras.
Sin embargo, para que se produzcan estos avances, habría que superar numerosos retos. En primer lugar, la interfaz de usuario de voz tendría que ser lo suficientemente sofisticada como para distinguir entre las entradas, como los comandos, y las conversaciones de fondo; de lo contrario, se registrarían entradas falsas y el dispositivo conectado se comportaría de forma errática. Un mensaje estándar, como el famoso "¡Ordenador!" que emiten los personajes de programas de televisión y películas de ciencia ficción como Star Trek , podría activar la interfaz de usuario de voz y prepararla para recibir más entradas del mismo hablante. Es posible que la interfaz de usuario de voz también incluya una representación similar a la humana: una voz o incluso un personaje en pantalla, por ejemplo, que responda (por ejemplo, "¿Sí, Vamshi?") y continúe comunicándose con el usuario para aclarar la entrada recibida y garantizar la precisión.
En segundo lugar, la VUI tendría que trabajar en conjunto con un software altamente sofisticado para procesar y encontrar/recuperar información con precisión o llevar a cabo una acción según las preferencias particulares del usuario. Por ejemplo, si Samantha prefiere información de un periódico en particular, y si prefiere que la información se resuma en forma de puntos, podría decir: "Computadora, búscame información sobre las inundaciones en el sur de China anoche"; en respuesta, la VUI que está familiarizada con sus preferencias "encontraría" datos sobre las "inundaciones" en el "sur de China" de esa fuente, los convertiría en forma de puntos y se los entregaría en pantalla y/o en forma de voz, junto con una cita. Por lo tanto, se requeriría un software de reconocimiento de voz preciso , junto con cierto grado de inteligencia artificial por parte de la máquina asociada con la VUI.
Las preocupaciones sobre la privacidad se plantean por el hecho de que los comandos de voz están disponibles para los proveedores de interfaces de voz-usuario en forma no cifrada y, por lo tanto, pueden compartirse con terceros y procesarse de manera no autorizada o inesperada. [36] [37] Además del contenido lingüístico del habla grabada, la forma de expresión y las características de voz de un usuario pueden contener implícitamente información sobre su identidad biométrica, rasgos de personalidad, forma corporal, estado de salud física y mental, sexo, género, estados de ánimo y emociones , estatus socioeconómico y origen geográfico. [38]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )