Windows Speech Recognition ( WSR ) es un reconocimiento de voz desarrollado por Microsoft para Windows Vista que permite utilizar comandos de voz para controlar la interfaz de usuario del escritorio , dictar texto en documentos electrónicos y correo electrónico , navegar por sitios web , realizar atajos de teclado y operar el cursor del mouse . Admite macros personalizadas para realizar tareas adicionales o complementarias.
WSR es una plataforma de reconocimiento de voz procesada localmente; no depende de la computación en la nube para lograr precisión, dictado o reconocimiento, sino que se adapta en función de contextos, gramáticas, muestras de voz, sesiones de entrenamiento y vocabularios. Proporciona un diccionario personal que permite a los usuarios incluir o excluir palabras o expresiones del dictado y registrar pronunciaciones para aumentar la precisión del reconocimiento. También se admiten modelos de idiomas personalizados.
Con Windows Vista, WSR fue desarrollado para ser parte de Windows, ya que el reconocimiento de voz anteriormente era exclusivo de aplicaciones como Windows Media Player . Está presente en Windows 7 , Windows 8 , Windows 8.1 , Windows RT , Windows 10 y Windows 11 .
Microsoft estuvo involucrado en la investigación de reconocimiento de voz y síntesis de voz durante muchos años antes de WSR. En 1993, Microsoft contrató a Xuedong Huang de la Universidad Carnegie Mellon para liderar sus esfuerzos de desarrollo de voz; la investigación de la compañía condujo al desarrollo de Speech API (SAPI) introducido en 1994. [1] El reconocimiento de voz también se había utilizado en productos anteriores de Microsoft. Office XP y Office 2003 proporcionaron capacidades de reconocimiento de voz entre Internet Explorer y aplicaciones de Microsoft Office ; [2] también permitió una funcionalidad de voz limitada en Windows 98 , Windows Me , Windows NT 4.0 y Windows 2000. [ 3] Windows XP Tablet PC Edition 2002 incluyó capacidades de reconocimiento de voz con el Panel de entrada de Tablet PC, [4] [5] y Microsoft Plus! para Windows XP permitió comandos de voz para Windows Media Player. [6] Sin embargo, todos estos requerían la instalación de reconocimiento de voz como un componente separado; antes de Windows Vista, Windows no incluía reconocimiento de voz integrado o extensivo. [5] Office 2007 y versiones posteriores dependen de WSR para servicios de reconocimiento de voz. [7]
En WinHEC 2002, Microsoft anunció que Windows Vista (cuyo nombre en código era "Longhorn") incluiría avances en el reconocimiento de voz y en funciones como compatibilidad con conjuntos de micrófonos [8] como parte de un esfuerzo por "ofrecer una infraestructura de audio de calidad consistente para el reconocimiento de voz natural (continuo) y el comando y control (discretos)". [9] Bill Gates afirmó durante PDC 2003 que Microsoft "integraría capacidades de voz en el sistema, un gran avance para el 'Longhorn', tanto en reconocimiento como en síntesis, en tiempo real"; [10] [11] y las versiones previas al lanzamiento durante el desarrollo de Windows Vista incluyeron un motor de voz con funciones de entrenamiento. [12] Una presentación para desarrolladores de PDC 2003 afirmó que Windows Vista también incluiría una interfaz de usuario para la retroalimentación y el control del micrófono, y funciones de configuración y entrenamiento del usuario. [13] Microsoft aclaró hasta qué punto se integraría el reconocimiento de voz cuando afirmó en un kit de desarrollo de software previo al lanzamiento que "los escenarios de voz comunes, como los menús y botones que permiten el habla, se habilitarán en todo el sistema". [14]
Durante WinHEC 2004, Microsoft incluyó WSR como parte de una estrategia para mejorar la productividad en PC móviles. [15] [16] Más tarde, Microsoft enfatizó la accesibilidad , los nuevos escenarios de movilidad, el soporte para idiomas adicionales y las mejoras en la experiencia del usuario de voz en WinHEC 2005. A diferencia del soporte de voz incluido en Windows XP, que estaba integrado con el Panel de entrada de Tablet PC y requería cambiar entre los modos separados de Comando y Dictado, Windows Vista introduciría una interfaz dedicada para la entrada de voz en el escritorio y unificaría los modos de voz separados; [17] los usuarios anteriormente no podían decir un comando después de dictar o viceversa sin cambiar primero entre estos dos modos. [18] Windows Vista Beta 1 incluía reconocimiento de voz integrado. [19] Para incentivar a los empleados de la empresa a analizar WSR en busca de fallas de software y proporcionar retroalimentación, Microsoft ofreció una oportunidad para que sus evaluadores ganaran un modelo Premium de Xbox 360. [20]
Durante una demostración realizada por Microsoft el 27 de julio de 2006 (antes del lanzamiento de Windows Vista a la fabricación , RTM) se produjo un incidente notable relacionado con WSR que dio lugar a una salida no deseada de "Querida tía, vamos a configurar el doble de la función eliminar todo seleccionar" cuando varios intentos de dictar dieron lugar a errores de salida consecutivos; [21] [22] el incidente fue objeto de una importante burla entre los analistas y periodistas de la audiencia, [23] [24] a pesar de que otra demostración de gestión y navegación de aplicaciones había tenido éxito. [21] Microsoft reveló que estos problemas se debían a un fallo de ganancia de audio que hacía que el reconocedor distorsionara los comandos y dictados; el fallo se solucionó antes del lanzamiento de Windows Vista. [25]
Los informes de principios de 2007 indicaron que WSR es vulnerable a los atacantes que utilizan el reconocimiento de voz para operaciones maliciosas al reproducir ciertos comandos de audio a través de los altavoces de un objetivo; [26] [27] fue la primera vulnerabilidad descubierta después de la disponibilidad general de Windows Vista . [28] Microsoft afirmó que, aunque un ataque de este tipo es teóricamente posible, una serie de factores atenuantes y prerrequisitos limitarían su eficacia o lo impedirían por completo: un objetivo necesitaría que el reconocedor esté activo y configurado para interpretar correctamente dichos comandos; los micrófonos y los altavoces tendrían que estar habilitados y a niveles de volumen suficientes; y un ataque requeriría que la computadora realice operaciones visibles y produzca una respuesta audible sin que los usuarios se den cuenta. El Control de cuentas de usuario también prohibiría la ocurrencia de operaciones privilegiadas. [29]
WSR se actualizó para utilizar Microsoft UI Automation y su motor ahora utiliza la pila de audio WASAPI , mejorando sustancialmente su rendimiento y habilitando el soporte para cancelación de eco , respectivamente. El recolector de documentos, que puede analizar y recopilar texto en correos electrónicos y documentos para contextualizar los términos del usuario, ha mejorado el rendimiento y ahora se ejecuta periódicamente en segundo plano en lugar de solo después del inicio del reconocedor. El modo de suspensión también ha visto mejoras de rendimiento y, para abordar problemas de seguridad, el reconocedor se apaga de forma predeterminada después de que los usuarios dicen "dejar de escuchar" en lugar de suspenderse. Windows 7 también presenta una opción para enviar datos de entrenamiento de voz a Microsoft para mejorar futuras versiones del reconocedor. [30]
Una nueva interfaz de bloc de notas de dictado funciona como un documento temporal en el que los usuarios pueden dictar o escribir texto para insertarlo en aplicaciones que no son compatibles con Text Services Framework . [30] Windows Vista anteriormente proporcionaba una "opción para habilitar el dictado en todas partes" para dichas aplicaciones. [31]
WSR se puede utilizar para controlar la interfaz de usuario Metro en Windows 8, Windows 8.1 y Windows RT con comandos para abrir la barra de accesos ("Presione Windows C"); para dictar o mostrar comandos en aplicaciones de estilo Metro ("Presione Windows Z"); para realizar tareas en aplicaciones (por ejemplo, "Cambiar a Celsius" en MSN Weather ); y para mostrar todas las aplicaciones instaladas enumeradas en la pantalla de Inicio ("Aplicaciones"). [32] [33]
WSR se incluye en la aplicación Configuración a partir de la actualización de abril de 2018 de Windows 10 ( versión 1803 ); el cambio apareció por primera vez en Insider Preview Build 17083. [34] La actualización de abril de 2018 también presenta un nuevo atajo de teclado ⊞ Win+ + para activar WSR. [35]CtrlS
En la versión 22H2 de Windows 11, se agregó una segunda aplicación de Microsoft, Voice Access, además de WSR. [36] [37] En diciembre de 2023, Microsoft anunció que WSR quedaría obsoleto en favor de Voice Access y podría eliminarse en una futura compilación o versión de Windows. [38]
WSR permite a un usuario controlar aplicaciones y la interfaz de usuario del escritorio de Windows a través de comandos de voz. [39] Los usuarios pueden dictar texto dentro de documentos, correo electrónico y formularios; controlar la interfaz de usuario del sistema operativo; realizar atajos de teclado ; y mover el cursor del mouse . [40] La mayoría de las aplicaciones integradas en Windows Vista se pueden controlar; [39] Las aplicaciones de terceros deben admitir Text Services Framework para dictado. [1] Inglés (EE. UU.) , Inglés (Reino Unido) , Francés , Alemán , Japonés , Chino mandarín y Español son idiomas admitidos. [41]
Cuando se inicia por primera vez, WSR presenta un asistente de configuración de micrófono y un tutorial interactivo opcional paso a paso que los usuarios pueden comenzar a aprender comandos básicos mientras adaptan el reconocedor a sus características de voz específicas; [39] se estima que el tutorial requiere aproximadamente 10 minutos para completarse. [42] La precisión del reconocedor aumenta con el uso regular, que lo adapta a contextos, gramáticas, patrones y vocabularios. [41] [43] También se admiten modelos de lenguaje personalizados para los contextos específicos, la fonética y las terminologías de los usuarios en campos ocupacionales particulares, como el legal o el médico. [44] Con Windows Search , [45] el reconocedor también puede recolectar opcionalmente texto en documentos, correo electrónico, así como entrada de tableta escrita a mano para contextualizar y desambiguar términos para mejorar la precisión; no se envía información a Microsoft. [43]
WSR es una plataforma de reconocimiento de voz procesada localmente; no depende de la computación en la nube para la precisión, el dictado o el reconocimiento. [46] Los perfiles de voz que almacenan información sobre los usuarios se conservan localmente. [43] Las copias de seguridad y las transferencias de perfiles se pueden realizar a través de Windows Easy Transfer . [47]
La interfaz WSR consta de un área de estado que muestra instrucciones, información sobre los comandos (por ejemplo, si el reconocedor no escucha un comando) y el estado del reconocedor; un medidor de voz muestra información visual sobre los niveles de volumen. El área de estado representa el estado actual de WSR en un total de tres modos, que se enumeran a continuación con sus respectivos significados:
Los colores del botón de modo de escucha del reconocedor indican sus distintos modos de funcionamiento: azul cuando se escucha; azul grisáceo cuando está en reposo; gris cuando está apagado; y amarillo cuando el usuario cambia de contexto (por ejemplo, del escritorio a la barra de tareas) o cuando se malinterpreta un comando de voz. El área de estado también puede mostrar información personalizada del usuario como parte de las macros de reconocimiento de voz de Windows. [48] [49]
Una interfaz de desambiguación del panel de alternativas enumera los elementos que se interpretan como relevantes para las palabras pronunciadas por un usuario; si la palabra o frase que un usuario desea insertar en una aplicación está incluida entre los resultados, un usuario puede decir el número correspondiente de la palabra o frase en los resultados y confirmar esta elección diciendo "Aceptar" para insertarla dentro de la aplicación. [50] El panel de alternativas también aparece al iniciar aplicaciones o decir comandos que hacen referencia a más de un elemento (por ejemplo, decir "Iniciar Internet Explorer" puede enumerar tanto el navegador web como una versión separada con complementos deshabilitados). Una entrada ExactMatchOverPartialMatch en el Registro de Windows puede limitar los comandos a elementos con nombres exactos si hay más de una instancia incluida en los resultados. [51]
A continuación se enumeran los comandos WSR más comunes. Las palabras en cursiva indican una palabra que puede sustituir al elemento deseado (por ejemplo, "dirección" en " dirección de desplazamiento " se puede sustituir por la palabra " abajo "). [40] Un comando "comenzar a escribir" permite a WSR interpretar todos los comandos de dictado como atajos de teclado. [50]
MouseGrid permite a los usuarios controlar el cursor del ratón superponiendo números en nueve regiones de la pantalla; estas regiones se estrechan gradualmente a medida que el usuario dice el número de la región en la que se va a centrar hasta llegar al elemento de interfaz deseado. Los usuarios pueden emitir comandos, entre ellos "Hacer clic en el número de región ", que mueve el cursor del ratón a la región deseada y luego hace clic en ella; y "Marcar el número de región ", que permite seleccionar un elemento (como un icono de ordenador ) en una región, sobre el que se puede hacer clic con el comando de clic anterior . Los usuarios también pueden interactuar con varias regiones a la vez. [40]
Las aplicaciones y los elementos de interfaz que no presentan comandos identificables pueden controlarse igualmente pidiendo al sistema que superponga números sobre ellos mediante un comando Mostrar números . Una vez activo, al decir el número superpuesto se selecciona ese elemento para que el usuario pueda abrirlo o realizar otras operaciones. [40] Mostrar números fue diseñado para que los usuarios pudieran interactuar con elementos que no son fácilmente identificables. [53]
WSR permite dictar texto en aplicaciones y Windows. Si se produce un error de dictado, se puede corregir diciendo "Corregir palabra " o "Corregir eso" y aparecerá el panel de alternativas con sugerencias para corregirlo; estas sugerencias se pueden seleccionar diciendo el número correspondiente al número de la sugerencia y diciendo "Aceptar". Si el elemento deseado no está en la lista de sugerencias, el usuario puede decirlo para que aparezca. Alternativamente, los usuarios pueden decir "Deletrearlo" o "Lo deletrearé yo mismo" para decir la palabra deseada letra por letra; los usuarios pueden usar su alfabeto personal o el alfabeto fonético de la OTAN (por ejemplo, "N como en noviembre") al deletrear. [44]
Se pueden corregir varias palabras de una oración simultáneamente (por ejemplo, si un usuario dice "dictando" pero el reconocedor interpreta esta palabra como "la cosa", un usuario puede decir "corregir la cosa" para corregir ambas palabras a la vez). En el idioma inglés se reconocen más de 100.000 palabras de forma predeterminada. [44]
Un diccionario personal permite a los usuarios incluir o excluir ciertas palabras o expresiones del dictado. [44] Cuando un usuario agrega una palabra que comienza con una letra mayúscula al diccionario, puede especificar si siempre debe estar en mayúscula o si la capitalización depende del contexto en el que se pronuncia la palabra. Los usuarios también pueden grabar pronunciaciones de palabras agregadas al diccionario para aumentar la precisión del reconocimiento; las palabras escritas con un lápiz en una tableta PC para la función de reconocimiento de escritura a mano de Windows también se almacenan. La información almacenada dentro de un diccionario se incluye como parte del perfil de voz de un usuario. [43] Los usuarios pueden abrir el diccionario de voz diciendo el comando "mostrar diccionario de voz".
WSR admite macros personalizadas a través de una aplicación complementaria de Microsoft que permite comandos de lenguaje natural adicionales . [54] [55] Como ejemplo de esta funcionalidad, una macro de correo electrónico lanzada por Microsoft habilita un comando de lenguaje natural donde un usuario puede decir "enviar correo electrónico al contacto sobre el asunto ", que abre Microsoft Outlook para redactar un nuevo mensaje con el contacto designado y el asunto insertados automáticamente. [56] Microsoft también ha lanzado macros de muestra para el diccionario de voz, [57] para Windows Media Player, [58] para Microsoft PowerPoint , [59] para síntesis de voz , [60] para cambiar entre múltiples micrófonos, [61] para personalizar varios aspectos de la configuración del dispositivo de audio como los niveles de volumen, [62] y para consultas generales en lenguaje natural como "¿Cuál es el pronóstico del tiempo?" [63] "¿Qué hora es?" [60] y "¿Cuál es la fecha?" [60] Las respuestas a estas consultas del usuario se le dicen al usuario en la voz de texto a voz activa de Microsoft instalada en la máquina.
Los usuarios y desarrolladores pueden crear sus propias macros basadas en transcripción y sustitución de texto; ejecución de aplicaciones (con soporte para argumentos de línea de comandos ); atajos de teclado; emulación de comandos de voz existentes; o una combinación de estos elementos. Se admiten XML , JScript y VBScript . [50] Las macros se pueden limitar a aplicaciones específicas [64] y las reglas para las macros se pueden definir programáticamente. [56] Para que se cargue una macro, debe almacenarse en una carpeta Speech Macros dentro del directorio Documents del usuario activo . Todas las macros están firmadas digitalmente de forma predeterminada si hay un certificado de usuario disponible para garantizar que los comandos almacenados no sean alterados o cargados por terceros; si no hay un certificado disponible, un administrador puede crear uno. [65] Los niveles de seguridad configurables pueden prohibir la carga de macros sin firmar; solicitar a los usuarios que firmen las macros después de la creación; y cargar macros sin firmar. [64]
A partir de 2017, WSR utiliza Microsoft Speech Recognizer 8.0, la versión introducida en Windows Vista. Mark Hachman, editor sénior de PC World[actualizar] , descubrió que tiene una precisión del 93,6 % para el dictado sin entrenamiento , una tasa que no es tan precisa como la del software de la competencia. Según Microsoft, la tasa de precisión cuando se entrena es del 99 %. Hachman opinó que Microsoft no habla públicamente de la función debido al incidente de 2006 durante el desarrollo de Windows Vista, con el resultado de que pocos usuarios sabían que se podían dictar documentos dentro de Windows antes de la introducción de Cortana . [42]