El reconocimiento de hablantes es la identificación de una persona a partir de las características de las voces. [1] Se utiliza para responder a la pregunta "¿Quién está hablando?". El término reconocimiento de voz [2] [3] [4] [5] [6] puede referirse al reconocimiento de hablantes o al reconocimiento de voz . La verificación del hablante (también llamada autenticación del hablante ) contrasta con la identificación, y el reconocimiento del hablante difiere de la diarización del hablante (reconocer cuándo habla el mismo hablante).
Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados con voces específicas o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad. El reconocimiento del hablante tiene una historia que se remonta a unas cuatro décadas (a fecha de 2019) y utiliza las características acústicas del habla que se ha descubierto que difieren entre individuos. Estos patrones acústicos reflejan tanto la anatomía como los patrones de comportamiento aprendidos.
Existen dos aplicaciones principales de las tecnologías y metodologías de reconocimiento de hablantes. Si el hablante afirma tener una identidad determinada y se utiliza la voz para verificar esta afirmación, esto se denomina verificación o autenticación . Por otro lado, la identificación es la tarea de determinar la identidad de un hablante desconocido. En cierto sentido, la verificación del hablante es una comparación 1:1 en la que la voz de un hablante se compara con una plantilla en particular, mientras que la identificación del hablante es una comparación 1:N en la que la voz se compara con varias plantillas.
Desde una perspectiva de seguridad, la identificación es diferente de la verificación. La verificación del hablante se utiliza generalmente como un "guardián" para proporcionar acceso a un sistema seguro. Estos sistemas funcionan con el conocimiento de los usuarios y normalmente requieren su cooperación. Los sistemas de identificación de hablantes también se pueden implementar de forma encubierta sin el conocimiento del usuario para identificar a los participantes de una discusión, alertar a los sistemas automatizados de cambios de hablante, comprobar si un usuario ya está registrado en un sistema, etc.
En las aplicaciones forenses, es común realizar primero un proceso de identificación del hablante para crear una lista de "mejores coincidencias" y luego realizar una serie de procesos de verificación para determinar una coincidencia concluyente. Trabajar para hacer coincidir las muestras del hablante con la lista de mejores coincidencias ayuda a determinar si son la misma persona en función de la cantidad de similitudes o diferencias. La fiscalía y la defensa utilizan esto como evidencia para determinar si el sospechoso es realmente el infractor. [7]
Una de las primeras tecnologías de entrenamiento que se comercializaron fue la que se implementó en la muñeca Julie de Worlds of Wonder en 1987. En ese momento, la independencia del hablante era un avance esperado y los sistemas requerían un período de entrenamiento. Un anuncio de 1987 para la muñeca llevaba el eslogan "Por fin, la muñeca que te entiende", a pesar de que se describía como un producto "que los niños podían entrenar para responder a su voz". [8] El término reconocimiento de voz, incluso una década después, se refería a la independencia del hablante. [9] [ aclaración necesaria ]
Cada sistema de reconocimiento de hablantes consta de dos fases: inscripción y verificación. Durante la inscripción, se graba la voz del hablante y, por lo general, se extraen una serie de características para formar una huella de voz, una plantilla o un modelo. En la fase de verificación, se compara una muestra de voz o "enunciado" con una huella de voz creada previamente. En el caso de los sistemas de identificación, el enunciado se compara con varias huellas de voz para determinar la mejor coincidencia, mientras que los sistemas de verificación comparan un enunciado con una única huella de voz. Debido al proceso involucrado, la verificación es más rápida que la identificación.
Los sistemas de reconocimiento de hablantes se dividen en dos categorías: dependientes del texto e independientes del texto. [10] El reconocimiento dependiente del texto requiere que el texto sea el mismo tanto para el registro como para la verificación. [11] En un sistema dependiente del texto, las indicaciones pueden ser comunes para todos los hablantes (por ejemplo, una frase de contraseña común) o únicas. Además, se puede emplear el uso de secretos compartidos (por ejemplo, contraseñas y PIN) o información basada en el conocimiento para crear un escenario de autenticación multifactor . Por el contrario, los sistemas independientes del texto no requieren el uso de un texto específico. Se utilizan con mayor frecuencia para la identificación del hablante, ya que requieren muy poca o ninguna cooperación por parte del hablante. En este caso, el texto durante el registro y la prueba es diferente. De hecho, el registro puede ocurrir sin el conocimiento del usuario, como en el caso de muchas aplicaciones forenses. Como las tecnologías independientes del texto no comparan lo que se dijo en el registro y la verificación, las aplicaciones de verificación también tienden a emplear el reconocimiento de voz para determinar lo que el usuario está diciendo en el punto de autenticación. [ cita requerida ] En los sistemas independientes del texto se utilizan tanto técnicas de análisis acústico como de habla . [12]
El reconocimiento de hablantes es un problema de reconocimiento de patrones . Las diversas tecnologías utilizadas para procesar y almacenar impresiones de voz incluyen estimación de frecuencia , modelos ocultos de Markov , modelos de mezcla gaussiana , algoritmos de comparación de patrones , redes neuronales , representación matricial , cuantificación vectorial y árboles de decisión . Para comparar enunciados con impresiones de voz, tradicionalmente se utilizan métodos más básicos como la similitud de coseno por su simplicidad y rendimiento. Algunos sistemas también utilizan técnicas "anti-hablante", como modelos de cohorte y modelos del mundo. Las características espectrales se utilizan predominantemente para representar las características del hablante. [13] La codificación predictiva lineal (LPC) es un método de codificación del habla utilizado en el reconocimiento de hablantes y la verificación del habla . [ cita requerida ]
Los niveles de ruido ambiental pueden dificultar la recopilación de las muestras de voz iniciales y posteriores. Se pueden emplear algoritmos de reducción de ruido para mejorar la precisión, pero una aplicación incorrecta puede tener el efecto contrario. La degradación del rendimiento puede ser resultado de cambios en los atributos de comportamiento de la voz y de la inscripción mediante un teléfono y la verificación en otro. Se espera que aumente la integración con productos de autenticación de dos factores . Los cambios de voz debidos al envejecimiento pueden afectar el rendimiento del sistema con el tiempo. Algunos sistemas adaptan los modelos de hablantes después de cada verificación exitosa para capturar dichos cambios a largo plazo en la voz, aunque existe un debate sobre el impacto general en la seguridad que impone la adaptación automática [ cita requerida ]
Debido a la introducción de leyes como el Reglamento General de Protección de Datos en la Unión Europea y la Ley de Privacidad del Consumidor de California en los Estados Unidos, ha habido mucho debate sobre el uso del reconocimiento de voz en el lugar de trabajo. En septiembre de 2019, el desarrollador irlandés de reconocimiento de voz Soapbox Labs advirtió sobre las implicaciones legales que esto podría implicar. [14]
La primera patente internacional fue presentada en 1983, a partir de la investigación en telecomunicaciones en CSELT [15] (Italia) por Michele Cavazza y Alberto Ciaramella como base tanto para futuros servicios de telecomunicaciones a clientes finales como para mejorar las técnicas de reducción de ruido en la red.
Entre 1996 y 1998, se utilizó tecnología de reconocimiento de habla en el cruce fronterizo de Scobey-Coronach para permitir que los residentes locales registrados que no tenían nada que declarar cruzaran la frontera entre Canadá y Estados Unidos cuando las estaciones de inspección estaban cerradas por la noche. [16] El sistema fue desarrollado para el Servicio de Inmigración y Naturalización de los Estados Unidos por Voice Strategies de Warren, Michigan. [ cita requerida ]
En 2013 Barclays Wealth , la división de banca privada de Barclays, se convirtió en la primera firma de servicios financieros en implementar la biometría de voz como el principal medio de identificación de clientes para sus centros de llamadas . El sistema utilizó el reconocimiento pasivo del hablante para verificar la identidad de los clientes telefónicos en los 30 segundos siguientes a una conversación normal. [17] Fue desarrollado por la empresa de reconocimiento de voz Nuance (que en 2011 adquirió la empresa Loquendo , la escisión de la propia CSELT para la tecnología del habla), la empresa detrás de la tecnología Siri de Apple . El 93% de los clientes le dieron al sistema un "9 sobre 10" por su velocidad, facilidad de uso y seguridad. [18]
El reconocimiento de hablantes también puede utilizarse en investigaciones criminales, como las de las ejecuciones en 2014 de, entre otros, James Foley y Steven Sotloff . [19]
En febrero de 2016, el banco británico HSBC y su banco minorista basado en Internet First Direct anunciaron que ofrecerían a 15 millones de clientes su software bancario biométrico para acceder a cuentas en línea y telefónicas usando su huella digital o su voz. [20]
En 2023, Vice News y The Guardian demostraron por separado que podían derrotar a los sistemas estándar de autenticación de hablantes financieros utilizando voces generadas por IA a partir de aproximadamente cinco minutos de muestras de voz del objetivo. [21] [22]
{{cite web}}
: CS1 maint: URL no apta ( enlace )Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado... Hace cuatro meses, IBM presentó un "producto de dictado continuo" diseñado para... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
Verificador dependiente del texto e independiente del texto... ambos con la misma tasa de error y detección...
tarea .. verificación o identificación