Reconocimiento de oradores

El reconocimiento de hablantes es la identificación de una persona a partir de las características de las voces. ^[1] Se utiliza para responder a la pregunta "¿Quién está hablando?". El término reconocimiento de voz ^[2]^[3]^[4]^[5]^[6] puede referirse al reconocimiento de hablantes o al reconocimiento de voz . La verificación del hablante (también llamada autenticación del hablante ) contrasta con la identificación, y el reconocimiento del hablante difiere de la diarización del hablante (reconocer cuándo habla el mismo hablante).

Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados con voces específicas o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad. El reconocimiento del hablante tiene una historia que se remonta a unas cuatro décadas (a fecha de 2019) y utiliza las características acústicas del habla que se ha descubierto que difieren entre individuos. Estos patrones acústicos reflejan tanto la anatomía como los patrones de comportamiento aprendidos.

Verificación versus identificación

Existen dos aplicaciones principales de las tecnologías y metodologías de reconocimiento de hablantes. Si el hablante afirma tener una identidad determinada y se utiliza la voz para verificar esta afirmación, esto se denomina verificación o autenticación . Por otro lado, la identificación es la tarea de determinar la identidad de un hablante desconocido. En cierto sentido, la verificación del hablante es una comparación 1:1 en la que la voz de un hablante se compara con una plantilla en particular, mientras que la identificación del hablante es una comparación 1:N en la que la voz se compara con varias plantillas.

Desde una perspectiva de seguridad, la identificación es diferente de la verificación. La verificación del hablante se utiliza generalmente como un "guardián" para proporcionar acceso a un sistema seguro. Estos sistemas funcionan con el conocimiento de los usuarios y normalmente requieren su cooperación. Los sistemas de identificación de hablantes también se pueden implementar de forma encubierta sin el conocimiento del usuario para identificar a los participantes de una discusión, alertar a los sistemas automatizados de cambios de hablante, comprobar si un usuario ya está registrado en un sistema, etc.

En las aplicaciones forenses, es común realizar primero un proceso de identificación del hablante para crear una lista de "mejores coincidencias" y luego realizar una serie de procesos de verificación para determinar una coincidencia concluyente. Trabajar para hacer coincidir las muestras del hablante con la lista de mejores coincidencias ayuda a determinar si son la misma persona en función de la cantidad de similitudes o diferencias. La fiscalía y la defensa utilizan esto como evidencia para determinar si el sospechoso es realmente el infractor. ^[7]

Capacitación

Una de las primeras tecnologías de entrenamiento que se comercializaron fue la que se implementó en la muñeca Julie de Worlds of Wonder en 1987. En ese momento, la independencia del hablante era un avance esperado y los sistemas requerían un período de entrenamiento. Un anuncio de 1987 para la muñeca llevaba el eslogan "Por fin, la muñeca que te entiende", a pesar de que se describía como un producto "que los niños podían entrenar para responder a su voz". ^[8] El término reconocimiento de voz, incluso una década después, se refería a la independencia del hablante. ^[9]^{[ aclaración necesaria ]}

Variantes del reconocimiento del hablante

Cada sistema de reconocimiento de hablantes consta de dos fases: inscripción y verificación. Durante la inscripción, se graba la voz del hablante y, por lo general, se extraen una serie de características para formar una huella de voz, una plantilla o un modelo. En la fase de verificación, se compara una muestra de voz o "enunciado" con una huella de voz creada previamente. En el caso de los sistemas de identificación, el enunciado se compara con varias huellas de voz para determinar la mejor coincidencia, mientras que los sistemas de verificación comparan un enunciado con una única huella de voz. Debido al proceso involucrado, la verificación es más rápida que la identificación.

Los sistemas de reconocimiento de hablantes se dividen en dos categorías: dependientes del texto e independientes del texto. ^[10] El reconocimiento dependiente del texto requiere que el texto sea el mismo tanto para el registro como para la verificación. ^[11] En un sistema dependiente del texto, las indicaciones pueden ser comunes para todos los hablantes (por ejemplo, una frase de contraseña común) o únicas. Además, se puede emplear el uso de secretos compartidos (por ejemplo, contraseñas y PIN) o información basada en el conocimiento para crear un escenario de autenticación multifactor . Por el contrario, los sistemas independientes del texto no requieren el uso de un texto específico. Se utilizan con mayor frecuencia para la identificación del hablante, ya que requieren muy poca o ninguna cooperación por parte del hablante. En este caso, el texto durante el registro y la prueba es diferente. De hecho, el registro puede ocurrir sin el conocimiento del usuario, como en el caso de muchas aplicaciones forenses. Como las tecnologías independientes del texto no comparan lo que se dijo en el registro y la verificación, las aplicaciones de verificación también tienden a emplear el reconocimiento de voz para determinar lo que el usuario está diciendo en el punto de autenticación. ^{[ cita requerida ]} En los sistemas independientes del texto se utilizan tanto técnicas de análisis acústico como de habla . ^[12]

Tecnología

El reconocimiento de hablantes es un problema de reconocimiento de patrones . Las diversas tecnologías utilizadas para procesar y almacenar impresiones de voz incluyen estimación de frecuencia , modelos ocultos de Markov , modelos de mezcla gaussiana , algoritmos de coincidencia de patrones , redes neuronales , representación matricial , cuantificación vectorial y árboles de decisión . Para comparar enunciados con impresiones de voz, tradicionalmente se utilizan métodos más básicos como la similitud de coseno por su simplicidad y rendimiento. Algunos sistemas también utilizan técnicas "anti-hablante", como modelos de cohorte y modelos del mundo. Las características espectrales se utilizan predominantemente para representar las características del hablante. ^[13] La codificación predictiva lineal (LPC) es un método de codificación del habla utilizado en el reconocimiento de hablantes y la verificación del habla . ^{[ cita requerida ]}

Los niveles de ruido ambiental pueden dificultar la recopilación de las muestras de voz iniciales y posteriores. Se pueden emplear algoritmos de reducción de ruido para mejorar la precisión, pero una aplicación incorrecta puede tener el efecto contrario. La degradación del rendimiento puede ser resultado de cambios en los atributos de comportamiento de la voz y de la inscripción mediante un teléfono y la verificación en otro. Se espera que aumente la integración con productos de autenticación de dos factores . Los cambios de voz debidos al envejecimiento pueden afectar el rendimiento del sistema con el tiempo. Algunos sistemas adaptan los modelos de hablantes después de cada verificación exitosa para capturar dichos cambios a largo plazo en la voz, aunque existe un debate sobre el impacto general en la seguridad que impone la adaptación automática ^{[ cita requerida ]}

Implicaciones legales

Debido a la introducción de leyes como el Reglamento General de Protección de Datos en la Unión Europea y la Ley de Privacidad del Consumidor de California en los Estados Unidos, ha habido mucho debate sobre el uso del reconocimiento de voz en el lugar de trabajo. En septiembre de 2019, el desarrollador irlandés de reconocimiento de voz Soapbox Labs advirtió sobre las implicaciones legales que esto podría implicar. ^[14]

Aplicaciones

La primera patente internacional fue presentada en 1983, a partir de la investigación en telecomunicaciones en CSELT ^[15] (Italia) por Michele Cavazza y Alberto Ciaramella como base tanto para futuros servicios de telecomunicaciones a clientes finales como para mejorar las técnicas de reducción de ruido en la red.

Entre 1996 y 1998, se utilizó tecnología de reconocimiento de habla en el cruce fronterizo de Scobey-Coronach para permitir que los residentes locales registrados que no tenían nada que declarar cruzaran la frontera entre Canadá y Estados Unidos cuando las estaciones de inspección estaban cerradas por la noche. ^[16] El sistema fue desarrollado para el Servicio de Inmigración y Naturalización de los Estados Unidos por Voice Strategies de Warren, Michigan. ^{[ cita requerida ]}

En 2013 Barclays Wealth , la división de banca privada de Barclays, se convirtió en la primera firma de servicios financieros en implementar la biometría de voz como el principal medio de identificación de clientes para sus centros de llamadas . El sistema utilizó el reconocimiento pasivo del hablante para verificar la identidad de los clientes telefónicos en los 30 segundos siguientes a una conversación normal. ^[17] Fue desarrollado por la empresa de reconocimiento de voz Nuance (que en 2011 adquirió la empresa Loquendo , la escisión de la propia CSELT para la tecnología del habla), la empresa detrás de la tecnología Siri de Apple . El 93% de los clientes le dieron al sistema un "9 sobre 10" por su velocidad, facilidad de uso y seguridad. ^[18]

El reconocimiento de hablantes también puede utilizarse en investigaciones criminales, como las de las ejecuciones en 2014 de, entre otros, James Foley y Steven Sotloff . ^[19]

En febrero de 2016, el banco británico HSBC y su banco minorista basado en Internet First Direct anunciaron que ofrecerían a 15 millones de clientes su software bancario biométrico para acceder a cuentas en línea y telefónicas usando su huella digital o su voz. ^[20]

En 2023, Vice News y The Guardian demostraron por separado que podían derrotar a los sistemas estándar de autenticación de hablantes financieros utilizando voces generadas por IA a partir de aproximadamente cinco minutos de muestras de voz del objetivo. ^[21]^[22]

Véase también

Liza

Notas

^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (27 de noviembre de 2017). "Verificación del hablante con enunciados breves: una revisión de los desafíos, las tendencias y las oportunidades". IET Biometrics . 7 (2). Institution of Engineering and Technology (IET): 91–101. doi :10.1049/iet-bmt.2017.0065. ISSN 2047-4938.
^ Lass, Norman J. (1974). Fonética experimental . Corporación de Información de los Manuscritos. Págs. 251-258. ISBN. 978-0-8422-5149-5.
^ Van Lancker, Diana; Kreiman, Jody; Emmorey, Karen (1985). "Reconocimiento de voces familiares: patrones y parámetros Parte I: Reconocimiento de voces al revés". Journal of Phonetics . 13 (1). Elsevier BV: 19–38. doi : 10.1016/s0095-4470(19)30723-5 . ISSN 0095-4470.
^ "RECONOCIMIENTO DE VOZ (sustantivo) definición y sinónimos". macmillandictionary.com . 23 de enero de 2010. Archivado desde el original el 27 de marzo de 2023 . Consultado el 13 de octubre de 2023 .{{cite web}}: CS1 maint: URL no apta ( enlace )
^ "¿Qué es el reconocimiento de voz? Definición y significado". businessdictionary.com . 6 de octubre de 2008. Archivado desde el original el 3 de diciembre de 2011.
^ "El buzón de correo LG n.° 114". Linux Gazette . 28 de marzo de 2005.
^ Rose, Phil; Osanai, Takashi; Kinoshita, Yuko (6 de agosto de 2003). "Fuerza de la evidencia de identificación forense del hablante: discriminación segmentaria basada en formantes y cepstrum de hablantes múltiples con una razón de verosimilitud bayesiana como umbral". Revista internacional del habla, el lenguaje y el derecho . 10 (2). Equinox Publishing: 179–202. doi :10.1558/sll.2003.10.2.179. ISSN 1748-8893.
^ Pinola, Melanie (2 de noviembre de 2011). "Reconocimiento de voz a través de las décadas: cómo llegamos a Siri". PCWorld .
^ Rosen, Cheryl (3 de marzo de 1997). "Reconocimiento de voz para facilitar las reservas de viajes". Business Travel News . Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado... Hace cuatro meses, IBM presentó un "producto de dictado continuo" diseñado para... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
^ "Verificación del hablante: dependiente del texto frente a independiente del texto". Microsoft Research . 19 de junio de 2017. Verificador dependiente del texto e independiente del texto... ambos con la misma tasa de error y detección...
^ Hébert, Matthieu (2008). "Reconocimiento de locutor dependiente del texto". Springer Handbook of Speech Processing . Springer Handbooks. Berlín, Heidelberg: Springer Berlin Heidelberg. págs. 743–762. doi :10.1007/978-3-540-49127-9_37. ISBN 978-3-540-49125-5. ISSN 2522-8692. tarea .. verificación o identificación
^ Myers, Lisa (25 de julio de 2004). "Una exploración de la biometría de voz". SANS Institute .
^ Sahidullah, Md; Kinnunen, Tomi (2016). "Características de variabilidad espectral local para la verificación del hablante" (PDF) . Procesamiento de señales digitales . 50 . Elsevier BV: 1–11. doi :10.1016/j.dsp.2015.10.011. ISSN 1051-2004.
^ "Un experto en reconocimiento de voz plantea inquietudes sobre la tecnología de voz en el lugar de trabajo". Independent.ie . 29 de septiembre de 2019 . Consultado el 30 de septiembre de 2019 .
^ US4752958 A, Michele Cavazza, Alberto Ciaramella, "Dispositivo para verificación del hablante" https://patents.google.com/patent/US4752958/en
^ Meyer, Barb (12 de junio de 1996). "Cruce de fronteras automatizado". Reportaje televisivo . Meyer Television News.
^ International Banking (27 de diciembre de 2013). «Tecnología biométrica de voz en la banca | Barclays». Wealth.barclays.com . Consultado el 21 de febrero de 2016 .
^ Matt Warman (8 de mayo de 2013). «Dígale adiós al PIN: el reconocimiento de voz toma el control en Barclays Wealth» . Consultado el 5 de junio de 2013 .
^ Ewen MacAskill. "¿Mató 'Jihadi John' a Steven Sotloff? | Medios". The Guardian . Consultado el 21 de febrero de 2016 .
^ Julia Kollewe (19 de febrero de 2016). «HSBC implementa seguridad de identificación por voz y táctil para clientes bancarios | Empresas». The Guardian . Consultado el 21 de febrero de 2016 .
^ "Cómo entré en una cuenta bancaria con una voz generada por IA". 23 de febrero de 2023.
^ Evershed, Nick; Taylor, Josh (16 de marzo de 2023). "La IA puede engañar al sistema de reconocimiento de voz utilizado para verificar la identidad por Centrelink y la oficina de impuestos de Australia". The Guardian . Consultado el 16 de junio de 2023 .

Referencias

Homayoon Beigi (2011), "Fundamentos del reconocimiento de locutores", Springer-Verlag, Berlín, 2011, ISBN 978-0-387-77591-3 .
"La biometría en el cine" – Instituto Nacional de Estándares y Tecnología
Elisabeth Zetterholm (2003), Imitación de voz. Un estudio fonético de las ilusiones perceptuales y el éxito acústico , tesis doctoral, Universidad de Lund .
Md Sahidullah (2015), Mejora del rendimiento del reconocimiento de hablantes utilizando información de nivel de bloque, relativa y temporal de energías de subbanda , tesis doctoral, Instituto Indio de Tecnología Kharagpur .

Enlaces externos

Cómo burlar la autenticación de voz Archivado el 10 de junio de 2008 en Wayback Machine El podcast PLA Radio presentó recientemente una forma sencilla de engañar a los sistemas rudimentarios de autenticación de voz.
Reconocimiento de oradores – Scholarpedia
Beneficios y desafíos del reconocimiento de voz en el control de acceso

Software

Bob Biolanza
ALIZAR