Reconocimiento del orador

El reconocimiento del hablante es la identificación de una persona a partir de las características de las voces. ^[1] Se utiliza para responder a la pregunta "¿Quién habla?" El término reconocimiento de voz ^[2]^[3]^[4]^[5]^[6] puede hacer referencia al reconocimiento del hablante o al reconocimiento de voz . La verificación del hablante (también llamada autenticación del hablante ) contrasta con la identificación, y el reconocimiento del hablante difiere de la diarización del hablante (reconocer cuándo está hablando el mismo hablante).

Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados en voces específicas o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad. El reconocimiento de hablantes tiene una historia que se remonta a unas cuatro décadas a partir de 2019 y utiliza las características acústicas del habla que se ha descubierto que difieren entre individuos. Estos patrones acústicos reflejan tanto la anatomía como los patrones de comportamiento aprendidos.

Verificación versus identificación

Hay dos aplicaciones principales de las tecnologías y metodologías de reconocimiento de locutores. Si el hablante afirma tener una determinada identidad y se utiliza la voz para verificar esta afirmación, esto se llama verificación o autenticación . Por otro lado, la identificación es la tarea de determinar la identidad de un hablante desconocido. En cierto sentido, la verificación del hablante es una coincidencia 1:1 en la que la voz de un hablante se compara con una plantilla particular, mientras que la identificación del hablante es una coincidencia 1:N donde la voz se compara con múltiples plantillas.

Desde una perspectiva de seguridad, la identificación es diferente de la verificación. La verificación del hablante suele emplearse como "guardián" para proporcionar acceso a un sistema seguro. Estos sistemas funcionan con el conocimiento de los usuarios y normalmente requieren su cooperación. Los sistemas de identificación de oradores también se pueden implementar de forma encubierta sin el conocimiento del usuario para identificar a los oradores en una discusión, alertar a los sistemas automatizados de cambios de oradores, verificar si un usuario ya está inscrito en un sistema, etc.

En aplicaciones forenses, es común realizar primero un proceso de identificación del hablante para crear una lista de "mejores coincidencias" y luego realizar una serie de procesos de verificación para determinar una coincidencia concluyente. Trabajar para hacer coincidir las muestras del orador con la lista de mejores coincidencias ayuda a determinar si son la misma persona en función de la cantidad de similitudes o diferencias. La fiscalía y la defensa utilizan esto como prueba para determinar si el sospechoso es realmente el delincuente. ^[7]

Capacitación

Una de las primeras tecnologías de entrenamiento que se comercializó se implementó en la muñeca Julie de 1987 de Worlds of Wonder . En ese momento, la independencia del hablante era un avance previsto y los sistemas requerían un período de capacitación. Un anuncio de la muñeca de 1987 llevaba el lema "Por fin, la muñeca que te entiende". - a pesar de que se describió como un producto "que los niños podían entrenar para responder a su voz". ^[8] El término reconocimiento de voz, incluso una década después, se refería a la independencia del hablante. ^[9]^{[ se necesita aclaración ]}

Variantes de reconocimiento de locutor

Cada sistema de reconocimiento de locutores tiene dos fases: inscripción y verificación. Durante la inscripción, se graba la voz del hablante y normalmente se extraen una serie de características para formar una impresión, plantilla o modelo de voz. En la fase de verificación, se compara una muestra de voz o "enunciado" con una impresión de voz creada previamente. Para los sistemas de identificación, la expresión se compara con múltiples huellas de voz para determinar las mejores coincidencias, mientras que los sistemas de verificación comparan una expresión con una única huella de voz. Debido al proceso involucrado, la verificación es más rápida que la identificación.

Los sistemas de reconocimiento de hablantes se dividen en dos categorías: dependientes del texto e independientes del texto. ^[10] El reconocimiento dependiente del texto requiere que el texto sea el mismo tanto para la inscripción como para la verificación. ^[11] En un sistema dependiente del texto, las indicaciones pueden ser comunes para todos los hablantes (por ejemplo, una frase de contraseña común) o únicas. Además, se puede emplear el uso de secretos compartidos (por ejemplo, contraseñas y PIN) o información basada en conocimientos para crear un escenario de autenticación multifactor . Por el contrario, los sistemas independientes del texto no requieren el uso de un texto específico. Se utilizan con mayor frecuencia para la identificación del hablante, ya que requieren muy poca o ninguna cooperación por parte del hablante. En este caso el texto durante la inscripción y la prueba es diferente. De hecho, el registro puede realizarse sin el conocimiento del usuario, como ocurre con muchas aplicaciones forenses. Como las tecnologías independientes del texto no comparan lo que se dijo en el momento del registro y la verificación, las aplicaciones de verificación tienden a emplear también el reconocimiento de voz para determinar lo que dice el usuario en el momento de la autenticación. ^{[ cita necesaria ]} En los sistemas independientes del texto se utilizan técnicas tanto de análisis acústico como de voz. ^[12]

Tecnología

El reconocimiento del hablante es un problema de reconocimiento de patrones . Las diversas tecnologías utilizadas para procesar y almacenar huellas de voz incluyen estimación de frecuencia , modelos ocultos de Markov , modelos de mezcla gaussiana , algoritmos de coincidencia de patrones , redes neuronales , representación matricial , cuantificación vectorial y árboles de decisión . Para comparar expresiones con impresiones de voz, tradicionalmente se utilizan métodos más básicos, como la similitud del coseno, por su simplicidad y rendimiento. Algunos sistemas también utilizan técnicas "anti-hablante", como modelos de cohortes y modelos mundiales. Las características espectrales se utilizan predominantemente para representar las características de los hablantes. ^[13] La codificación predictiva lineal (LPC) es un método de codificación de voz utilizado en el reconocimiento y verificación del habla . ^{[ cita necesaria ]}

Los niveles de ruido ambiental pueden impedir la recopilación de muestras de voz iniciales y posteriores. Se pueden emplear algoritmos de reducción de ruido para mejorar la precisión, pero una aplicación incorrecta puede tener el efecto contrario. La degradación del rendimiento puede resultar de cambios en los atributos de comportamiento de la voz y del registro utilizando un teléfono y la verificación en otro teléfono. Se espera que aumente la integración con productos de autenticación de dos factores . Los cambios de voz debidos al envejecimiento pueden afectar el rendimiento del sistema con el tiempo. Algunos sistemas adaptan los modelos de altavoz después de cada verificación exitosa para capturar cambios a largo plazo en la voz, aunque existe un debate sobre el impacto general en la seguridad impuesto por la adaptación automatizada ^{[ cita necesaria ]}

Implicaciones legales

Debido a la introducción de leyes como el Reglamento General de Protección de Datos en la Unión Europea y la Ley de Privacidad del Consumidor de California en los Estados Unidos, ha habido mucha discusión sobre el uso del reconocimiento de oradores en el lugar de trabajo. En septiembre de 2019, el desarrollador irlandés de reconocimiento de voz Soapbox Labs advirtió sobre las implicaciones legales que podrían implicar. ^[14]

Aplicaciones

La primera patente internacional se presentó en 1983, a partir de la investigación en telecomunicaciones realizada en CSELT ^[15] (Italia) por Michele Cavazza y Alberto Ciaramella como base tanto para futuros servicios de telecomunicaciones a clientes finales como para mejorar las técnicas de reducción de ruido en toda la red. .

Entre 1996 y 1998, se utilizó tecnología de reconocimiento de hablantes en el cruce fronterizo de Scobey-Coronach para permitir que los residentes locales inscritos sin nada que declarar cruzaran la frontera entre Canadá y Estados Unidos cuando las estaciones de inspección estaban cerradas por la noche. ^[16] El sistema fue desarrollado para el Servicio de Inmigración y Naturalización de Estados Unidos por Voice Strategies de Warren, Michigan. ^{[ cita necesaria ]}

En 2013, Barclays Wealth , la división de banca privada de Barclays, se convirtió en la primera empresa de servicios financieros en implementar la biometría de voz como medio principal para identificar a los clientes en sus centros de llamadas . El sistema utilizó reconocimiento pasivo de hablante para verificar la identidad de los clientes telefónicos dentro de los 30 segundos de una conversación normal. ^[17] Fue desarrollado por la empresa de reconocimiento de voz Nuance (que en 2011 adquirió la empresa Loquendo , la spin-off de la propia CSELT para la tecnología del habla), la empresa detrás de la tecnología Siri de Apple . El 93% de los clientes calificó el sistema con un "9 sobre 10" en cuanto a velocidad, facilidad de uso y seguridad. ^[18]

El reconocimiento de orador también puede utilizarse en investigaciones penales, como las de las ejecuciones de 2014 de, entre otros, James Foley y Steven Sotloff . ^[19]

En febrero de 2016, el banco británico HSBC y su banco minorista basado en Internet First Direct anunciaron que ofrecería a 15 millones de clientes su software de banca biométrica para acceder a cuentas telefónicas y en línea utilizando su huella digital o su voz. ^[20]

En 2023, Vice News y The Guardian demostraron por separado que podían derrotar a los sistemas estándar de autenticación de hablantes financieros utilizando voces generadas por IA a partir de aproximadamente cinco minutos de muestras de voz del objetivo. ^[21]^[22]

Ver también

Liza

Notas

^ Poddar, Arnab; Sahidullah, Maryland; Saha, Goutam (27 de noviembre de 2017). "Verificación del hablante con discursos breves: una revisión de desafíos, tendencias y oportunidades". Biometría IET . Institución de Ingeniería y Tecnología (IET). 7 (2): 91-101. doi :10.1049/iet-bmt.2017.0065. ISSN 2047-4938.
^ Muchacha, Norman J. (1974). Fonética Experimental . Corporación de Información MSS. págs. 251–258. ISBN 978-0-8422-5149-5.
^ Van Lancker, Diana; Kreiman, Jody; Emmorey, Karen (1985). "Reconocimiento de voz familiar: patrones y parámetros Parte I: Reconocimiento de voces al revés". Revista de Fonética . Elsevier BV. 13 (1): 19–38. doi : 10.1016/s0095-4470(19)30723-5 . ISSN 0095-4470.
^ "Definición y sinónimos de RECONOCIMIENTO DE VOZ (sustantivo)". macmillandictionary.com . 23 de enero de 2010. Archivado desde el original el 27 de marzo de 2023 . Consultado el 13 de octubre de 2023 .{{cite web}}: Mantenimiento CS1: URL no apta ( enlace )
^ "¿Qué es el reconocimiento de voz? Definición y significado". businessdictionary.com . 6 de octubre de 2008. Archivado desde el original el 3 de diciembre de 2011.
^ "La bolsa de correo LG # 114". Gaceta de Linux . 28 de marzo de 2005.
^ Rosa, Phil; Osanai, Takashi; Kinoshita, Yuko (6 de agosto de 2003). "Fuerza de la evidencia forense de identificación del hablante: discriminación segmentaria basada en formantes y cepstrum de múltiples hablantes con una relación de probabilidad bayesiana como umbral". Revista Internacional de Habla, Lenguaje y Derecho . Publicación Equinoccio. 10 (2): 179–202. doi :10.1558/sll.2003.10.2.179. ISSN 1748-8893.
^ Pinola, Melanie (2 de noviembre de 2011). "Reconocimiento de voz a lo largo de décadas: cómo terminamos con Siri". Mundo PC .
^ Rosen, Cheryl (3 de marzo de 1997). "Reconocimiento de voz para facilitar las reservas de viajes". Noticias sobre viajes de negocios . Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado... Hace cuatro meses, IBM presentó un "producto de dictado continuo" diseñado para... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
^ "Verificación del hablante: dependiente del texto frente a independiente del texto". Investigación de Microsoft . 19 de junio de 2017. Altavoz dependiente e independiente del texto... ambos tienen la misma tasa de error y detección...
^ Hébert, Matthieu (2008). "Reconocimiento de hablante dependiente del texto". Manual Springer de procesamiento del habla . Manuales Springer. Berlín, Heidelberg: Springer Berlín Heidelberg. págs. 743–762. doi :10.1007/978-3-540-49127-9_37. ISBN 978-3-540-49125-5. ISSN 2522-8692. tarea .. verificación o identificación
^ Myers, Lisa (25 de julio de 2004). "Una exploración de la biometría de voz". Instituto SANS .
^ Sahidullah, Maryland; Kinnunen, Tomi (2016). "Características de variabilidad espectral local para la verificación de hablantes" (PDF) . Procesamiento de señales digitales . Elsevier BV. 50 : 1–11. doi :10.1016/j.dsp.2015.10.011. ISSN 1051-2004.
^ "El experto en reconocimiento de voz plantea preocupaciones sobre la tecnología de voz en el lugar de trabajo". Independiente.es decir . 29 de septiembre de 2019 . Consultado el 30 de septiembre de 2019 .
^ US4752958 A, Michele Cavazza, Alberto Ciaramella, "Dispositivo para verificación del hablante" http://www.google.com/patents/US4752958?hl=it&cl=en
^ Meyer, Barb (12 de junio de 1996). "Cruce fronterizo automatizado". Reportaje informativo televisivo . Noticias de televisión Meyer.
↑ Banca Internacional (27 de diciembre de 2013). "Tecnología Biométrica de Voz en Banca | Barclays". Riqueza.barclays.com . Consultado el 21 de febrero de 2016 .
^ Matt Warman (8 de mayo de 2013). «Dile adiós al pin: el reconocimiento de voz toma el relevo en Barclays Wealth» . Consultado el 5 de junio de 2013 .
^ Ewen MacAskill. "¿'Jihadi John' mató a Steven Sotloff? | Medios". El guardián . Consultado el 21 de febrero de 2016 .
^ Julia Kollewe (19 de febrero de 2016). "HSBC implementa seguridad de identificación táctil y por voz para clientes bancarios | Empresas". El guardián . Consultado el 21 de febrero de 2016 .
^ "Cómo entré en una cuenta bancaria con una voz generada por IA". 23 de febrero de 2023.
^ Evershed, Nick; Taylor, Josh (16 de marzo de 2023). "La IA puede engañar al reconocimiento de voz utilizado por Centrelink y la oficina de impuestos australiana para verificar la identidad". El guardián . Consultado el 16 de junio de 2023 .

Referencias

Homayoon Beigi (2011), "Fundamentos del reconocimiento de locutores", Springer-Verlag, Berlín, 2011, ISBN 978-0-387-77591-3 .
"Biometría de las películas" –Instituto Nacional de Estándares y Tecnología
Elisabeth Zetterholm (2003), Imitación de voz. Un estudio fonético de las ilusiones perceptuales y el éxito acústico , tesis doctoral, Universidad de Lund .
Md Sahidullah (2015), Mejora del rendimiento de reconocimiento de locutores utilizando información temporal, relativa y a nivel de bloque de energías de subbanda , tesis doctoral, Instituto Indio de Tecnología de Kharagpur .

enlaces externos

Eludir la autenticación de voz Archivado el 10 de junio de 2008 en Wayback Machine El podcast de PLA Radio presentó recientemente una forma sencilla de engañar a los sistemas rudimentarios de autenticación de voz.
Reconocimiento de oradores – Scholarpedia
Beneficios y desafíos del reconocimiento de voz en el control de acceso

Software

bob.bio.spear
ALIZAR