stringtranslate.com

Segmentación del habla

La segmentación del habla es el proceso de identificar los límites entre palabras , sílabas o fonemas en las lenguas naturales habladas . El término se aplica tanto a los procesos mentales utilizados por los humanos como a los procesos artificiales de procesamiento del lenguaje natural .

La segmentación del habla es un subcampo de la percepción general del habla y un subproblema importante del campo tecnológicamente enfocado del reconocimiento del habla , y no puede resolverse adecuadamente de forma aislada. Como en la mayoría de los problemas de procesamiento del lenguaje natural , hay que tener en cuenta el contexto , la gramática y la semántica , y aun así el resultado suele ser una división probabilística (estadísticamente basada en la probabilidad) en lugar de categórica. Aunque parece que la coarticulación (un fenómeno que puede ocurrir entre palabras adyacentes con la misma facilidad que dentro de una sola palabra) presenta el principal desafío en la segmentación del habla entre idiomas, en las siguientes secciones se pueden ver algunos otros problemas y estrategias empleados para resolver esos problemas. .

Este problema se superpone hasta cierto punto con el problema de la segmentación del texto que ocurre en algunos idiomas que tradicionalmente se escriben sin espacios entre palabras, como el chino y el japonés , en comparación con los sistemas de escritura que indican la segmentación del habla entre palabras mediante un divisor de palabras , como el espacio . Sin embargo, incluso para esos idiomas, la segmentación del texto suele ser mucho más fácil que la segmentación del habla, porque el lenguaje escrito generalmente tiene poca interferencia entre palabras adyacentes y a menudo contiene pistas adicionales que no están presentes en el habla (como el uso de caracteres chinos para las raíces de las palabras en Japonés).

reconocimiento léxico

En los lenguajes naturales, el significado de una oración hablada compleja se puede entender descomponiéndola en segmentos léxicos más pequeños (aproximadamente, las palabras del idioma), asociando un significado a cada segmento y combinando esos significados de acuerdo con las reglas gramaticales del idioma. .

Aunque no se cree que los bebés utilicen el reconocimiento léxico en su primer año, debido a su vocabulario muy limitado, es uno de los principales procesos involucrados en la segmentación del habla en adultos. En la investigación actual existen tres modelos principales de reconocimiento léxico: primero, el acceso a palabras completas, que sostiene que las palabras tienen una representación de palabras completas en el léxico; segundo, la descomposición, que sostiene que las palabras morfológicamente complejas se descomponen en sus morfemas ( raíces , raíces , inflexiones , etc.) y luego se interpretan y; tercero, la opinión de que se utilizan tanto el modelo de palabra completa como el de descomposición, pero que el modelo de palabra completa proporciona algunas ventajas computacionales y, por lo tanto, es dominante en el reconocimiento léxico. [1]

Para dar un ejemplo, en un modelo de palabra completa, la palabra "cats" podría almacenarse y buscarse por letra, primero "c", luego "ca", "cat" y finalmente "cats". La misma palabra, en un modelo de descomposición, probablemente se almacenaría bajo la palabra raíz "gato" y se podría buscar después de eliminar el sufijo "s". "Falling", de manera similar, se almacenaría como "fall" y se le agregaría el sufijo "ing". [2]

Aunque los defensores del modelo descomposicional reconocen que un análisis morfema por morfema puede requerir muchos más cálculos, argumentan que descomprimir la información morfológica es necesario para otros procesos (como la estructura sintáctica ) que pueden ocurrir en paralelo a las búsquedas léxicas.

En conjunto, la investigación sobre sistemas de reconocimiento léxico humano es limitada debido a la poca evidencia experimental que discrimine completamente entre los tres modelos principales. [1]

En cualquier caso, el reconocimiento léxico probablemente contribuya significativamente a la segmentación del habla a través de las pistas contextuales que proporciona, dado que es un sistema fuertemente probabilístico, basado en la probabilidad estadística de que ciertas palabras o constituyentes aparezcan juntos. Por ejemplo, uno puede imaginar una situación en la que una persona podría decir "Compré mi perro en una tienda de ____" y la vocal de la palabra que falta se pronuncia como "red", "sudor" o "mascota". Si bien la probabilidad de "netshop" es extremadamente baja, dado que "netshop" no es actualmente un compuesto o frase en inglés, y "sweatshop" también parece contextualmente improbable, "pet shop" encaja bien porque es una frase común y También está relacionado con la palabra "perro". [3]

Además, un enunciado puede tener diferentes significados dependiendo de cómo se divida en palabras. Un ejemplo popular, citado a menudo en el campo, es la frase "Cómo destrozar una bonita playa", que suena muy similar a "Cómo reconocer el habla". [4] Como muestra este ejemplo, la segmentación léxica adecuada depende del contexto y la semántica que se basa en todo el conocimiento y la experiencia humanos y, por lo tanto, requeriría la implementación de tecnologías avanzadas de reconocimiento de patrones y de inteligencia artificial en una computadora.

El reconocimiento léxico es de particular valor en el campo del reconocimiento de voz por computadora , ya que la capacidad de construir y buscar una red de ideas conectadas semánticamente aumentaría en gran medida la efectividad del software de reconocimiento de voz. Se pueden utilizar modelos estadísticos para segmentar y alinear la voz grabada con palabras o teléfonos. Las aplicaciones incluyen sincronización automática de labios para animación de dibujos animados, subtitulado de vídeos de seguimiento de la pelota que rebota e investigación lingüística. El software de alineación y segmentación automática está disponible comercialmente.

Señales fonotácticas

En la mayoría de las lenguas habladas, los límites entre las unidades léxicas son difíciles de identificar; La fonotáctica es una respuesta a esta cuestión. Se podría esperar que los espacios entre palabras utilizados por muchos idiomas escritos como el inglés o el español correspondieran a pausas en su versión hablada, pero eso sólo es cierto en el habla muy lenta, cuando el hablante inserta deliberadamente esas pausas. En el habla normal, normalmente se dicen muchas palabras consecutivas sin pausas entre ellas y, a menudo, los sonidos finales de una palabra se mezclan suavemente o se fusionan con los sonidos iniciales de la siguiente palabra.

La noción de que el habla se produce como la escritura, como una secuencia de vocales y consonantes distintas, puede ser una reliquia de la herencia alfabética de algunas comunidades lingüísticas. De hecho, la forma en que se producen las vocales depende de las consonantes circundantes, del mismo modo que las consonantes se ven afectadas por las vocales circundantes; esto se llama coarticulación . Por ejemplo, en la palabra "kit", la [k] está más adelante que cuando decimos "atrapado". Pero además, la vocal de "kick" es fonéticamente diferente de la vocal de "kit", aunque normalmente no escuchamos esto. Además, en el habla informal se producen cambios específicos del idioma que lo diferencian bastante de la ortografía. Por ejemplo, en inglés, la frase "hit you" a menudo podría escribirse más apropiadamente "hitcha".

Desde una perspectiva descomposicional, en muchos casos, la fonotáctica desempeña un papel al permitir a los hablantes saber dónde trazar los límites de las palabras. En inglés, los hablantes perciben que la palabra "strawberry" consta (fonéticamente) de dos partes: "strawberry" y "berry". Otras interpretaciones como "stra" y "wberry" están inhibidas por la fonotáctica inglesa, que no permite el grupo "wb" inicialmente. Otros ejemplos similares son "día/sueño" y "hito/piedra", que es poco probable que se interpreten como "día/sueño" o "hito/hito" debido a la probabilidad o improbabilidad fonotáctica de ciertos grupos. La frase "Quedan cinco mujeres", que podría transcribirse fonéticamente como [faɪvwɪmɘnlɛft], está marcada ya que ni /vw/ en /faɪvwɪmɘn/ ni /nl/ en /wɪmɘnlɛft/ están permitidos como inicios de sílabas o codas en fonotáctica inglesa. Estas señales fonotácticas a menudo permiten a los hablantes distinguir fácilmente los límites de las palabras.

La armonía vocal en idiomas como el finlandés también puede servir para proporcionar señales fonotácticas. Si bien el sistema no permite que las vocales anteriores y posteriores existan juntas dentro de un morfema, los compuestos permiten que dos morfemas mantengan su propia armonía vocal mientras coexisten en una palabra. Por lo tanto, en compuestos como "selkä/ongelma" ('problema de espalda'), donde la armonía vocálica es distinta entre dos constituyentes de un compuesto, el límite será dondequiera que se produzca el cambio de armonía: entre la "ä" y la "ö". " en este caso. [5] Aún así, hay casos en los que la fonotáctica puede no ayudar en la segmentación. Las palabras con grupos poco claros o armonía vocal sin contraste como en "opinto/uudistus" ('reforma estudiantil') no ofrecen pistas fonotácticas sobre cómo están segmentadas. [6]

Sin embargo, desde la perspectiva del modelo de palabra completa, se cree que estas palabras se almacenan como palabras completas, por lo que las partes constituyentes no serían necesariamente relevantes para el reconocimiento léxico.

En bebés y no nativos

Los bebés son un foco importante de investigación en segmentación del habla. Dado que los bebés aún no han adquirido un léxico capaz de proporcionar pistas contextuales extensas o búsquedas de palabras basadas en probabilidades durante su primer año, como se mencionó anteriormente, a menudo deben confiar principalmente en señales fonotácticas y rítmicas (siendo la prosodia la señal dominante), todas que son específicos del idioma. Entre los 6 y los 9 meses, los bebés comienzan a perder la capacidad de discriminar entre sonidos que no están presentes en su lengua materna y se vuelven sensibles a la estructura de los sonidos de su lengua materna, y las habilidades de segmentación de palabras aparecen alrededor de los 7,5 meses.

Aunque es necesario realizar mucha más investigación sobre los procesos exactos que utilizan los bebés para comenzar la segmentación del habla, estudios actuales y pasados ​​sugieren que los bebés nativos de inglés abordan las sílabas acentuadas como el comienzo de las palabras. A los 7,5 meses, los bebés parecen ser capaces de segmentar palabras bisilábicas con patrones de acentuación fuerte-débil , aunque los patrones de acentuación débil-fuerte a menudo se malinterpretan, por ejemplo, interpretando "guiTAR is" como "GUI TARis". Parece que los bebés también muestran cierta complejidad en el seguimiento de la frecuencia y probabilidad de las palabras, por ejemplo, reconociendo que aunque las sílabas "the" y "dog" ocurren juntas con frecuencia, "the" también ocurre comúnmente con otras sílabas, lo que puede conducir a la análisis de que "perro" es una palabra o concepto individual en lugar de la interpretación "el perro". [7] [8]

Los estudiantes de idiomas son otro grupo de personas que se investigan dentro de la segmentación del habla. En cierto modo, aprender a segmentar el habla puede resultar más difícil para un estudiante de una segunda lengua que para un bebé, no sólo por la falta de familiaridad con las probabilidades y restricciones de los sonidos, sino particularmente por la aplicación excesiva de los patrones de la lengua materna. Si bien pueden ocurrir algunos patrones entre idiomas, como en la segmentación silábica del francés y el inglés, es posible que no funcionen bien con idiomas como el japonés, que tiene un sistema de segmentación basado en moras . Además, en inglés se permiten restricciones fonotácticas como el grupo de marcado de límites /ld/ en alemán u holandés (sin necesariamente marcar límites). Incluso la relación entre el acento y la longitud de las vocales , que puede parecer intuitiva para los hablantes de inglés, puede no existir en otros idiomas, por lo que los estudiantes de una segunda lengua enfrentan un desafío especialmente grande al aprender un idioma y sus señales de segmentación. [9]

Ver también

Referencias

  1. ^ ab Badecker, William y Mark Allen. "Análisis morfológico y percepción de identidad léxica: un estudio de cebado enmascarado de homógrafos de tallos". Revista de Memoria y Lenguaje 47.1 (2002): 125–144. Consultado el 27 de abril de 2014.
  2. ^ Taft, Marcus y Kenneth I. Forster. "Almacenamiento y recuperación léxica de palabras polimorfémicas y polisilábicas". Revista de aprendizaje verbal y comportamiento verbal 15.6 (1976): 607–620. Consultado el 27 de abril de 2014.
  3. ^ Liberman, Enrique; Alejandro Faaborg; Waseem Daher; José Espinosa (9 al 12 de enero de 2005). Cómo destrozar una bonita playa cantando incienso tranquilo (PDF) . IUI '05: Actas de la décima conferencia internacional sobre interfaces de usuario inteligentes. Biblioteca multimedia del MIT. págs. 278–280. doi :10.1145/1040830.1040898.
  4. ^ Un ejemplo de uso frecuente en la literatura sobre reconocimiento de voz . Un ejemplo temprano es N. Rex Dixon, "Some Problems in Automatic Recognition of Continuous Speech and Their Implications for Pattern Recognition", Actas de la Primera Conferencia Internacional Conjunta sobre Reconocimiento de Patrones , IEEE, 1973, citado en Mark Liberman, "Wrecking a nice beach". ", Registro de idiomas 5 de agosto de 2014
  5. ^ Bertram, Raymond; Alejandro Pollatsek; y Jukka Hyönä. "Análisis morfológico y uso de señales de segmentación en la lectura de compuestos finlandeses". Revista de Memoria y Lenguaje 51.3 (2004): 325–345. Consultado el 27 de abril de 2014.
  6. ^ Boll-Avetisyan, Natalie (2012). "Introducción general" (PDF) . La fonotáctica y su adquisición, representación y uso: un estudio fonológico experimental (PDF) (Tesis). MUCHAS series internacionales. vol. 298. Universidad de Utrecht. págs. 1-13. ISBN 978-94-6093-080-5. Archivado desde el original (PDF) el 27 de abril de 2014.
  7. ^ Jusczyk, Peter W. y Derek M. Houston. "Los inicios de la segmentación de palabras en bebés que aprenden inglés". Psicología cognitiva 39 (1999): 159–207. Consultado el 27 de abril de 2014.
  8. ^ Johnson, Elizabeth K. y Peter W. Jusczyk. "Segmentación de palabras para niños de 8 meses: cuando las señales del habla cuentan más que las estadísticas". Revista de Memoria y Lenguaje 44 (2001): 548–567. Consultado el 27 de abril de 2014.
  9. ^ Tyler, Michael D. y Anne Cutler. "Diferencias entre idiomas en el uso de señales para la segmentación del habla". Revista de la Sociedad Acústica de América 126 (2009): 367–376. Consultado el 27 de abril de 2014.

enlaces externos