Segmentación del habla

La segmentación del habla es el proceso de identificación de los límites entre palabras , sílabas o fonemas en los lenguajes naturales hablados . El término se aplica tanto a los procesos mentales utilizados por los seres humanos como a los procesos artificiales de procesamiento del lenguaje natural .

La segmentación del habla es un subcampo de la percepción general del habla y un subproblema importante del campo del reconocimiento del habla , centrado en la tecnología , y no se puede resolver adecuadamente de forma aislada. Como en la mayoría de los problemas de procesamiento del lenguaje natural , se deben tener en cuenta el contexto , la gramática y la semántica , y aun así, el resultado suele ser una división probabilística (basada estadísticamente en la probabilidad) en lugar de una categórica. Aunque parece que la coarticulación (un fenómeno que puede ocurrir entre palabras adyacentes con la misma facilidad que dentro de una misma palabra) presenta el principal desafío en la segmentación del habla en distintos idiomas, en las siguientes secciones se pueden ver otros problemas y estrategias empleadas para resolverlos.

Este problema se superpone en cierta medida con el problema de la segmentación de texto que ocurre en algunos idiomas que tradicionalmente se escriben sin espacios entre palabras, como el chino y el japonés , en comparación con los sistemas de escritura que indican la segmentación del habla entre palabras mediante un separador de palabras , como el espacio . Sin embargo, incluso para esos idiomas, la segmentación de texto suele ser mucho más fácil que la segmentación del habla, porque el lenguaje escrito generalmente tiene poca interferencia entre palabras adyacentes y, a menudo, contiene pistas adicionales que no están presentes en el habla (como el uso de caracteres chinos para las raíces de las palabras en japonés).

Reconocimiento léxico

En los lenguajes naturales, el significado de una oración hablada compleja se puede entender descomponiéndola en segmentos léxicos más pequeños (aproximadamente, las palabras del idioma), asociando un significado a cada segmento y combinando esos significados de acuerdo con las reglas gramaticales del idioma.

Aunque no se cree que los bebés utilicen el reconocimiento léxico durante su primer año, debido a sus vocabularios sumamente limitados, es uno de los principales procesos involucrados en la segmentación del habla en adultos. Existen tres modelos principales de reconocimiento léxico en la investigación actual: primero, el acceso a palabras completas, que sostiene que las palabras tienen una representación de palabra completa en el léxico; segundo, la descomposición, que sostiene que las palabras morfológicamente complejas se descomponen en sus morfemas ( raíces , raíces , flexiones , etc.) y luego se interpretan; y tercero, la visión de que se utilizan tanto los modelos de palabras completas como los de descomposición, pero que el modelo de palabras completas proporciona algunas ventajas computacionales y, por lo tanto, es dominante en el reconocimiento léxico. ^[1]

Por ejemplo, en un modelo de palabras completas, la palabra "cats" podría almacenarse y buscarse por letra, primero "c", luego "ca", "cat" y, por último, "cats". La misma palabra, en un modelo de descomposición, probablemente se almacenaría bajo la palabra raíz "cat" y se podría buscar después de eliminar el sufijo "s". "Falling", de manera similar, se almacenaría como "fall" y se le añadiría el sufijo de flexión "ing". ^[2]

Aunque los defensores del modelo de descomposición reconocen que un análisis morfema por morfema puede requerir significativamente más cálculo, argumentan que la descomposición de la información morfológica es necesaria para otros procesos (como la estructura sintáctica ) que pueden ocurrir en paralelo a las búsquedas léxicas.

En general, la investigación sobre los sistemas de reconocimiento léxico humano es limitada debido a la poca evidencia experimental que discrimine completamente entre los tres modelos principales. ^[1]

En cualquier caso, el reconocimiento léxico probablemente contribuye significativamente a la segmentación del habla a través de las pistas contextuales que proporciona, dado que es un sistema altamente probabilístico, basado en la probabilidad estadística de que ciertas palabras o constituyentes aparezcan juntos. Por ejemplo, uno puede imaginar una situación en la que una persona podría decir "compré mi perro en una tienda ____" y la vocal de la palabra que falta se pronuncia como "net", "sweat" o "pet". Si bien la probabilidad de "netshop" es extremadamente baja, ya que "netshop" actualmente no es un compuesto o frase en inglés, y "sweatshop" también parece contextualmente improbable, "pet shop" es una buena opción porque es una frase común y también está relacionada con la palabra "dog". ^[3]

Además, un enunciado puede tener distintos significados según cómo se divida en palabras. Un ejemplo popular, que se cita a menudo en este campo, es la frase "Cómo arruinar una playa bonita", que suena muy similar a "Cómo reconocer el habla". ^[4] Como muestra este ejemplo, la segmentación léxica adecuada depende del contexto y la semántica , que se basan en todo el conocimiento y la experiencia humanos, y por lo tanto requeriría la implementación de tecnologías avanzadas de reconocimiento de patrones e inteligencia artificial en una computadora.

El reconocimiento léxico es de particular valor en el campo del reconocimiento de voz por computadora , ya que la capacidad de construir y buscar una red de ideas semánticamente conectadas aumentaría enormemente la efectividad del software de reconocimiento de voz. Los modelos estadísticos se pueden utilizar para segmentar y alinear el habla grabada con palabras o fonemas. Las aplicaciones incluyen sincronización labial automática para animación de dibujos animados, subtítulos de videos con el movimiento de la pelota y la investigación lingüística. El software de segmentación y alineación automática está disponible comercialmente.

Señales fonotácticas

En la mayoría de las lenguas habladas, los límites entre las unidades léxicas son difíciles de identificar; la fonotaxis es una respuesta a este problema. Se podría esperar que los espacios entre palabras que se utilizan en muchas lenguas escritas, como el inglés o el español, correspondan a pausas en su versión hablada, pero eso sólo es cierto en el habla muy lenta, cuando el hablante inserta deliberadamente esas pausas. En el habla normal, normalmente se encuentran muchas palabras consecutivas que se dicen sin pausas entre ellas y, a menudo, los sonidos finales de una palabra se mezclan suavemente o se fusionan con los sonidos iniciales de la palabra siguiente.

La idea de que el habla se produce como la escritura, como una secuencia de vocales y consonantes distintas, puede ser una reliquia de la herencia alfabética para algunas comunidades lingüísticas. De hecho, la forma en que se producen las vocales depende de las consonantes circundantes, al igual que las consonantes se ven afectadas por las vocales circundantes; esto se llama coarticulación . Por ejemplo, en la palabra "kit", la [k] está más adelante que cuando decimos "caught". Pero también, la vocal en "kick" es fonéticamente diferente de la vocal en "kit", aunque normalmente no lo oímos. Además, hay cambios específicos del idioma que ocurren en el habla informal que lo hacen bastante diferente de la ortografía. Por ejemplo, en inglés, la frase "hit you" a menudo podría escribirse de manera más apropiada "hitcha".

Desde una perspectiva de descomposición, en muchos casos, la fonotáctica desempeña un papel importante al permitir que los hablantes sepan dónde trazar los límites entre las palabras. En inglés, los hablantes perciben la palabra "strawberry" como compuesta (fonéticamente) de dos partes: "straw" y "berry". Otras interpretaciones como "stra" y "wberry" se ven inhibidas por la fonotáctica inglesa, que no permite el grupo "wb" como inicial de palabra. Otros ejemplos similares son "day/dream" y "mile/stone", que es poco probable que se interpreten como "da/ydream" o "mil/estone" debido a la probabilidad o improbabilidad fonotáctica de ciertos grupos. La frase "Five women left" (quedan cinco mujeres), que podría transcribirse fonéticamente como [faɪvwɪmɘnlɛft], está marcada porque ni /vw/ en /faɪvwɪmɘn/ ni /nl/ en /wɪmɘnlɛft/ están permitidos como comienzos de sílabas o codas en la fonotáctica inglesa. Estas señales fonotácticas a menudo permiten a los hablantes distinguir fácilmente los límites de las palabras.

La armonía vocálica en lenguas como el finés también puede servir para proporcionar pistas fonotácticas. Si bien el sistema no permite que las vocales anteriores y posteriores coexistan dentro de un morfema, los compuestos permiten que dos morfemas mantengan su propia armonía vocálica mientras coexisten en una palabra. Por lo tanto, en compuestos como "selkä/ongelma" ("problema de la parte posterior") donde la armonía vocálica es distinta entre dos constituyentes de un compuesto, el límite estará donde tenga lugar el cambio de armonía: entre la "ä" y la "ö" en este caso. ^[5] Aun así, hay casos en los que la fonotáctica puede no ayudar en la segmentación. Las palabras con grupos de vocales poco claros o armonía vocálica sin contraste como en "opinto/uudistus" ("reforma estudiantil") no ofrecen pistas fonotácticas sobre cómo están segmentadas. ^[6]

Sin embargo, desde la perspectiva del modelo de palabra completa, se piensa que estas palabras se almacenan como palabras completas, por lo que las partes constituyentes no serían necesariamente relevantes para el reconocimiento léxico.

En lactantes y no nativos

Los bebés son uno de los principales focos de investigación en el campo de la segmentación del habla. Dado que los bebés todavía no han adquirido un léxico capaz de proporcionar pistas contextuales extensas o búsquedas de palabras basadas en probabilidades durante su primer año, como se mencionó anteriormente, a menudo deben confiar principalmente en pistas fonotácticas y rítmicas (siendo la prosodia la pista dominante), todas las cuales son específicas del lenguaje. Entre los 6 y los 9 meses, los bebés comienzan a perder la capacidad de discriminar entre sonidos que no están presentes en su lengua materna y se vuelven sensibles a la estructura sonora de su lengua materna; las habilidades de segmentación de palabras aparecen alrededor de los 7,5 meses.

Aunque se necesita mucha más investigación sobre los procesos exactos que utilizan los bebés para comenzar la segmentación del habla, los estudios actuales y pasados sugieren que los bebés nativos de inglés abordan las sílabas acentuadas como el comienzo de las palabras. A los 7,5 meses, los bebés parecen ser capaces de segmentar palabras bisílabas con patrones de acentuación fuerte-débil , aunque los patrones de acentuación débil-fuerte a menudo se malinterpretan, por ejemplo, interpretando "guiTAR is" como "GUI TARis". Parece que los bebés también muestran cierta complejidad en el seguimiento de la frecuencia y probabilidad de las palabras, por ejemplo, al reconocer que aunque las sílabas "the" y "dog" ocurren juntas con frecuencia, "the" también ocurre comúnmente con otras sílabas, lo que puede llevar al análisis de que "dog" es una palabra o concepto individual en lugar de la interpretación "thedog". ^[7]^[8]

Los estudiantes de idiomas son otro grupo de individuos que se están investigando en el campo de la segmentación del habla. En algunos sentidos, aprender a segmentar el habla puede ser más difícil para un estudiante de una segunda lengua que para un bebé, no solo por la falta de familiaridad con las probabilidades y restricciones de los sonidos, sino particularmente por la sobreaplicación de los patrones de la lengua materna. Si bien algunos patrones pueden darse entre idiomas, como en la segmentación silábica del francés y el inglés, pueden no funcionar bien con idiomas como el japonés, que tiene un sistema de segmentación basado en mora . Además, las restricciones fonotácticas como el grupo de marcado de límites /ld/ en alemán u holandés están permitidas (sin marcar necesariamente límites) en inglés. Incluso la relación entre el acento y la longitud de las vocales , que puede parecer intuitiva para los hablantes de inglés, puede no existir en otros idiomas, por lo que los estudiantes de una segunda lengua enfrentan un desafío especialmente grande cuando aprenden un idioma y sus claves de segmentación. ^[9]

Véase también

Referencias

^ ab Badecker, William y Mark Allen. "Análisis morfológico y percepción de la identidad léxica: un estudio de priming enmascarado de homógrafos de raíz". Journal of Memory and Language 47.1 (2002): 125–144. Consultado el 27 de abril de 2014.
^ Taft, Marcus y Kenneth I. Forster. "Almacenamiento y recuperación léxica de palabras polimorfémicas y polisilábicas". Journal of Verbal Learning and Verbal Behavior 15.6 (1976): 607–620. Consultado el 27 de abril de 2014.
^ Lieberman, Henry; Alexander Faaborg; Waseem Daher; José Espinosa (9-12 de enero de 2005). Cómo arruinar una playa bonita Cantas incienso calmante (PDF) . IUI '05: Actas de la 10.ª conferencia internacional sobre interfaces de usuario inteligentes. Biblioteca multimedia del MIT. págs. 278-280. doi :10.1145/1040830.1040898.
^ Un ejemplo muy utilizado en la literatura sobre reconocimiento de voz . Un ejemplo temprano es el de N. Rex Dixon, "Some Problems in Automatic Recognition of Continuous Speech and Their Implications for Pattern Recognition" (Algunos problemas en el reconocimiento automático del habla continua y sus implicaciones para el reconocimiento de patrones), Actas de la Primera Conferencia Conjunta Internacional sobre Reconocimiento de Patrones , IEEE, 1973, citado en Mark Liberman, "Wrecking a nice beach" (Destruyendo una playa bonita), Language Log , 5 de agosto de 2014
^ Bertram, Raymond; Alexander Pollatsek; y Jukka Hyönä. "Análisis morfológico y uso de claves de segmentación en la lectura de compuestos finlandeses". Journal of Memory and Language 51.3 (2004): 325–345. Consultado el 27 de abril de 2014.
^ Boll-Avetisyan, Natalie (2012). "Introducción general" (PDF) . Fonotáctica y su adquisición, representación y uso: un estudio fonológico experimental (PDF) (Tesis). Serie internacional LOT. Vol. 298. Universidad de Utrecht. pp. 1–13. ISBN 978-94-6093-080-5. Archivado desde el original (PDF) el 27 de abril de 2014.
^ Jusczyk, Peter W. y Derek M. Houston. "Los comienzos de la segmentación de palabras en los niños que aprenden inglés". Cognitive Psychology 39 (1999): 159–207. Consultado el 27 de abril de 2014.
^ Johnson, Elizabeth K. y Peter W. Jusczyk. "Segmentación de palabras en niños de 8 meses: cuando las señales del habla cuentan más que las estadísticas". Journal of Memory and Language 44 (2001): 548–567. Consultado el 27 de abril de 2014.
^ Tyler, Michael D. y Anne Cutler. "Diferencias entre idiomas en el uso de señales para la segmentación del habla". Journal of the Acoustical Society of America 126 (2009): 367–376. Consultado el 27 de abril de 2014.

Enlaces externos

Software de segmentación de voz "Phonolyze"
SPPAS – anotación y análisis automáticos del habla