Segmentación de texto

La segmentación de texto es el proceso de dividir el texto escrito en unidades significativas, como palabras, oraciones o temas . El término se aplica tanto a los procesos mentales utilizados por los humanos al leer texto como a los procesos artificiales implementados en computadoras, que son objeto del procesamiento del lenguaje natural . El problema no es trivial, porque si bien algunos idiomas escritos tienen marcadores explícitos de límites de palabras, como los espacios entre palabras del inglés escrito y las distintivas formas de letras iniciales, mediales y finales del árabe , dichas señales a veces son ambiguas y no están presentes en todos los idiomas escritos.

Compare la segmentación del habla con el proceso de dividir el habla en partes lingüísticamente significativas.

Problemas de segmentación

Segmentación de palabras

La segmentación de palabras es el problema de dividir una cadena de lenguaje escrito en sus palabras componentes.

En inglés y en muchos otros idiomas que utilizan alguna forma del alfabeto latino , el espacio es una buena aproximación de un divisor de palabras ( delimitador de palabras ), aunque este concepto tiene límites debido a la variabilidad con la que los idiomas consideran emicamente las colocaciones y los compuestos . Muchos sustantivos compuestos en inglés se escriben de forma variable (por ejemplo, ice box = ice-box = icebox ; pig sty = pig-sty = pigsty ) con una variación correspondiente en si los hablantes los consideran frases nominales o sustantivos individuales; existen tendencias en cómo se establecen las normas, como que los compuestos abiertos a menudo tienden a solidificarse por convención generalizada, pero la variación sigue siendo sistémica. Por el contrario, los sustantivos compuestos alemanes muestran menos variación ortográfica, siendo la solidificación una norma más fuerte.

Sin embargo, el equivalente al carácter de espacio entre palabras no se encuentra en todos los sistemas escritos, y sin él la segmentación de palabras es un problema difícil. Entre los idiomas que no tienen un proceso de segmentación de palabras trivial se incluyen el chino, el japonés, donde se delimitan oraciones pero no palabras, el tailandés y el lao , donde se delimitan frases y oraciones pero no palabras, y el vietnamita , donde se delimitan sílabas pero no palabras.

Sin embargo, en algunos sistemas de escritura, como la escritura ge'ez utilizada para el amárico y el tigriña, entre otros idiomas, las palabras están delimitadas explícitamente (al menos históricamente) con un carácter que no es un espacio en blanco.

El Consorcio Unicode ha publicado un Anexo Estándar sobre Segmentación de Texto , ^[1] explorando las cuestiones de segmentación en textos multiescritura.

La división de palabras es el proceso de analizar texto concatenado (es decir, texto que no contiene espacios ni otros separadores de palabras) para inferir dónde existen saltos de palabras.

La división de palabras también puede referirse al proceso de separación de palabras .

Algunos académicos han sugerido que el chino moderno debería escribirse en forma segmentada de palabras, con espacios entre las palabras como en el inglés escrito. ^[2] Porque hay textos ambiguos en los que solo el autor conoce el significado pretendido. Por ejemplo, "美国会不同意。" puede significar "美国会不同意。" (Estados Unidos no está de acuerdo) o "美国会不同意。" (El Congreso de Estados Unidos no está de acuerdo). Para obtener más detalles, consulte Escritura china segmentada de palabras .

Segmentación de intenciones

La segmentación de intención es el problema de dividir palabras escritas en frases clave (2 o más grupos de palabras).

En inglés y en todos los demás idiomas, se identifica la intención o el deseo central y se convierte en la piedra angular de la segmentación de la intención de la frase clave. El producto o servicio, la idea, la acción o el pensamiento central son la base de la frase clave.

"[Todas las cosas están hechas de átomos ]. [Pequeñas partículas que se mueven] [en perpetuo movimiento ], [atrayéndose entre sí ] [cuando están a poca distancia ], [pero repeliéndose ] [al ser apretadas ] [ unas contra otras ]".

Segmentación de oraciones

La segmentación de oraciones es el problema de dividir una cadena de texto escrito en las oraciones que la componen . En inglés y en otros idiomas, el uso de signos de puntuación, en particular el punto , es una aproximación razonable. Sin embargo, incluso en inglés, este problema no es trivial debido al uso del punto para las abreviaturas, que pueden o no terminar una oración. Por ejemplo, Mr. no es una oración propia en " Mr. Smith fue a las tiendas de Jones Street". Al procesar texto sin formato, las tablas de abreviaturas que contienen puntos pueden ayudar a evitar la asignación incorrecta de límites de oraciones.

Al igual que ocurre con la segmentación de palabras, no todos los idiomas escritos contienen caracteres de puntuación que sean útiles para aproximar los límites de las oraciones.

Segmentación de temas

El análisis de temas consta de dos tareas principales: identificación de temas y segmentación de texto. Mientras que la primera es una clasificación simple de un texto específico, el segundo caso implica que un documento puede contener múltiples temas, y la tarea de la segmentación de texto computarizada puede ser descubrir estos temas automáticamente y segmentar el texto en consecuencia. Los límites de los temas pueden ser evidentes a partir de los títulos de las secciones y los párrafos. En otros casos, es necesario utilizar técnicas similares a las que se utilizan en la clasificación de documentos .

La segmentación del texto en temas o giros discursivos puede resultar útil en algunas tareas de procesamiento natural: puede mejorar significativamente la recuperación de información o el reconocimiento de voz (al indexar o reconocer documentos con mayor precisión o al ofrecer como resultado la parte específica de un documento correspondiente a la consulta). También es necesaria en sistemas de detección y seguimiento de temas y en problemas de resumen de textos .

Se han probado muchos enfoques diferentes: ^[3]^[4] por ejemplo, HMM , cadenas léxicas , similitud de pasajes mediante coocurrencia de palabras , agrupamiento , modelado de temas , etc.

Se trata de una tarea bastante ambigua: las personas que evalúan los sistemas de segmentación de texto suelen tener diferencias en cuanto a los límites temáticos. Por lo tanto, la evaluación de segmentos de texto también es un problema complejo.

Otros problemas de segmentación

Pueden requerirse procesos para segmentar el texto en segmentos además de los mencionados, incluidos morfemas (una tarea generalmente llamada análisis morfológico ) o párrafos .

Enfoques de segmentación automática

La segmentación automática es el problema en el procesamiento del lenguaje natural de implementar un proceso informático para segmentar el texto.

Cuando no se dispone de signos de puntuación ni de otras pistas similares, la tarea de segmentación suele requerir técnicas bastante no triviales, como la toma de decisiones estadísticas, diccionarios grandes y la consideración de restricciones sintácticas y semánticas. Los sistemas de procesamiento del lenguaje natural y las herramientas de segmentación de texto eficaces suelen operar sobre textos de dominios y fuentes específicos. Por ejemplo, procesar textos utilizados en registros médicos es un problema muy diferente al de procesar artículos de noticias o anuncios inmobiliarios.

El proceso de desarrollo de herramientas de segmentación de texto comienza con la recopilación de un gran corpus de texto en un dominio de aplicación. Existen dos enfoques generales:

Análisis manual de texto y redacción de software personalizado
Anote el corpus de muestra con información de límites y utilice el aprendizaje automático

Algunos sistemas de segmentación de texto aprovechan cualquier marcado como HTML y conocen formatos de documentos como PDF para proporcionar evidencia adicional de los límites de oraciones y párrafos.

Véase también

Referencias

^ UAX #29
^ Zhang, Xiao-heng (1998). "也谈汉语书面语的分词问题——分词连写十大好处 (Revisión de la segmentación de palabras escritas en chino: diez ventajas de la escritura segmentada de palabras)". Revista de procesamiento de información china . 12 (1998) (3): 58–64.
^ Freddy YY Choi (2000). "Avances en la segmentación de texto lineal independiente del dominio" (PDF) . Actas de la 1.ª reunión del Capítulo norteamericano de la Asociación de Lingüística Computacional (ANLP-NAACL-00) . pp. 26–33.
^ Jeffrey C. Reynar (1998). "Segmentación de temas: algoritmos y aplicaciones" (PDF) . IRCS-98-21. Universidad de Pensilvania . Consultado el 8 de noviembre de 2007 . {{cite journal}}: Requiere citar revista |journal=( ayuda )