stringtranslate.com

árbol de análisis

Analizar árbol a SAAB

Un árbol de análisis o árbol de análisis [1] o árbol de derivación o árbol de sintaxis concreta es un árbol ordenado y enraizado que representa la estructura sintáctica de una cadena de acuerdo con alguna gramática libre de contexto . El término árbol de análisis en sí se utiliza principalmente en lingüística computacional ; en sintaxis teórica, el término árbol de sintaxis es más común.

Los árboles de sintaxis concretos reflejan la sintaxis del lenguaje de entrada, lo que los distingue de los árboles de sintaxis abstracta utilizados en la programación informática. A diferencia de los diagramas de oraciones de Reed-Kellogg utilizados para enseñar gramática, los árboles de análisis no utilizan formas de símbolos distintas para diferentes tipos de constituyentes .

Los árboles de análisis generalmente se construyen basándose en la relación de circunscripción de las gramáticas de circunscripción ( gramáticas de estructura de frase ) o en la relación de dependencia de las gramáticas de dependencia . Se pueden generar árboles de análisis para oraciones en lenguajes naturales (ver procesamiento del lenguaje natural ), así como durante el procesamiento de lenguajes informáticos, como los lenguajes de programación .

Un concepto relacionado es el de marcador de frase o marcador P , tal como se utiliza en la gramática generativa transformacional . Un marcador de frase es una expresión lingüística marcada en cuanto a su estructura de frase. Esto puede presentarse en forma de árbol o como una expresión entre corchetes. Los marcadores de frases se generan aplicando reglas de estructura de frases y ellos mismos están sujetos a reglas de transformación adicionales. [2] Un conjunto de posibles árboles de análisis para una oración sintácticamente ambigua se denomina "bosque de análisis". [3]

Nomenclatura

Un árbol de análisis simple

Un árbol de análisis se compone de nodos y ramas. [4] En la imagen, el árbol de análisis es la estructura completa, comenzando desde S y terminando en cada uno de los nodos de la hoja (John, ball, the, hit). En un árbol de análisis, cada nodo es un nodo raíz , un nodo de rama o un nodo de hoja . En el ejemplo anterior, S es un nodo raíz, NP y VP son nodos de rama, mientras que John, ball, the y hit son todos nodos de hoja.

Los nodos también pueden denominarse nodos principales y nodos secundarios. Un nodo padre es aquel que tiene al menos otro nodo vinculado por una rama debajo. En el ejemplo, S es padre de NP y VP. Un nodo hijo es aquel que tiene al menos un nodo directamente encima del cual está vinculado por una rama del árbol. Nuevamente en nuestro ejemplo, hit es un nodo hijo de V.

Una función no terminal es una función (nodo) que es una raíz o una rama de ese árbol, mientras que una función terminal es una función (nodo) en un árbol de análisis que es una hoja.

Para árboles binarios (donde cada nodo padre tiene dos nodos hijos inmediatos), el número de árboles de análisis posibles para una oración con n palabras viene dado por el número catalán .

Árboles de análisis basados ​​en distritos electorales

Los árboles de análisis basados ​​en distritos electorales de gramáticas de distritos electorales ( gramáticas de estructura de frases ) distinguen entre nodos terminales y no terminales. Los nodos interiores están etiquetados por categorías no terminales de la gramática, mientras que los nodos hoja están etiquetados por categorías terminales . La siguiente imagen representa un árbol de análisis basado en distritos electorales; muestra la estructura sintáctica de la oración en inglés John hit the ball :

El árbol de análisis es la estructura completa, comenzando desde S y terminando en cada uno de los nodos de la hoja ( John , hit , the , ball ). En el árbol se utilizan las siguientes abreviaturas:

  • S de oración , la estructura de nivel superior en este ejemplo.
  • NP para frase nominal . El primer NP (el más a la izquierda), un solo sustantivo "John", sirve como sujeto de la oración. El segundo es el objeto de la sentencia.

Cada nodo del árbol es un nodo raíz , un nodo de rama o un nodo de hoja . [5] Un nodo raíz es un nodo que no tiene ramas encima. Dentro de una frase, sólo hay un nodo raíz. Un nodo sucursal es un nodo principal que se conecta a dos o más nodos secundarios. Un nodo hoja, sin embargo, es un nodo terminal que no domina a otros nodos del árbol. S es el nodo raíz, NP y VP son nodos de rama, y ​​John (N), hit (V), ( D) y ball (N) son todos nodos de hoja. Las hojas son las muestras léxicas de la oración. Un nodo padre es aquel que tiene al menos otro nodo vinculado por una rama debajo. En el ejemplo, S es padre tanto de N como de VP. Un nodo hijo es aquel que tiene al menos un nodo directamente encima y al que está vinculado por una rama de un árbol. Según el ejemplo, hit es un nodo hijo de V. Los términos madre e hija también se utilizan a veces para esta relación.

Árboles de análisis basados ​​en dependencias

Los árboles de análisis basados ​​en dependencias de las gramáticas de dependencia [6] ven todos los nodos como terminales, lo que significa que no reconocen la distinción entre categorías terminales y no terminales. En promedio, son más simples que los árboles de análisis basados ​​en distritos electorales porque contienen menos nodos. El árbol de análisis basado en dependencias para la oración de ejemplo anterior es el siguiente:

Este árbol de análisis carece de las categorías de frases (S, VP y NP) que se ven en la contraparte basada en distritos electorales anterior. Al igual que el árbol basado en distritos electorales, se reconoce la estructura de los constituyentes . Cualquier subárbol completo del árbol es un constituyente. Por lo tanto, este árbol de análisis basado en dependencias reconoce el sujeto sustantivo John y la frase nominal objeto the ball como constituyentes tal como lo hace el árbol de análisis basado en distritos electorales.

La distinción entre circunscripción y dependencia es de gran alcance. Si la estructura sintáctica adicional asociada con los árboles de análisis basados ​​en distritos electorales es necesaria o beneficiosa es un tema de debate.

Marcadores de frases

Los marcadores de frases, o marcadores P, se introdujeron en la gramática generativa transformacional temprana , desarrollada por Noam Chomsky y otros. Un marcador de frase que representa la estructura profunda de una oración se genera aplicando reglas de estructura de frase . Entonces, esta aplicación puede sufrir más transformaciones.

Los marcadores de frases pueden presentarse en forma de árboles (como en la sección anterior sobre árboles de análisis basados ​​en distritos electorales), pero a menudo se presentan en forma de "expresiones entre corchetes", que ocupan menos espacio en la memoria. Por ejemplo, una expresión entre corchetes correspondiente al árbol basado en distritos electorales proporcionado anteriormente puede ser algo como:

Al igual que con los árboles, la construcción precisa de dichas expresiones y la cantidad de detalles mostrados pueden depender de la teoría que se aplica y de los puntos que el autor de la consulta desea ilustrar.

Ver también

Notas

  1. ^ Véase Chiswell y Hodges 2007: 34.
  2. ^ Noam Chomsky (26 de diciembre de 2014). Aspectos de la Teoría de la Sintaxis. Prensa del MIT. ISBN 978-0-262-52740-8.
  3. ^ Billot, Sylvie y Bernard Lang. "La estructura de los bosques compartidos en un análisis ambiguo".
  4. ^ "El paquete parsetree para dibujar árboles en LaTeX". www1.essex.ac.uk .
  5. ^ Consulte Carnie (2013:118ff.) para obtener una introducción a los conceptos básicos de los árboles de sintaxis (p. ej., nodo raíz, nodo terminal, nodo no terminal, etc.).
  6. ^ Véase, por ejemplo, Ágel et al. 2003/2006.

Referencias

enlaces externos