TreeBank (denominado también como Corpus parseado o más ampliamente Penn Treebank) es un corpus lingüístico en el que cada frase ha sido parseada, es decir anotada con su estructura sintáctica.
La denominación alternativa corpus parseado se emplea a menudo con el Treebank: realizando énfasis en la primacía de las frases en lugar de las estructuras arbóreas.
Los corpus Treebanks se pueden crear a mano mediante un grupo de lingüistas que anotan cada frase con una estructura sintáctica, o mediante procedimientos semiautomáticos, donde un analizador sintáctico (parser) asigna la estructura bajo la supervisión de un lingüista.
Por ejemplo, el análisis sintáctico de la frase Víctor ama a María, puede ser representado de diversas formas, por ejemplo con un sistema anidado de paréntesis en el texto, como este (siguiendo la notación del Penn Treebank): Esta representación es la más habitual y antigua, aunque desde comienzos del siglo XXI se han venido empleando anotaciones cada vez más complejas, siendo una de las posibles respresentaciones en XML.
Estos analizadores se denominan a veces como "segmentación sintáctica básica".