Lingüística de corpus

La lingüística de corpus es un método empírico para el estudio del lenguaje a través de un corpus de texto (plural corpus ). ^[1] Los corpus son colecciones equilibradas, a menudo estratificadas, de textos auténticos, del "mundo real", de habla o escritura que tienen como objetivo representar una variedad lingüística dada . ^[1] Hoy en día, los corpus son generalmente colecciones de datos legibles por máquina.

La lingüística de corpus propone que un análisis confiable de una lengua es más factible con corpus recopilados en el campo (el contexto natural ("realia") de esa lengua) con una interferencia experimental mínima. Las grandes colecciones de texto, aunque los corpus también pueden ser pequeños en términos de palabras repetidas, permiten a los lingüistas realizar análisis cuantitativos sobre conceptos lingüísticos que pueden ser difíciles de probar de manera cualitativa. ^[2]

El método de corpus textuales utiliza el conjunto de textos en cualquier lengua natural para derivar el conjunto de reglas abstractas que gobiernan esa lengua. Esos resultados se pueden utilizar para explorar las relaciones entre esa lengua objeto de estudio y otras lenguas que han sido sometidas a un análisis similar. Los primeros corpus de este tipo se derivaban manualmente de los textos fuente, pero ahora ese trabajo está automatizado.

Los corpus no sólo se han utilizado para la investigación lingüística, sino que desde 1969 se han utilizado cada vez más para compilar diccionarios (empezando con The American Heritage Dictionary of the English Language en 1969) y gramáticas de referencia, siendo A Comprehensive Grammar of the English Language , publicado en 1985, el primero.

Los expertos en la materia tienen diferentes puntos de vista sobre la anotación de un corpus. Estos puntos de vista van desde John McHardy Sinclair , que aboga por una anotación mínima para que los textos hablen por sí mismos, ^[3] hasta el equipo de Survey of English Usage ( University College , Londres), que defiende la anotación como una herramienta que permite una mayor comprensión lingüística a través de un registro riguroso. ^[4]

Historia

Algunos de los primeros intentos de descripción gramatical se basaron, al menos en parte, en corpus de particular importancia religiosa o cultural. Por ejemplo, la literatura prātiśākhya describió los patrones de sonido del sánscrito tal como se encuentran en los Vedas , y la gramática del sánscrito clásico de Pāṇini se basó, al menos en parte, en el análisis de ese mismo corpus. De manera similar, los primeros gramáticos árabes prestaron especial atención al lenguaje del Corán . En la tradición de Europa occidental, los eruditos prepararon concordancias para permitir el estudio detallado del lenguaje de la Biblia y otros textos canónicos.

Corpus ingleses

Un hito en la lingüística de corpus moderna fue la publicación de Computational Analysis of Present-Day American English en 1967. Escrito por Henry Kučera y W. Nelson Francis , el trabajo se basó en un análisis del Brown Corpus , que es un corpus estructurado y equilibrado de un millón de palabras de inglés estadounidense del año 1961. El corpus comprende 2000 muestras de texto, de una variedad de géneros. ^[5] El Brown Corpus fue el primer corpus computarizado diseñado para la investigación lingüística. ^[6] Kučera y Francis sometieron el Brown Corpus a una variedad de análisis computacionales y luego combinaron elementos de lingüística, enseñanza de idiomas, psicología , estadística y sociología para crear una obra rica y variada. Otra publicación clave fue "Towards a description of English Usage" de Randolph Quirk en 1960 ^[7] en la que presentó la Survey of English Usage . El corpus de Quirk fue el primer corpus moderno que se construyó con el propósito de representar todo el lenguaje. ^[8]

Poco después, la editorial de Boston Houghton-Mifflin se puso en contacto con Kučera para que le proporcionara una base de citas de tres líneas y un millón de palabras para su nuevo American Heritage Dictionary , el primer diccionario compilado mediante lingüística de corpus. El AHD adoptó la innovadora medida de combinar elementos prescriptivos (cómo se debe utilizar el lenguaje) con información descriptiva (cómo se utiliza realmente ).

Otros editores siguieron el ejemplo. El diccionario monolingüe COBUILD de la editorial británica Collins , diseñado para usuarios que aprenden inglés como lengua extranjera , se compiló utilizando el Banco de Inglés . El Survey of English Usage Corpus se utilizó en el desarrollo de una de las gramáticas basadas en corpus más importantes, que fue escrita por Quirk et al. y publicada en 1985 como A Comprehensive Grammar of the English Language . ^[9]

El Brown Corpus también ha generado una serie de corpus de estructura similar: el LOB Corpus ( inglés británico de la década de 1960 ), Kolhapur ( inglés indio ), Wellington ( inglés neozelandés ), Australian Corpus of English ( inglés australiano ), el Frown Corpus ( inglés americano de principios de la década de 1990 ) y el FLOB Corpus (inglés británico de la década de 1990). Otros corpus representan muchos idiomas, variedades y modos, e incluyen el International Corpus of English y el British National Corpus , una colección de 100 millones de palabras de una variedad de textos hablados y escritos, creada en la década de 1990 por un consorcio de editores, universidades ( Oxford y Lancaster ) y la Biblioteca Británica . Para el inglés americano contemporáneo, el trabajo se ha estancado en el American National Corpus , pero el Corpus of Contemporary American English (1990-presente) de más de 400 millones de palabras ahora está disponible a través de una interfaz web.

El primer corpus informatizado de lengua hablada transcrita fue construido en 1971 por el Proyecto Francés de Montreal, ^[10] conteniendo un millón de palabras, que inspiró el corpus mucho más grande de francés hablado de Shana Poplack en el área de Ottawa-Hull. ^[11]

Corpora multilingües

En la década de 1990, muchos de los primeros éxitos notables de los métodos estadísticos en la programación en lenguaje natural (PLN) se produjeron en el campo de la traducción automática , debido especialmente al trabajo en IBM Research. Estos sistemas pudieron aprovechar los corpus textuales multilingües existentes que habían sido producidos por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes.

También existen corpus en lenguas no europeas. Por ejemplo, el Instituto Nacional de Lengua y Lingüística Japonesa de Japón ha creado varios corpus de japonés hablado y escrito. También se han creado corpus de lengua de signos utilizando datos de vídeo. ^[12]

Corpus de lenguas antiguas

Además de estos corpus de lenguas vivas, también se han creado corpus informatizados de colecciones de textos en lenguas antiguas. Un ejemplo es la base de datos Andersen -Forbes de la Biblia hebrea, desarrollada desde la década de 1970, en la que cada cláusula se analiza utilizando gráficos que representan hasta siete niveles de sintaxis, y cada segmento se etiqueta con siete campos de información. ^[13]^[14] El Corpus árabe coránico es un corpus anotado para la lengua árabe clásica del Corán . Se trata de un proyecto reciente con múltiples capas de anotación que incluyen segmentación morfológica, etiquetado de partes del discurso y análisis sintáctico utilizando gramática de dependencia. ^[15] El Corpus digital de sánscrito (DCS) es un "corpus dividido en sandhi de textos sánscritos con análisis morfológico y léxico completo... diseñado para la investigación histórico-textual en lingüística y filología sánscritas". ^[16]

Corpora de campos específicos

Además de la investigación lingüística pura, los investigadores habían comenzado a aplicar la lingüística de corpus a otros campos académicos y profesionales, como la subdisciplina emergente de Derecho y Lingüística de Corpus , que busca comprender textos legales utilizando datos y herramientas de corpus. El DBLP Discovery Dataset se concentra en la informática y contiene publicaciones informáticas relevantes con metadatos sensibles como afiliaciones de autores, citas o campos de estudio. ^[17] NLP Scholar introdujo un conjunto de datos más centrado, una combinación de artículos de la Antología ACL y metadatos de Google Scholar . ^[18] Los corpus también pueden ayudar en los esfuerzos de traducción ^[19] o en la enseñanza de idiomas extranjeros. ^[20]

Métodos

La lingüística de corpus ha generado una serie de métodos de investigación que intentan trazar un camino desde los datos hasta la teoría. Wallis y Nelson (2001) ^[21] introdujeron por primera vez lo que llamaron la perspectiva 3A: anotación, abstracción y análisis.

La anotación consiste en la aplicación de un esquema a los textos. Las anotaciones pueden incluir marcado estructural, etiquetado de categorías gramaticales , análisis sintáctico y muchas otras representaciones.
La abstracción consiste en la traducción (mapeo) de términos del esquema a términos de un modelo o conjunto de datos con motivaciones teóricas. La abstracción normalmente incluye una búsqueda dirigida por el lingüista, pero puede incluir, por ejemplo, el aprendizaje de reglas para los analizadores sintácticos.
El análisis consiste en investigar, manipular y generalizar estadísticamente a partir del conjunto de datos. El análisis puede incluir evaluaciones estadísticas, optimización de bases de reglas o métodos de descubrimiento de conocimientos.

La mayoría de los corpus léxicos actuales están etiquetados con partes del discurso (POS). Sin embargo, incluso los lingüistas de corpus que trabajan con "texto simple sin anotaciones" inevitablemente aplican algún método para aislar los términos más destacados. En tales situaciones, la anotación y la abstracción se combinan en una búsqueda léxica.

La ventaja de publicar un corpus anotado es que otros usuarios pueden realizar experimentos en el corpus (a través de los administradores de corpus ). Los lingüistas con otros intereses y perspectivas diferentes a las de los autores pueden aprovechar este trabajo. Al compartir datos, los lingüistas de corpus pueden tratar el corpus como un lugar de debate lingüístico y de estudio posterior. ^[22]

Véase también

Notas y referencias

^ ab Meyer, Charles F. (2023). Lingüística de corpus ingleses (2.ª ed.). Cambridge: Cambridge University Press. pág. 4.
^ Hunston, S. (1 de enero de 2006), "Corpus Linguistics", en Brown, Keith (ed.), Encyclopedia of Language & Linguistics (segunda edición) , Oxford: Elsevier, págs. 234-248, doi :10.1016/b0-08-044854-2/00944-5, ISBN 978-0-08-044854-1, consultado el 31 de octubre de 2023
^ Sinclair, J. 'El análisis automático de corpus', en Svartvik, J. (ed.) Directions in Corpus Linguistics (Actas del Simposio Nobel 82) . Berlín: Mouton de Gruyter. 1992.
^ Wallis, S. 'Anotación, recuperación y experimentación', en Meurman-Solin, A. y Nurmi, AA (ed.) Anotación de variación y cambio. Helsinki: Varieng, [Universidad de Helsinki]. 2007. Publicado electrónicamente
^ Francis, W. Nelson; Kučera, Henry (1 de junio de 1967). Análisis computacional del inglés americano actual . Providence: Brown University Press. ISBN 978-0870571053.
^ Kennedy, G. (1 de enero de 2001), "Lingüística de corpus", en Smelser, Neil J.; Baltes, Paul B. (eds.), Enciclopedia internacional de las ciencias sociales y del comportamiento , Oxford: Pergamon, págs. 2816-2820, ISBN 978-0-08-043076-8, consultado el 31 de octubre de 2023
^ Quirk, Randolph (noviembre de 1960). "Hacia una descripción del uso del inglés". Transactions of the Philological Society . 59 (1): 40–61. doi :10.1111/j.1467-968X.1960.tb00308.x.
^ Kennedy, G. (1 de enero de 2001), "Lingüística de corpus", en Smelser, Neil J.; Baltes, Paul B. (eds.), Enciclopedia internacional de las ciencias sociales y del comportamiento , Oxford: Pergamon, págs. 2816-2820, doi :10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, consultado el 31 de octubre de 2023
^ Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan (1985). Una gramática completa de la lengua inglesa . Londres: Longman. ISBN 978-0582517349.
^ Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). "Métodos de encuesta por muestreo y análisis asistido por computadora en el estudio de la variación gramatical". Lenguas canadienses en su contexto social . Edmonton: Linguistic Research Incorporated: 7–63.
^ Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (eds.). "El cuidado y manejo de un megacorpus". Cambio y variación del lenguaje . Cuestiones actuales en teoría lingüística. 52. Ámsterdam: Benjamins: 411–451. doi :10.1075/cilt.52.25pop. ISBN . 978-90-272-3546-6.
^ "Centro Nacional de Recursos de Lenguaje de Señas y Gestos en BU" www.bu.edu . Consultado el 31 de octubre de 2023 .
^ Andersen, Francis I.; Forbes, A. Dean (2003), "Gramática hebrea visualizada: I. Sintaxis", Estudios del Antiguo Cercano Oriente , vol. 40, págs. 43–61 [45]
^ Eyland, E. Ann (1987), "Revelaciones a partir de los recuentos de palabras", en Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectivas sobre el lenguaje y el texto: ensayos y poemas en honor al sexagésimo cumpleaños de Francis I. Andersen, 28 de julio de 1985 , Winona Lake, IN: Eisenbrauns , pág. 51, ISBN 0-931464-26-9
^ Dukes, K., Atwell, E. y Habash, N. 'Colaboración supervisada para la anotación sintáctica del árabe coránico'. Revista de recursos y evaluación lingüística . 2011.
^ "Corpus digital del sánscrito (DCS)" . Consultado el 28 de junio de 2022 .
^ Wahle, Jan Philip; Ruas, Terry; Mohammad, Saif; Gipp, Bela (2022). "D3: Un conjunto masivo de metadatos académicos para analizar el estado de la investigación en ciencias de la computación". Actas de la decimotercera Conferencia sobre recursos lingüísticos y evaluación . Marsella, Francia: Asociación Europea de Recursos Lingüísticos: 2642–2651. arXiv : 2204.13384 .
^ Mohammad, Saif M. (2020). "NLP Scholar: un conjunto de datos para examinar el estado de la investigación en PNL". Actas de la duodécima conferencia sobre recursos lingüísticos y evaluación . Marsella, Francia: Asociación Europea de Recursos Lingüísticos: 868–877. ISBN 979-10-95546-34-4.
^ Bernardini, S. (1 de enero de 2006), "Machine Readable Corpora", en Brown, Keith (ed.), Encyclopedia of Language & Linguistics (segunda edición) , Oxford: Elsevier, págs. 358-375, doi :10.1016/b0-08-044854-2/00476-4, ISBN 978-0-08-044854-1, consultado el 31 de octubre de 2023
^ Maguncia, Universidad Johannes Gutenberg. "Lingüística de Corpus | LINGÜÍSTICA INGLÉS". Johannes Gutenberg-Universität Mainz (en alemán) . Consultado el 31 de octubre de 2023 .
^ Wallis, S. y Nelson G. Descubrimiento de conocimiento en corpus analizados gramaticalmente . Minería de datos y descubrimiento de conocimiento , 5 : 307–340. 2001.
^ Baker, Paul; Egbert, Jesse, eds. (2016). Triangulación de enfoques metodológicos en la investigación lingüística de corpus . Nueva York: Routledge.

Lectura adicional

Libros

Biber, D., Conrad, S., Reppen R. Lingüística de corpus: investigación de la estructura y el uso del lenguaje , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
McCarthy, D., y Sampson G. Lingüística de corpus: lecturas en una disciplina en expansión , Continuum, 2005. ISBN 0-8264-8803-X
Facchinetti, R. Descripción teórica y aplicaciones prácticas de los corpus lingüísticos . Verona: QuiEdit, 2007 ISBN 978-88-89480-37-3
Facchinetti, R. (ed.) Lingüística de corpus 25 años después . Nueva York/Ámsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
Facchinetti, R. y Rissanen M. (eds.) Corpus-based Studies of Diachronic English [Estudios basados en corpus del inglés diacrónico] . Berna: Peter Lang, 2006 ISBN 3-03910-851-4
Lenders, W. Lexicografía computacional y lingüística de corpus hasta ca. 1970/1980 , en: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (eds.) Dictionaries – An International Encyclopedia of Lexicography. Volumen complementario: Recent Developments with Focus on Electronic and Computational Lexicography . Berlín: De Gruyter Mouton, 2013 ISBN 978-3112146651
Fuß, Eric et al. (Eds.): Grammar and Corpora 2016 , Heidelberg: Heidelberg University Publishing, 2018. doi :10.17885/heiup.361.509 (acceso abierto digital).
Stefanowitsch A. 2020. Lingüística de corpus: una guía para la metodología . Berlín: Language Science Press. ISBN 978-3-96110-225-9 , doi :10.5281/zenodo.3735822 Acceso abierto https://langsci-press.org/catalog/book/148.

Serie de libros

Las series de libros en este campo incluyen:

Lenguaje y Computadoras (Brill)
Estudios sobre lingüística de corpus (John Benjamins)
Lingüística de corpus en inglés (Peter Lang)
Corpus y discurso (Bloomsbury)

Revistas

Existen varias revistas internacionales revisadas por pares dedicadas a la lingüística de corpus, por ejemplo:

Corpus
Lingüística de corpus y teoría lingüística
Revista ICAME
Revista internacional de lingüística de corpus
Revista de evaluación y recursos lingüísticos, con el apoyo de la Asociación Europea de Recursos Lingüísticos
Investigación en Lingüística de Corpus, apoyada por la Asociación Española de Lingüística de Corpus (AELINCO)

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Lingüística de corpus .

Corpora analizados por Penn de inglés histórico