Lenguaje del cuerpo

La lingüística de corpus es el estudio de una lengua tal como esa lengua se expresa en su corpus de texto ( corpora plural ), su cuerpo de texto del "mundo real". La lingüística de corpus propone que un análisis confiable de una lengua es más factible con corpus recopilados en el campo (el contexto natural ("realia") de esa lengua) con una mínima interferencia experimental. Las grandes colecciones de textos permiten a la lingüística realizar análisis cuantitativos de conceptos lingüísticos que, de otro modo, serían más difíciles de cuantificar. ^[1]

El método del corpus de texto utiliza el cuerpo de textos escritos en cualquier lenguaje natural para derivar el conjunto de reglas abstractas que gobiernan ese lenguaje. Esos resultados se pueden utilizar para explorar las relaciones entre esa lengua temática y otras lenguas que han sido sometidas a un análisis similar. Los primeros corpus de este tipo se derivaron manualmente de textos fuente, pero ahora ese trabajo está automatizado.

Los corpora no sólo se han utilizado para investigaciones lingüísticas, también se han utilizado para compilar diccionarios (comenzando con The American Heritage Dictionary of the English Language en 1969) y guías gramaticales, como A Comprehensive Grammar of the English Language , publicada en 1985.

Los expertos en la materia tienen diferentes puntos de vista sobre la anotación de un corpus. Estos puntos de vista van desde John McHardy Sinclair , que aboga por una anotación mínima para que los textos hablen por sí mismos, ^[2] hasta el equipo de Survey of English Usage ( University College , Londres), que defiende que la anotación permite una mayor comprensión lingüística a través de un registro riguroso. ^[3]

Historia

Algunos de los primeros esfuerzos de descripción gramatical se basaron, al menos en parte, en corpus de particular importancia religiosa o cultural. Por ejemplo, la literatura Prātiśākhya describió los patrones de sonido del sánscrito tal como se encuentran en los Vedas , y la gramática del sánscrito clásico de Pāṇini se basó, al menos en parte, en el análisis de ese mismo corpus. De manera similar, los primeros gramáticos árabes prestaron especial atención al idioma del Corán . En la tradición de Europa occidental, los eruditos prepararon concordancias para permitir un estudio detallado del lenguaje de la Biblia y otros textos canónicos.

corpus ingleses

Un hito en la lingüística de corpus moderna fue la publicación de Computational Analysis of Present-Day American English en 1967. Escrito por Henry Kučera y W. Nelson Francis , el trabajo se basó en un análisis del Brown Corpus , que era una compilación contemporánea de aproximadamente un millón de palabras en inglés americano, cuidadosamente seleccionadas de una amplia variedad de fuentes. ^[4] El corpus de Brown fue el primer corpus computarizado diseñado para la investigación lingüística. ^[5] Kučera y Francis sometieron el Brown Corpus a una variedad de análisis computacionales y luego combinaron elementos de lingüística, enseñanza de idiomas, psicología , estadística y sociología para crear una obra rica y variada. Otra publicación clave fue "Hacia una descripción del uso del inglés" de Randolph Quirk en 1960 ^[6] en la que presentó la Encuesta sobre el uso del inglés . El corpus de Quirk fue el primer corpus moderno construido con el propósito de representar el lenguaje completo. ^[7]

Poco después, el editor de Boston Houghton-Mifflin se acercó a Kučera para que le proporcionara una base de citas de tres líneas y un millón de palabras para su nuevo American Heritage Dictionary , el primer diccionario compilado utilizando lingüística de corpus. La AHD dio el paso innovador de combinar elementos prescriptivos (cómo se debe usar el lenguaje) con información descriptiva (cómo se usa realmente ) .

Otros editores hicieron lo mismo. El diccionario monolingüe para estudiantes COBUILD de la editorial británica Collins , diseñado para usuarios que aprenden inglés como lengua extranjera , se compiló utilizando el Bank of English . El Corpus Survey of English Usage se utilizó en el desarrollo de una de las gramáticas basadas en corpus más importantes, escrita por Quirk et al. y publicado en 1985 como Gramática integral del idioma inglés . ^[8]

El Brown Corpus también ha generado una serie de corpus estructurados de manera similar: el LOB Corpus ( inglés británico de la década de 1960 ), Kolhapur ( inglés indio ), Wellington ( inglés de Nueva Zelanda ), Australian Corpus of English ( inglés australiano ), el Frown Corpus (principios de la década de 1990). Inglés americano ) y el FLOB Corpus (inglés británico de los años 90). Otros corpus representan muchos idiomas, variedades y modos, e incluyen el Corpus Internacional del Inglés y el Corpus Nacional Británico , una colección de 100 millones de palabras de una variedad de textos hablados y escritos, creada en la década de 1990 por un consorcio de editores, universidades ( Oxford y Lancaster ) y la Biblioteca Británica . Para el inglés americano contemporáneo, el trabajo se ha estancado en el American National Corpus , pero el Corpus de más de 400 millones de palabras del inglés americano contemporáneo (1990-presente) ahora está disponible a través de una interfaz web.

El primer corpus computarizado de lengua hablada transcrita fue construido en 1971 por el Proyecto Francés de Montreal, ^[9] que contenía un millón de palabras, lo que inspiró el corpus mucho más grande de francés hablado de Shana Poplack en el área de Ottawa-Hull. ^[10]

Corporaciones multilingües

En la década de 1990, muchos de los primeros éxitos notables en métodos estadísticos en programación en lenguaje natural (PNL) se produjeron en el campo de la traducción automática , debido especialmente al trabajo en IBM Research. Estos sistemas pudieron aprovechar los corpus textuales multilingües existentes que habían sido producidos por el Parlamento de Canadá y la Unión Europea como resultado de leyes que exigían la traducción de todos los procedimientos gubernamentales a todos los idiomas oficiales de los sistemas de gobierno correspondientes.

También hay corpus en idiomas no europeos. Por ejemplo, el Instituto Nacional de Lengua y Lingüística Japonesas de Japón ha creado una serie de corpus de japonés hablado y escrito. También se han creado corpus de lengua de signos utilizando datos de vídeo. ^[11]

Corpus de lenguas antiguas

Además de estos corpus de lenguas vivas, también se han creado corpus informatizados de colecciones de textos en lenguas antiguas. Un ejemplo es la base de datos Andersen -Forbes de la Biblia hebrea, desarrollada desde la década de 1970, en la que cada cláusula se analiza utilizando gráficos que representan hasta siete niveles de sintaxis, y cada segmento está etiquetado con siete campos de información. ^[12]^[13] El corpus árabe coránico es un corpus comentado para el idioma árabe clásico del Corán . Este es un proyecto reciente con múltiples capas de anotaciones que incluyen segmentación morfológica, etiquetado de partes del discurso y análisis sintáctico utilizando gramática de dependencia. ^[14] El Corpus Digital de Sánscrito (DCS) es un "corpus dividido en Sandhi de textos sánscritos con análisis morfológico y léxico completo... diseñado para la investigación histórica del texto en lingüística y filología sánscrita". ^[15]

Corporas de campos específicos

Además de la investigación lingüística pura, los investigadores habían comenzado a aplicar la lingüística de corpus a otros campos académicos y profesionales, como la subdisciplina emergente de Derecho y Lingüística de Corpus , que busca comprender textos legales utilizando datos y herramientas de corpus. El DBLP Discovery Dataset se concentra en ciencias de la computación y contiene publicaciones científicas relevantes con metadatos sensibles, como afiliaciones de autores, citas o campos de estudio. ^{[16] NLP Scholar, una combinación de artículos de}ACL Anthology y metadatos de Google Scholar, introdujo un conjunto de datos más centrado . ^[17] Los corpora también pueden ayudar en los esfuerzos de traducción ^[18] o en la enseñanza de lenguas extranjeras. ^[19]

Métodos

La lingüística de corpus ha generado una serie de métodos de investigación que intentan trazar un camino desde los datos hasta la teoría. Wallis y Nelson (2001) ^[20] introdujeron por primera vez lo que llamaron la perspectiva 3A: anotación, abstracción y análisis.

La anotación consiste en la aplicación de un esquema a los textos. Las anotaciones pueden incluir marcado estructural, etiquetado de partes del discurso , análisis y muchas otras representaciones.
La abstracción consiste en la traducción (mapeo) de términos del esquema a términos de un modelo o conjunto de datos teóricamente motivado. La abstracción normalmente incluye búsqueda dirigida por lingüistas pero puede incluir, por ejemplo, aprendizaje de reglas para analizadores.
El análisis consiste en sondear, manipular y generalizar estadísticamente a partir del conjunto de datos. El análisis puede incluir evaluaciones estadísticas, optimización de bases de reglas o métodos de descubrimiento de conocimientos.

La mayoría de los corpus léxicos actuales están etiquetados como parte del discurso (POS-etiquetado). Sin embargo, incluso los lingüistas de corpus que trabajan con "texto plano sin anotaciones" inevitablemente aplican algún método para aislar términos destacados. En tales situaciones, la anotación y la abstracción se combinan en una búsqueda léxica.

La ventaja de publicar un corpus anotado es que otros usuarios pueden realizar experimentos en el corpus (a través de administradores de corpus ). Los lingüistas con otros intereses y perspectivas diferentes a las de los creadores pueden explotar este trabajo. Al compartir datos, los lingüistas de corpus pueden tratar el corpus como un lugar de debate lingüístico y estudios posteriores. ^[21]

Ver también

notas y referencias

^ Hunston, S. (1 de enero de 2006), Brown, Keith (ed.), "Corpus Linguistics", Encyclopedia of Language & Linguistics (segunda edición) , Oxford: Elsevier, págs. 234–248, doi :10.1016/b0- 08-044854-2/00944-5, ISBN 978-0-08-044854-1, recuperado el 31 de octubre de 2023
^ Sinclair, J. 'El análisis automático de corpus', en Svartvik, J. (ed.) Directions in Corpus Linguistics (Actas del Simposio Nobel 82) . Berlín: Mouton de Gruyter. 1992.
^ Wallis, S. 'Annotation, Retrieval and Experimentation', en Meurman-Solin, A. & Nurmi, AA (ed.) Anotando variaciones y cambios. Helsinki: Varieng, [Universidad de Helsinki]. 2007. Publicado electrónicamente
^ Francisco, W. Nelson; Kučera, Henry (1 de junio de 1967). Análisis computacional del inglés americano actual . Providencia: Brown University Press. ISBN 978-0870571053.
^ Kennedy, G. (1 de enero de 2001), Smelser, Neil J.; Baltes, Paul B. (eds.), "Corpus Linguistics", Enciclopedia internacional de ciencias sociales y del comportamiento , Oxford: Pergamon, págs. 2816–2820, ISBN 978-0-08-043076-8, recuperado el 31 de octubre de 2023
^ Quirk, Randolph (noviembre de 1960). "Hacia una descripción del uso del inglés". Transacciones de la Sociedad Filológica . 59 (1): 40–61. doi :10.1111/j.1467-968X.1960.tb00308.x.
^ Kennedy, G. (1 de enero de 2001), Smelser, Neil J.; Baltes, Paul B. (eds.), "Corpus Linguistics", Enciclopedia internacional de ciencias sociales y del comportamiento , Oxford: Pergamon, págs. 2816–2820, doi :10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, recuperado el 31 de octubre de 2023
^ Peculiaridad, Randolph; Greenbaum, Sidney; Sanguijuela, Geoffrey; Svartvik, enero (1985). Una gramática integral del idioma inglés . Londres: Longman. ISBN 978-0582517349.
^ Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). "Métodos de encuesta por muestra y análisis asistido por computadora en el estudio de la variación gramatical". Lenguas canadienses en su contexto social . Edmonton: Linguistic Research Incorporated: 7–63.
^ Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (eds.). "El cuidado y manejo de un megacorpus". Cambio y variación del lenguaje . Problemas actuales de la teoría lingüística. Ámsterdam: Benjamins. 52 : 411–451. doi :10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.
^ "Centro Nacional de Recursos de Gestos y Lenguaje de Señas en BU" www.bu.edu . Consultado el 31 de octubre de 2023 .
^ Andersen, Francisco I.; Forbes, A. Dean (2003), "Gramática hebrea visualizada: I. Sintaxis", Estudios del Antiguo Cercano Oriente , vol. 40, págs. 43–61 [45]
^ Eyland, E. Ann (1987), "Revelaciones de Word Counts", en Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectivas sobre el lenguaje y el texto: ensayos y poemas en honor al sexagésimo cumpleaños de Francis I. Andersen, 28 de julio de 1985 , Winona Lake, IN: Eisenbrauns , p. 51, ISBN 0-931464-26-9
^ Dukes, K., Atwell, E. y Habash, N. 'Colaboración supervisada para la anotación sintáctica del árabe coránico'. Revista de evaluación y recursos lingüísticos . 2011.
^ "Corpus digital de sánscrito (DCS)" . Consultado el 28 de junio de 2022 .
^ Wahle, Jan Philip; Rúas, Terry; Mohamed, Saif; Gipp, Bela (2022). "D3: un conjunto de datos masivo de metadatos académicos para analizar el estado de la investigación en informática". Actas de la decimotercera conferencia de evaluación y recursos lingüísticos . Marsella, Francia: Asociación Europea de Recursos Lingüísticos: 2642–2651. arXiv : 2204.13384 .
^ Mohammad, Saif M. (2020). "NLP Scholar: un conjunto de datos para examinar el estado de la investigación de PNL". Actas de la Duodécima Conferencia de Evaluación y Recursos Lingüísticos . Marsella, Francia: Asociación Europea de Recursos Lingüísticos: 868–877. ISBN 979-10-95546-34-4.
^ Bernardini, S. (1 de enero de 2006), Brown, Keith (ed.), "Machine Readable Corpora", Encyclopedia of Language & Linguistics (segunda edición) , Oxford: Elsevier, págs. 358–375, doi :10.1016/b0 -08-044854-2/00476-4, ISBN 978-0-08-044854-1, recuperado el 31 de octubre de 2023
^ Maguncia, Universidad Johannes Gutenberg. "Lingüística de Corpus | LINGÜÍSTICA INGLÉS". Johannes Gutenberg-Universität Mainz (en alemán) . Consultado el 31 de octubre de 2023 .
^ Wallis, S. y Nelson G. Descubrimiento de conocimiento en corpus analizados gramaticalmente . Minería de datos y descubrimiento de conocimientos , 5 : 307–340. 2001.
^ Panadero, Paul; Egbert, Jesse, eds. (2016). Triangulación de enfoques metodológicos en la investigación lingüística de corpus . Nueva York: Routledge.

Otras lecturas

Libros

Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigación de la estructura y el uso del lenguaje , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
McCarthy, D. y Sampson G. Lingüística de corpus: lecturas en una disciplina cada vez más amplia , Continuum, 2005. ISBN 0-8264-8803-X
Facchinetti, R. Descripción teórica y aplicaciones prácticas de los corpus lingüísticos . Verona: QuiEdit, 2007 ISBN 978-88-89480-37-3
Facchinetti, R. (ed.) Lingüística de corpus 25 años después . Nueva York/Ámsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
Facchinetti, R. y Rissanen M. (eds.) Estudios de inglés diacrónico basados en corpus . Berna: Peter Lang, 2006 ISBN 3-03910-851-4
Lenders, W. Lexicografía computacional y lingüística de corpus hasta ca. 1970/1980 , en: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (eds.) Diccionarios: una enciclopedia internacional de lexicografía. Volumen complementario: Desarrollos recientes centrados en la lexicografía electrónica y computacional . Berlín: De Gruyter Mouton, 2013 ISBN 978-3112146651
Fuß, Eric et al. (Eds.): Grammar and Corpora 2016 , Heidelberg: Heidelberg University Publishing, 2018. doi :10.17885/heiup.361.509 (acceso abierto digital).
Stefanowitsch A. 2020. Lingüística de corpus: una guía para la metodología . Berlín: Language Science Press. ISBN 978-3-96110-225-9 , doi :10.5281/zenodo.3735822 Acceso abierto https://langsci-press.org/catalog/book/148.

Serie de libros

Las series de libros en este campo incluyen:

Lenguaje y Computadoras (Brill)
Estudios de Lingüística de Corpus (John Benjamins)
Lingüística de corpus inglesa (Peter Lang)
Corpus y discurso (Bloomsbury)

Revistas

Existen varias revistas internacionales revisadas por pares dedicadas a la lingüística de corpus, por ejemplo:

corpus
Lingüística de corpus y teoría lingüística
Revista ICAME
Revista Internacional de Lingüística de Corpus
Revista de evaluación y recursos lingüísticos, respaldada por la Asociación Europea de Recursos Lingüísticos
Investigación en Lingüística de Corpus, apoyada por la Asociación Española de Lingüística de Corpus (AELINCO)

enlaces externos

Wikimedia Commons tiene medios relacionados con la lingüística de corpus .

Marcadores para lingüistas basados en corpus: sitio muy completo con enlaces categorizados y anotados a corpus de idiomas, software, referencias, etc.
Lista de discusión de corpus
Corpus disponibles gratuitamente en la web (entre 100 y 400 millones de palabras cada uno): americano (COCA, COHA), británico (BNC), hora, español, portugués
Sitio general de Manuel Barbera
AskOxford.com la composición y uso del Oxford Corpus
DMCBC.com
Datum Multilanguage Corpora Basado en descarga gratuita de muestra china
Comunidad Corpus4u, un foro chino en línea para lingüística de corpus
Página de lingüística de corpus de McEnery y Wilson
Lingüística de corpus con lista de correo de R
Unidad de Investigación y Desarrollo de Estudios Ingleses Archivado el 29 de octubre de 2010 en Wayback Machine.
Encuesta sobre el uso del inglés
Centro de Lingüística de Corpus de la Universidad de Birmingham Archivado el 9 de abril de 2003 en Wayback Machine.
Herramientas para la lingüística de corpus (lista comentada)
Puerta de entrada a la lingüística de corpus en Internet: una guía comentada de recursos de corpus en la web
Corpus biomédicos
Linguistic Data Consortium, un importante distribuidor de corpus
Penn Parsed Corporas de inglés histórico
Corsis: (anteriormente Tenka Text) una herramienta de análisis de corpus de código abierto ( GPLed ) escrita en C#
ICECUP y fragmentos de árboles difusos
Minería de textos en grupos de discusión
Una conferencia MAG 2017 relacionada con la lingüística de corpus: puede encontrar información y eventos relacionados con el metadiscurso entre géneros visitando el sitio web de MAG 2017.
Corpus de discursos políticos, acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
LightTag -Text Annotation Tool, una herramienta de anotación de texto para corpus de aprendizaje automático enfocado a la gestión de equipos
Corpus sincrónico LIVAC