Uso de herramientas computacionales para el estudio de la lingüística.
La lingüística computacional es un campo interdisciplinario que se ocupa del modelado computacional del lenguaje natural , así como del estudio de enfoques computacionales apropiados para cuestiones lingüísticas. En general, la lingüística computacional se nutre de la lingüística , la informática , la inteligencia artificial , las matemáticas , la lógica , la filosofía , las ciencias cognitivas , la psicología cognitiva , la psicolingüística , la antropología y la neurociencia , entre otras.
Orígenes
El campo se superpuso con la inteligencia artificial desde los esfuerzos en los Estados Unidos en la década de 1950 para usar computadoras para traducir automáticamente textos de idiomas extranjeros, particularmente revistas científicas rusas, al inglés. [1] Dado que los enfoques basados en reglas podían realizar cálculos aritméticos (sistemáticos) mucho más rápido y con mayor precisión que los humanos, se esperaba que el léxico , la morfología , la sintaxis y la semántica también se pudieran aprender utilizando reglas explícitas. Después del fracaso de los enfoques basados en reglas , David Hays [2] acuñó el término para distinguir el campo de la IA y cofundó la Asociación de Lingüística Computacional (ACL) y el Comité Internacional de Lingüística Computacional (ICCL) en el Décadas de 1970 y 1980. Lo que comenzó como un esfuerzo por traducir entre idiomas evolucionó hasta convertirse en un campo mucho más amplio de procesamiento del lenguaje natural . [3] [4]
Corpus anotados
Para poder estudiar meticulosamente el idioma inglés , era muy necesario un corpus de texto anotado. El Penn Treebank [5] fue uno de los corpus más utilizados. Consistía en manuales de computadoras de IBM, conversaciones telefónicas transcritas y otros textos, que en conjunto contenían más de 4,5 millones de palabras de inglés americano, anotadas utilizando etiquetas de parte del discurso y corchetes sintácticos. [6]
Se analizaron los corpus de oraciones japonesas y se encontró un patrón de normalidad logarítmica en relación con la longitud de las oraciones. [7]
Modelado de la adquisición del lenguaje
El hecho de que durante la adquisición del lenguaje , los niños en gran medida solo estén expuestos a evidencia positiva, [8] lo que significa que se proporciona la única evidencia de lo que es una forma correcta, y ninguna evidencia de lo que no es correcto, [9] fue una limitación para el modelos en ese momento porque los modelos de aprendizaje profundo ahora disponibles no estaban disponibles a fines de la década de 1980. [10]
Se ha demostrado que los idiomas se pueden aprender con una combinación de entradas simples presentadas de forma incremental a medida que el niño desarrolla una mejor memoria y una mayor capacidad de atención, [11] lo que explica el largo período de adquisición del lenguaje en bebés y niños humanos. [11]
Se han utilizado robots para probar teorías lingüísticas. [12] Permitidos aprender como lo harían los niños, se crearon modelos basados en un modelo de asequibilidad en el que se crearon asignaciones entre acciones, percepciones y efectos y se vincularon a palabras habladas. Fundamentalmente, estos robots pudieron adquirir asignaciones funcionales de palabras y significados sin necesidad de una estructura gramatical.
Utilizando la ecuación de Price y la dinámica de la urna de Pólya , los investigadores han creado un sistema que no sólo predice la evolución lingüística futura sino que también proporciona información sobre la historia evolutiva de las lenguas modernas. [13]
Las teorías de Chomsky
Se han realizado intentos para determinar cómo un bebé aprende una "gramática no normal" según la teoría de Chomsky sobre la forma normal . [9]
Ver también
Referencias
- ^ John Hutchins: retrospectiva y perspectiva en la traducción por computadora. Archivado el 14 de abril de 2008 en las actas de Wayback Machine de MT Summit VII, 1999, págs.
- ^ "Miembros fallecidos". Miembros de ICCL . Archivado desde el original el 17 de mayo de 2017 . Consultado el 15 de noviembre de 2017 .
- ^ Procesamiento del lenguaje natural por Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
- ^ Arnold B. Barach: Translator Machine 1975: y los cambios venideros.
- ^ Marcus, M. y Marcinkiewicz, M. (1993). "Construcción de un gran corpus comentado en inglés: The Penn Treebank" (PDF) . Ligüística computacional . 19 (2): 313–330. Archivado (PDF) desde el original el 9 de octubre de 2022.
- ^ Taylor, Ann (2003). "1". Bancos de árboles . Primavera Holanda. págs. 5–22.
- ^ Furuhashi, S. y Hayakawa, Y. (2012). "Lognormalidad de la distribución de la longitud de las oraciones japonesas". Revista de la Sociedad de Física de Japón . 81 (3): 034004. Código bibliográfico : 2012JPSJ...81c4004F. doi :10.1143/JPSJ.81.034004.
- ^ Bowerman, M. (1988). El problema de la "no evidencia negativa": ¿Cómo evitan los niños construir una gramática demasiado general? Explicar los universales del lenguaje.
- ^ ab Braine, MDS (1971). Sobre dos tipos de modelos de internalización de gramáticas. En DI Slobin (Ed.), La ontogénesis de la gramática: una perspectiva teórica. Nueva York: Academic Press.
- ^ Poderes, DMW y Turk, CCR (1989). Aprendizaje automático del lenguaje natural . Springer-Verlag. ISBN 978-0-387-19557-5 .
- ^ ab Elman, Jeffrey L. (1993). "Aprendizaje y desarrollo en redes neuronales: la importancia de empezar poco a poco". Cognición . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . doi :10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
- ^ Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Arranque del lenguaje: aprender el significado de las palabras a partir de la asociación percepción-acción". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 42 (3): 660–71. arXiv : 1711.09714 . doi :10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
- ^ Gong, T.; Shuai, L.; Tamariz, M. y Jäger, G. (2012). E. Scalas (ed.). "Estudiar el cambio de idioma utilizando la ecuación de precios y la dinámica de Pólya-urn". MÁS UNO . 7 (3): e33171. Código Bib : 2012PLoSO...733171G. doi : 10.1371/journal.pone.0033171 . PMC 3299756 . PMID 22427981.
Otras lecturas
- Bates, M (1995). "Modelos de comprensión del lenguaje natural". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 92 (22): 9977–9982. Código bibliográfico : 1995PNAS...92.9977B. doi : 10.1073/pnas.92.22.9977 . PMC 40721 . PMID 7479812.
- Steven Bird, Ewan Klein y Edward Loper (2009). Procesamiento del lenguaje natural con Python . Medios O'Reilly. ISBN 978-0-596-51649-9 .
- Daniel Jurafsky y James H. Martin (2008). Procesamiento del habla y el lenguaje , 2ª edición. Pearson-Prentice Hall. ISBN 978-0-13-187321-6 .
- Mohamed Zakaria KURDI (2016). Procesamiento del lenguaje natural y lingüística computacional: habla, morfología y sintaxis , volumen 1. ISTE-Wiley. ISBN 978-1848218482 .
- Mohamed Zakaria KURDI (2017). Procesamiento del lenguaje natural y lingüística computacional: semántica, discurso y aplicaciones , volumen 2. ISTE-Wiley. ISBN 978-1848219212 .
enlaces externos
Wikiversidad tiene recursos de aprendizaje sobre lingüística computacional.
Wikimedia Commons tiene medios relacionados con la lingüística computacional .
- Asociación de Lingüística Computacional (ACL)
- Antología ACL de artículos de investigación.
- Wiki ACL para lingüística computacional
- CICLing conferencias anuales sobre Lingüística Computacional Archivado el 6 de febrero de 2019 en Wayback Machine.
- Lingüística Computacional – Taller de Aplicaciones
- Libro introductorio gratuito en línea sobre lingüística computacional en Wayback Machine (archivado el 25 de enero de 2008)
- Mundo de la tecnología del lenguaje
- Recursos para el procesamiento de texto, voz y lenguaje
- El Grupo de Investigación en Lingüística Computacional Archivado el 1 de agosto de 2013 en Wayback Machine.