Lingüística computacional

La lingüística computacional es un campo interdisciplinario que se ocupa del modelado computacional del lenguaje natural , así como del estudio de enfoques computacionales apropiados para cuestiones lingüísticas. En general, la lingüística computacional se basa en la lingüística , la informática , la inteligencia artificial , las matemáticas , la lógica , la filosofía , la ciencia cognitiva , la psicología cognitiva , la psicolingüística , la antropología y la neurociencia , entre otras.

Orígenes

El campo se superpuso con la inteligencia artificial desde los esfuerzos en los Estados Unidos en la década de 1950 para usar computadoras para traducir automáticamente textos de idiomas extranjeros, particularmente revistas científicas rusas, al inglés. ^[1] Dado que los enfoques basados en reglas podían hacer cálculos aritméticos (sistemáticos) mucho más rápido y con mayor precisión que los humanos, se esperaba que el léxico , la morfología , la sintaxis y la semántica también se pudieran aprender usando reglas explícitas. Después del fracaso de los enfoques basados en reglas , David Hays ^[2] acuñó el término para distinguir el campo de la IA y cofundó tanto la Asociación de Lingüística Computacional (ACL) como el Comité Internacional de Lingüística Computacional (ICCL) en las décadas de 1970 y 1980. Lo que comenzó como un esfuerzo por traducir entre idiomas evolucionó hacia un campo mucho más amplio de procesamiento del lenguaje natural . ^[3]^[4]

Corpus anotados

Para poder estudiar minuciosamente el idioma inglés , era muy necesario contar con un corpus de textos anotados. El Penn Treebank ^[5] era uno de los corpus más utilizados. Consistía en manuales de computadoras IBM, conversaciones telefónicas transcritas y otros textos, que en conjunto contenían más de 4,5 millones de palabras de inglés estadounidense, anotadas utilizando tanto etiquetas de categorías gramaticales como corchetes sintácticos. ^[6]

Se analizaron corpus de oraciones japonesas y se encontró un patrón de normalidad logarítmica en relación con la longitud de las oraciones. ^[7]

Modelado de la adquisición del lenguaje

El hecho de que durante la adquisición del lenguaje , los niños están expuestos en gran medida solo a evidencia positiva, ^[8] lo que significa que solo se proporciona evidencia de lo que es una forma correcta y no hay evidencia de lo que no es correcto, ^[9] fue una limitación para los modelos en ese momento porque los modelos de aprendizaje profundo ahora disponibles no estaban disponibles a fines de la década de 1980. ^[10]

Se ha demostrado que los idiomas se pueden aprender con una combinación de información simple presentada de forma incremental a medida que el niño desarrolla una mejor memoria y una mayor capacidad de atención, ^[11] lo que explica el largo período de adquisición del lenguaje en los bebés y niños humanos. ^[11]

Los robots se han utilizado para poner a prueba teorías lingüísticas. ^[12] Se crearon modelos que les permitían aprender como lo harían los niños, basándose en un modelo de posibilidades en el que se creaban asignaciones entre acciones, percepciones y efectos y se vinculaban a palabras habladas. Fundamentalmente, estos robots pudieron adquirir asignaciones funcionales entre palabras y significados sin necesidad de una estructura gramatical.

Utilizando la ecuación de Price y la dinámica de la urna de Pólya , los investigadores han creado un sistema que no sólo predice la evolución lingüística futura sino que también proporciona información sobre la historia evolutiva de las lenguas modernas. ^[13]

Las teorías de Chomsky

Se han hecho intentos para determinar cómo un bebé aprende una "gramática no normal" como la teorizada por Chomsky: la forma normal . ^[9]

Véase también

Referencias

^ John Hutchins: Retrospectiva y prospectiva en la traducción asistida por computadora. Archivado el 14 de abril de 2008 en Wayback Machine. Actas de la VII Cumbre de MT, 1999, págs. 30-44.
^ "Miembros fallecidos". Miembros de la ICCL . Archivado desde el original el 17 de mayo de 2017. Consultado el 15 de noviembre de 2017 .
^ Procesamiento del lenguaje natural por Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
^ Arnold B. Barach: La máquina traductora 1975: Y los cambios que vendrán.
^ Marcus, M. y Marcinkiewicz, M. (1993). "Building a large annotated corpus of English: The Penn Treebank" (PDF) . Computational Linguistics . 19 (2): 313–330. Archivado (PDF) desde el original el 2022-10-09.
^ Taylor, Ann (2003). "1". Treebanks . Primavera en los Países Bajos. págs. 5–22.
^ Furuhashi, S. y Hayakawa, Y. (2012). "Lognormalidad de la distribución de longitudes de oraciones japonesas". Journal of the Physical Society of Japan . 81 (3): 034004. Bibcode :2012JPSJ...81c4004F. doi :10.1143/JPSJ.81.034004.
^ Bowerman, M. (1988). El problema de la "falta de evidencia negativa": ¿Cómo evitan los niños construir una gramática demasiado general? Explicación de los universales del lenguaje.
^ ab Braine, MDS (1971). Sobre dos tipos de modelos de internalización de gramáticas. En DI Slobin (Ed.), La ontogénesis de la gramática: una perspectiva teórica. Nueva York: Academic Press.
^ Powers, DMW y Turk, CCR (1989). Aprendizaje automático del lenguaje natural . Springer-Verlag. ISBN 978-0-387-19557-5 .
^ ab Elman, Jeffrey L. (1993). "Aprendizaje y desarrollo en redes neuronales: la importancia de empezar desde abajo". Cognición . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . doi :10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
^ Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. (2012). "Arranque del lenguaje: aprendizaje de significados de palabras a partir de la asociación percepción-acción". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 42 (3): 660–71. arXiv : 1711.09714 . doi :10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
^ Gong, T.; Shuai, L.; Tamariz, M. y Jäger, G. (2012). E. Scalas (ed.). "Estudio del cambio lingüístico mediante la ecuación de precios y la dinámica de Pólya-urn". PLOS ONE . 7 (3): e33171. Bibcode :2012PLoSO...733171G. doi : 10.1371/journal.pone.0033171 . PMC 3299756 . PMID 22427981.

Lectura adicional

Bates, M (1995). "Modelos de comprensión del lenguaje natural". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 92 (22): 9977–9982. Bibcode :1995PNAS...92.9977B. doi : 10.1073/pnas.92.22.9977 . PMC 40721 . PMID 7479812.
Steven Bird, Ewan Klein y Edward Loper (2009). Procesamiento del lenguaje natural con Python . O'Reilly Media. ISBN 978-0-596-51649-9 .
Daniel Jurafsky y James H. Martin (2008). Speech and Language Processing , 2.ª edición. Pearson Prentice Hall. ISBN 978-0-13-187321-6 .
Mohamed Zakaria KURDI (2016). Procesamiento del lenguaje natural y lingüística computacional: habla, morfología y sintaxis , volumen 1. ISTE-Wiley. ISBN 978-1848218482 .
Mohamed Zakaria KURDI (2017). Procesamiento del lenguaje natural y lingüística computacional: semántica, discurso y aplicaciones , volumen 2. ISTE-Wiley. ISBN 978-1848219212 .

Enlaces externos

Wikiversidad tiene recursos de aprendizaje sobre lingüística computacional

Wikimedia Commons alberga una categoría multimedia sobre Lingüística computacional .

Asociación de Lingüística Computacional (ACL)
- Antología de artículos de investigación de la ACL
- Wiki de ACL para lingüística computacional
Conferencias anuales de CICLing sobre lingüística computacional Archivado el 6 de febrero de 2019 en Wayback Machine
Taller de aplicaciones de lingüística computacional
Libro introductorio gratuito en línea sobre lingüística computacional en Wayback Machine (archivado el 25 de enero de 2008)
Tecnología del lenguaje en el mundo
Recursos para el procesamiento de texto, habla y lenguaje
El Grupo de Investigación en Lingüística Computacional Archivado el 1 de agosto de 2013 en Wayback Machine