Esquema del procesamiento del lenguaje natural

El siguiente esquema se proporciona como una descripción general y una guía temática para el procesamiento del lenguaje natural:

procesamiento del lenguaje natural : actividad informática en la que las computadoras analizan , comprenden , alteran o generan el lenguaje natural . Esto incluye la automatización de cualquiera o todas las formas, actividades o métodos lingüísticos de comunicación, como conversación , correspondencia, lectura , composición escrita , dictado , publicación , traducción , lectura de labios , etc. Procesamiento del lenguaje natural es también el nombre de la rama de la informática , la inteligencia artificial y la lingüística que se ocupa de permitir que las computadoras se comuniquen utilizando lenguaje(s) natural(es) en todas sus formas, incluidas, entre otras, el habla , la letra impresa , la escritura y firma .

Procesamiento natural del lenguaje

El procesamiento del lenguaje natural se puede describir como todo lo siguiente:

Un campo de la ciencia : empresa sistemática que construye y organiza conocimiento en forma de explicaciones y predicciones comprobables sobre el universo. ^[1]
- Una ciencia aplicada : campo que aplica el conocimiento humano para construir o diseñar cosas útiles.
  - Un campo de la informática : enfoque científico y práctico de la computación y sus aplicaciones.
    - Una rama de la inteligencia artificial : la inteligencia de máquinas y robots y la rama de la informática que tiene como objetivo crearla.
    - Un subcampo de la lingüística computacional : campo interdisciplinario que se ocupa del modelado estadístico o basado en reglas del lenguaje natural desde una perspectiva computacional.
- Una aplicación de la ingeniería : ciencia, habilidad y profesión de adquirir y aplicar conocimientos científicos, económicos, sociales y prácticos para diseñar y también construir estructuras, máquinas, dispositivos, sistemas, materiales y procesos.
  - Una aplicación de la ingeniería de software : aplicación de un enfoque sistemático, disciplinado y cuantificable al diseño, desarrollo, operación y mantenimiento de software, y el estudio de estos enfoques; es decir, la aplicación de la ingeniería al software. ^[2]^[3]^[4]
    - Un subcampo de la programación informática : proceso de diseño, escritura, prueba, depuración y mantenimiento del código fuente de programas informáticos. Este código fuente está escrito en uno o más lenguajes de programación (como Java, C++, C#, Python, etc.). El propósito de la programación es crear un conjunto de instrucciones que las computadoras usan para realizar operaciones específicas o exhibir comportamientos deseados.
      - Un subcampo de la programación de inteligencia artificial –
Un tipo de sistema : conjunto de componentes que interactúan o son interdependientes que forman un todo integrado o un conjunto de elementos (a menudo llamados 'componentes') y relaciones que son diferentes de las relaciones del conjunto o sus elementos con otros elementos o conjuntos.
- Un sistema que incluye software : el software es una colección de programas de computadora y datos relacionados que proporciona instrucciones para decirle a una computadora qué hacer y cómo hacerlo. Software se refiere a uno o más programas informáticos y datos almacenados en el almacenamiento de la computadora. En otras palabras, el software es un conjunto de programas, procedimientos, algoritmos y su documentación relacionados con el funcionamiento de un sistema de procesamiento de datos.
Un tipo de tecnología : fabricación, modificación, uso y conocimiento de herramientas, máquinas, técnicas, artesanías, sistemas, métodos de organización, para resolver un problema, mejorar una solución preexistente a un problema, lograr una meta, manejar una aplicación. relación entrada/salida o realizar una función específica. También puede referirse a la recogida de dichas herramientas, maquinaria, modificaciones, disposiciones y procedimientos. Las tecnologías afectan significativamente la capacidad humana y de otras especies animales para controlar y adaptarse a sus entornos naturales.
- Una forma de tecnología informática : las computadoras y sus aplicaciones. La PNL utiliza computadoras, escáneres de imágenes, micrófonos y muchos tipos de programas de software.
  - Tecnología del lenguaje : consiste en el procesamiento del lenguaje natural (PLN) y la lingüística computacional (CL), por un lado, y la tecnología del habla, por otro. También incluye muchos aspectos orientados a aplicaciones de estos. A menudo se le llama tecnología del lenguaje humano (HLT).

Tecnologías de requisitos previos

Las siguientes tecnologías hacen posible el procesamiento del lenguaje natural:

Comunicación : la actividad de una fuente que envía un mensaje a un receptor.
- Idioma -
  - Discurso -
  - Escribiendo -
- Informática -
  - Ordenadores -
  - Programación de computadoras -
    - Extracción de información –
    - Interfaz de usuario -
  - Software -
    - Edición de texto : programa utilizado para editar archivos de texto sin formato.
    - Procesamiento de textos : pieza de software utilizada para componer, editar, formatear e imprimir documentos.
  - Dispositivos de entrada : piezas de hardware para enviar datos a una computadora para su procesamiento ^[5]
    - Teclado de computadora : dispositivo de entrada estilo máquina de escribir cuya entrada se convierte en diversos datos según las circunstancias.
    - Escáneres de imágenes –

Subcampos del procesamiento del lenguaje natural

Extracción de información (IE): campo relacionado en general con la extracción de información semántica del texto. Esto cubre tareas como el reconocimiento de entidades nombradas , la resolución de correferencias , la extracción de relaciones , etc.
Ingeniería de ontologías : campo que estudia los métodos y metodologías para construir ontologías, que son representaciones formales de un conjunto de conceptos dentro de un dominio y las relaciones entre esos conceptos.
Procesamiento de voz : campo que cubre el reconocimiento de voz , la conversión de texto a voz y tareas relacionadas.
Procesamiento estadístico del lenguaje natural –
- Semántica estadística : un subcampo de la semántica computacional que establece relaciones semánticas entre palabras para examinar sus contextos.
  - Semántica distributiva : un subcampo de la semántica estadística que examina la relación semántica de las palabras en un corpus o en grandes muestras de datos.

Campos relacionados

El procesamiento del lenguaje natural contribuye y utiliza (las teorías, herramientas y metodologías de) los siguientes campos:

Razonamiento automatizado : área de la informática y la lógica matemática dedicada a comprender diversos aspectos del razonamiento y a producir software que permita a las computadoras razonar de forma completamente o casi completamente automática. El razonamiento automático, un subcampo de la inteligencia artificial, también se basa en la informática teórica y la filosofía de la mente.
Lingüística : estudio científico del lenguaje humano. El procesamiento del lenguaje natural requiere comprensión de la estructura y aplicación del lenguaje y, por lo tanto, se basa en gran medida en la lingüística.
- Lingüística aplicada : campo de estudio interdisciplinario que identifica, investiga y ofrece soluciones a problemas de la vida real relacionados con el lenguaje. Algunos de los campos académicos relacionados con la lingüística aplicada son la educación, la lingüística, la psicología, la informática, la antropología y la sociología. Algunos de los subcampos de la lingüística aplicada relevantes al procesamiento del lenguaje natural son:
  - Bilingüismo / Multilingüismo –
  - Comunicación mediada por computadora (CMC): cualquier transacción comunicativa que ocurre mediante el uso de dos o más computadoras en red. ^[6] La investigación sobre CMC se centra en gran medida en los efectos sociales de diferentes tecnologías de comunicación asistidas por computadora. Muchos estudios recientes involucran redes sociales basadas en Internet respaldadas por software social .
  - Lingüística contrastiva : enfoque lingüístico orientado a la práctica que busca describir las diferencias y similitudes entre un par de lenguas.
  - Análisis de la conversación (CA): enfoque para el estudio de la interacción social, abarcando tanto la conducta verbal como la no verbal, en situaciones de la vida cotidiana. Tomar turnos es un aspecto del uso del lenguaje que estudia CA.
  - Análisis del discurso : varios enfoques para analizar el uso de la lengua escrita, vocal o de señas o cualquier evento semiótico significativo.
  - Lingüística forense : aplicación de conocimientos, métodos y conocimientos lingüísticos al contexto forense del derecho, el lenguaje, la investigación de delitos, los juicios y los procedimientos judiciales.
  - Interlingüística : estudio de la mejora de las comunicaciones entre personas de diferentes lenguas maternas mediante el uso de lenguas étnicas y auxiliares (lingua franca). Por ejemplo, mediante el uso intencional de lenguas auxiliares internacionales, como el esperanto o la interlingua, o interlenguas espontáneas conocidas como lenguas pidgin.
  - Evaluación del idioma : evaluación del primer, segundo u otro idioma en el contexto de la escuela, colegio o universidad; evaluación del uso del lenguaje en el lugar de trabajo; y evaluación del lenguaje en los contextos de inmigración, ciudadanía y asilo. La evaluación puede incluir análisis de comprensión auditiva, habla, lectura, escritura o comprensión cultural, con respecto a la comprensión de cómo funciona teóricamente el idioma y la capacidad de utilizarlo en la práctica.
  - Pedagogía de idiomas : ciencia y arte de la educación de idiomas, incluidos enfoques y métodos de enseñanza y estudio de idiomas. El procesamiento del lenguaje natural se utiliza en programas diseñados para enseñar idiomas, incluida la formación en primer y segundo idioma.
  - Planificación lingüística –
  - Política lingüística –
  - Lexicografía –
  - Alfabetizaciones –
  - Pragmática –
  - Adquisicion de una segunda lengua -
  - Estilística –
  - Traducción -
- Lingüística computacional : campo interdisciplinario que se ocupa del modelado estadístico o basado en reglas del lenguaje natural desde una perspectiva computacional. Los modelos y herramientas de la lingüística computacional se utilizan ampliamente en el campo del procesamiento del lenguaje natural y viceversa.
  - Semántica computacional –
  - Lingüística de corpus : estudio del lenguaje expresado en muestras (corpora) de texto del "mundo real". Corpora es el plural de corpus , y un corpus es una colección de textos (o segmentos de habla) específicamente seleccionados compuestos de lenguaje natural. Una vez construido (reunido o compuesto), un corpus se analiza con los métodos de la lingüística computacional para inferir el significado y el contexto de sus componentes (palabras, frases y oraciones), y las relaciones entre ellos. Opcionalmente, un corpus se puede anotar ("etiquetar") con datos (manual o automáticamente) para que sea más fácil de entender (por ejemplo, etiquetado de parte del discurso ). Estos datos luego se aplican para dar sentido a la entrada del usuario, por ejemplo, para hacer mejores conjeturas (automatizadas) de lo que la gente está hablando o diciendo, tal vez para lograr búsquedas web más específicas o para el reconocimiento de voz.
- Metalingüística –
- Lingüística de signos : estudio y análisis científico de las lenguas de signos naturales, sus características, su estructura (fonología, morfología, sintaxis y semántica), su adquisición (como lengua primaria o secundaria), cómo se desarrollan independientemente de otras lenguas, su aplicación en comunicación, sus relaciones con otras lenguas (incluidas las lenguas habladas) y muchos otros aspectos.
Interacción persona-computadora : la intersección de la informática y las ciencias del comportamiento, este campo implica el estudio, planificación y diseño de la interacción entre personas (usuarios) y computadoras. Es importante prestar atención a la interacción hombre-máquina, porque las interfaces hombre-máquina mal diseñadas pueden provocar muchos problemas inesperados. Un ejemplo clásico de esto es el accidente de Three Mile Island, donde las investigaciones concluyeron que el diseño de la interfaz hombre-máquina fue al menos parcialmente responsable del desastre.
Recuperación de información (IR): campo relacionado con el almacenamiento, búsqueda y recuperación de información. Es un campo separado dentro de la informática (más cercano a las bases de datos), pero las RI se basan en algunos métodos de PNL (por ejemplo, derivación). Algunas investigaciones y aplicaciones actuales buscan cerrar la brecha entre IR y PNL.
Representación del conocimiento (KR): área de investigación en inteligencia artificial destinada a representar el conocimiento en símbolos para facilitar la inferencia a partir de esos elementos de conocimiento, creando nuevos elementos de conocimiento. La investigación sobre representación del conocimiento implica el análisis de cómo razonar con precisión y eficacia y cuál es la mejor manera de utilizar un conjunto de símbolos para representar un conjunto de hechos dentro de un dominio de conocimiento.
- Red semántica : estudio de las relaciones semánticas entre conceptos.
  - Web semántica -
Aprendizaje automático : subcampo de la informática que examina el reconocimiento de patrones y la teoría del aprendizaje computacional en inteligencia artificial. Hay tres enfoques amplios para el aprendizaje automático. El aprendizaje supervisado ocurre cuando un maestro le da a la máquina ejemplos de entradas y salidas para que pueda aprender una regla que asigna entradas a salidas. El aprendizaje no supervisado ocurre cuando la máquina determina la estructura de las entradas sin que se le proporcionen entradas o salidas de ejemplo. El aprendizaje por refuerzo ocurre cuando una máquina debe realizar una meta sin la retroalimentación del maestro.
- Reconocimiento de patrones : rama del aprendizaje automático que examina cómo las máquinas reconocen regularidades en los datos. Al igual que con el aprendizaje automático, los profesores pueden entrenar máquinas para que reconozcan patrones proporcionándoles entradas y salidas de ejemplo (es decir, aprendizaje supervisado ), o las máquinas pueden reconocer patrones sin ser entrenadas con ningún ejemplo de entradas o salidas (es decir, aprendizaje no supervisado ).
- Clasificación estadística –

Estructuras utilizadas en el procesamiento del lenguaje natural.

Anáfora – tipo de expresión cuya referencia depende de otro elemento referencial. Por ejemplo, en la oración "Sally prefería la compañía de ella misma", "ella misma" es una expresión anafórica en el sentido de que es correferencial con "Sally", el sujeto de la oración.
Lenguaje libre de contexto –
Lenguaje natural controlado : un lenguaje natural con una restricción introducida en su gramática y vocabulario para eliminar la ambigüedad y la complejidad.
Corpus: cuerpo de datos, opcionalmente etiquetado (por ejemplo, mediante etiquetado de parte del discurso ), que proporciona muestras del mundo real para análisis y comparación.
- Corpus de texto : conjunto grande y estructurado de textos, hoy en día generalmente almacenados y procesados electrónicamente. Se utilizan para realizar análisis estadísticos y pruebas de hipótesis, comprobar ocurrencias o validar reglas lingüísticas dentro de un tema (o dominio ) específico.
- Corpus de voz : base de datos de archivos de audio de voz y transcripciones de texto. En la tecnología del habla, los corpus de voz se utilizan, entre otras cosas, para crear modelos acústicos (que luego pueden usarse con un motor de reconocimiento de voz). En Lingüística, los corpus hablados se utilizan para realizar investigaciones en fonética, análisis de conversaciones, dialectología y otros campos.
Gramática -
- Gramática libre de contexto (CFG) –
- Gramática de restricciones (CG) –
- Gramática de cláusulas definidas (DCG) –
- Gramática de unificación funcional (FUG) –
- Gramática de estructura de frase generalizada (GPSG) –
- Gramática de estructura de frase basada en la cabeza (HPSG) –
- Gramática léxica funcional (LFG) –
- Gramática probabilística libre de contexto (PCFG): otro nombre para la gramática estocástica libre de contexto.
- Gramática estocástica libre de contexto (SCFG) –
- Gramática funcional sistémica (SFG) –
- Gramática de árbol contiguo (TAG) –
Lenguaje natural -
n -grama : secuencia de n números de tokens, donde un "token" es un carácter, sílaba o palabra. La n se reemplaza por un número. Por lo tanto, un 5 gramos es un n -grama de 5 letras, sílabas o palabras. "Come esto" es un peso de 2 gramos (también conocido como bigrama).
- Bigram – n -grama de 2 fichas. Cada secuencia de 2 elementos adyacentes en una cadena de fichas es un bigrama. Los bigramas se utilizan para el reconocimiento de voz, se pueden utilizar para resolver criptogramas y la frecuencia de los bigramas es un enfoque para la identificación estadística del lenguaje.
- Trigrama : caso especial del n -grama, donde n es 3.
Ontología : representación formal de un conjunto de conceptos dentro de un dominio y las relaciones entre esos conceptos.
- Taxonomía : práctica y ciencia de la clasificación, incluidos los principios subyacentes a la clasificación y los métodos para clasificar cosas o conceptos.
  - Hiponimia e hipernimia : la lingüística de hipónimos e hiperónimos. Un hipónimo comparte un tipo de relación con su hiperónimo. Por ejemplo, paloma, cuervo, águila y gaviota son todos hipónimos de pájaro (su hiperónimo); que, a su vez, es hipónimo de animal.
  - Taxonomía para motores de búsqueda : normalmente denominada "taxonomía de entidades". Es un árbol en el que los nodos están etiquetados con entidades que se espera que aparezcan en una consulta de búsqueda web. Estos árboles se utilizan para hacer coincidir las palabras clave de una consulta de búsqueda con las palabras clave de las respuestas (o fragmentos) relevantes.
Vinculación textual : relación direccional entre fragmentos de texto. La relación se mantiene siempre que la verdad de un fragmento de texto se deriva de otro texto. En el marco TE, los textos vinculante y vinculado se denominan texto (t) e hipótesis (h), respectivamente. La relación es direccional porque incluso si "t implica h", lo contrario "h implica t" es mucho menos seguro.
Trifono – secuencia de tres fonemas. Los trífonos son útiles en modelos de procesamiento del lenguaje natural donde se utilizan para establecer los diversos contextos en los que puede ocurrir un fonema en un lenguaje natural particular.

Procesos de PNL

Aplicaciones

Puntuación automatizada de ensayos (AES): el uso de programas informáticos especializados para asignar calificaciones a ensayos escritos en un entorno educativo. Es un método de evaluación educativa y una aplicación del procesamiento del lenguaje natural. Su objetivo es clasificar un gran conjunto de entidades textuales en un pequeño número de categorías discretas, correspondientes a los grados posibles (por ejemplo, los números del 1 al 6). Por tanto, puede considerarse un problema de clasificación estadística.
Anotación automática de imágenes : proceso mediante el cual un sistema informático asigna automáticamente metadatos textuales en forma de subtítulos o palabras clave a una imagen digital. Las anotaciones se utilizan en sistemas de recuperación de imágenes para organizar y localizar imágenes de interés de una base de datos.
Resumen automático : proceso de reducir un documento de texto con un programa de computadora para crear un resumen que conserve los puntos más importantes del documento original. A menudo se utiliza para proporcionar resúmenes de texto de un tipo conocido, como artículos de la sección financiera de un periódico.
- Tipos
  - Extracción de frases clave –
  - Resumen de documentos –
    - Resumen de varios documentos –
- Métodos y técnicas.
  - Resumen basado en extracción –
  - Resumen basado en abstracciones –
  - Resumen máximo basado en entropía –
  - Extracción de oraciones –
  - Resumen asistido –
    - Resumen de máquina asistido por humanos (HAMS) –
    - Resumen humano asistido por máquina (MAHS) –
Inducción automática de taxonomía : construcción automatizada de estructuras de árboles a partir de un corpus. Esto se puede aplicar a la creación de sistemas de clasificación taxonómica para su lectura por parte de los usuarios finales, como directorios web o esquemas temáticos.
Resolución de correferencia : para derivar la interpretación correcta del texto, o incluso estimar la importancia relativa de varios temas mencionados, los pronombres y otras expresiones de referencia deben estar conectados a los individuos u objetos correctos. Dada una oración o un fragmento de texto más grande, la resolución de correferencia determina qué palabras ("menciones") se refieren a qué objetos ("entidades") incluidos en el texto.
- Resolución de anáfora : se ocupa de hacer coincidir los pronombres con los sustantivos o nombres a los que se refieren. Por ejemplo, en una oración como "Entró a la casa de John por la puerta principal", "la puerta principal" es una expresión de referencia y la relación puente que se debe identificar es el hecho de que la puerta a la que se hace referencia es la puerta principal de la casa de John. casa (en lugar de alguna otra estructura a la que también se podría hacer referencia).
Sistema de diálogo –
Ayuda para la lectura en idiomas extranjeros : programa informático que ayuda a un usuario de un idioma no nativo a leer correctamente en su idioma de destino. La lectura adecuada significa que la pronunciación debe ser correcta y el énfasis en las diferentes partes de las palabras debe ser adecuado.
Ayuda para la escritura en un idioma extranjero : programa informático o cualquier otro instrumento que ayude a un usuario de un idioma no nativo (también conocido como estudiante de un idioma extranjero) a escribir decentemente en su idioma de destino. Las operaciones de asistencia se pueden clasificar en dos categorías: indicaciones sobre la marcha y comprobaciones posteriores a la redacción.
Revisión gramatical : el acto de verificar la corrección gramatical de un texto escrito, especialmente si este acto se realiza mediante un programa de computadora .
Recuperación de información -
- Recuperación de información en varios idiomas –
Traducción automática (MT): tiene como objetivo traducir automáticamente texto de un idioma humano a otro. Este es uno de los problemas más difíciles y forma parte de una clase de problemas denominados coloquialmente " IA-completa ", es decir, que requieren todos los diferentes tipos de conocimientos que poseen los humanos (gramática, semántica, datos sobre el mundo real, etc.). .) para poder resolver adecuadamente.
- Enfoque clásico de la traducción automática: traducción automática basada en reglas.
- Traducción asistida por ordenador –
  - Traducción automática interactiva –
  - Memoria de traducción : base de datos que almacena los llamados "segmentos", que pueden ser oraciones, párrafos o unidades similares a oraciones (encabezados, títulos o elementos de una lista) que han sido traducidos previamente, para ayudar a los traductores humanos.
- Traducción automática basada en ejemplos –
- Traducción automática basada en reglas –
Programación en lenguaje natural : interpretación y compilación de instrucciones comunicadas en lenguaje natural en instrucciones de computadora (código de máquina).
Búsqueda en lenguaje natural –
Reconocimiento óptico de caracteres (OCR): dada una imagen que representa texto impreso, determina el texto correspondiente.
Respuesta a preguntas : dada una pregunta en lenguaje humano, determine su respuesta. Las preguntas típicas tienen una respuesta correcta específica (como "¿Cuál es la capital de Canadá?"), pero a veces también se consideran preguntas abiertas (como "¿Cuál es el significado de la vida?").
- Respuesta a preguntas de dominio abierto –
Filtrado de spam –
Análisis de sentimientos : extrae información subjetiva generalmente de un conjunto de documentos, a menudo utilizando revisiones en línea para determinar la "polaridad" sobre objetos específicos. Es especialmente útil para identificar tendencias de opinión pública en las redes sociales, con fines de marketing.
Reconocimiento de voz : dado un clip de sonido de una persona o personas hablando, determina la representación textual del discurso. Esto es lo opuesto a texto a voz y es uno de los problemas extremadamente difíciles denominados coloquialmente " IA-completa " (ver arriba). En el habla natural apenas hay pausas entre palabras sucesivas y, por tanto, la segmentación del habla es una subtarea necesaria del reconocimiento del habla (ver más abajo). En la mayoría de los idiomas hablados, los sonidos que representan letras sucesivas se mezclan entre sí en un proceso denominado coarticulación , por lo que la conversión de la señal analógica en caracteres discretos puede ser un proceso muy difícil.
Síntesis de voz (Texto a voz) –
Corrección de textos –
Simplificación del texto : edición automatizada de un documento para incluir menos palabras o utilizar palabras más sencillas, conservando al mismo tiempo su significado e información subyacentes.

Procesos componentes

Comprensión del lenguaje natural : convierte fragmentos de texto en representaciones más formales, como estructuras lógicas de primer orden , que son más fáciles de manipular para los programas de computadora . La comprensión del lenguaje natural implica la identificación de la semántica pretendida entre las múltiples semánticas posibles que pueden derivarse de una expresión del lenguaje natural que generalmente toma la forma de notaciones organizadas de conceptos de lenguajes naturales. La introducción y creación de un metamodelo y una ontología del lenguaje son soluciones eficientes, aunque empíricas. Para la construcción de una base de semántica se espera una formalización explícita de la semántica de los lenguajes naturales sin confusiones con supuestos implícitos como el supuesto de mundo cerrado (CWA) versus el supuesto de mundo abierto , o el Sí/No subjetivo versus el Verdadero/Falso objetivo. formalización. ^[7]
Generación de lenguaje natural : tarea de convertir información de bases de datos informáticas en lenguaje humano legible.

Procesos componentes de la comprensión del lenguaje natural.

Clasificación automática de documentos (categorización de texto) –
- Identificación automática del idioma –
Procesamiento de términos compuestos : categoría de técnicas que identifican términos compuestos y los relacionan con sus definiciones. Los términos compuestos se crean combinando dos (o más) términos simples; por ejemplo, "triple" es un término de una sola palabra, pero "triple bypass cardíaco" es un término compuesto.
Inducción automática de taxonomía –
Procesamiento de corpus –
- Adquisición automática de léxico –
- Normalización de texto –
- Simplificación de texto –
Procesamiento lingüístico profundo –
Análisis del discurso : incluye una serie de tareas relacionadas. Una tarea es identificar la estructura del discurso de un texto conectado, es decir, la naturaleza de las relaciones discursivas entre oraciones (por ejemplo, elaboración, explicación, contraste). Otra tarea posible es reconocer y clasificar los actos de habla en un fragmento de texto (por ejemplo, preguntas de sí o no, preguntas de contenido, declaraciones, afirmaciones, órdenes, sugerencias, etc.).
Extracción de información –
- Minería de textos : proceso de derivar información de alta calidad a partir de texto. La información de alta calidad generalmente se obtiene mediante el diseño de patrones y tendencias a través de medios como el aprendizaje de patrones estadísticos.
  - Minería de textos biomédicos : (también conocida como BioNLP), se trata de minería de textos aplicada a textos y literatura del dominio de la biología biomédica y molecular. Es un campo de investigación bastante reciente que extrae elementos del procesamiento del lenguaje natural, la bioinformática, la informática médica y la lingüística computacional. Existe un interés creciente en las estrategias de extracción de información y minería de textos aplicadas a la literatura biomédica y de biología molecular debido al creciente número de publicaciones disponibles electrónicamente almacenadas en bases de datos como PubMed.
  - Aprendizaje del árbol de decisiones –
  - Extracción de oraciones –
- Extracción de terminología –
Indexación semántica latente –
Lematización : agrupa todos los términos similares que comparten un mismo lema, de modo que se clasifican como un solo elemento.
Segmentación morfológica : separa palabras en morfemas individuales e identifica la clase de morfemas. La dificultad de esta tarea depende en gran medida de la complejidad de la morfología (es decir, la estructura de las palabras) de la lengua que se esté considerando. El inglés tiene una morfología bastante simple, especialmente una morfología flexiva , por lo que a menudo es posible ignorar esta tarea por completo y simplemente modelar todas las formas posibles de una palabra (por ejemplo, "open, opens, open, opens") como palabras separadas. Sin embargo, en idiomas como el turco , este enfoque no es posible, ya que cada entrada del diccionario tiene miles de posibles formas de palabras.
Reconocimiento de entidad nombrada (NER): dada una secuencia de texto, determina qué elementos del texto se asignan a nombres propios, como personas o lugares, y cuál es el tipo de cada uno de esos nombres (por ejemplo, persona, ubicación, organización). Aunque las mayúsculas pueden ayudar a reconocer entidades nombradas en idiomas como el inglés, esta información no puede ayudar a determinar el tipo de entidad nombrada y, en cualquier caso, suele ser inexacta o insuficiente. Por ejemplo, la primera palabra de una oración también está en mayúscula y las entidades nombradas a menudo abarcan varias palabras, de las cuales solo algunas están en mayúscula. Además, muchos otros idiomas con escrituras no occidentales (por ejemplo, chino o árabe ) no tienen ninguna mayúscula, e incluso los idiomas con mayúsculas pueden no utilizarlas de manera consistente para distinguir nombres. Por ejemplo, el alemán escribe con mayúscula todos los sustantivos , independientemente de si se refieren a nombres, y el francés y el español no escriben con mayúscula los nombres que sirven como adjetivos .
Aprendizaje de ontologías : creación automática o semiautomática de ontologías , incluida la extracción de los términos del dominio correspondiente y las relaciones entre esos conceptos de un corpus de texto en lenguaje natural y su codificación con un lenguaje de ontología para una fácil recuperación. También se denomina "extracción de ontologías", "generación de ontologías" y "adquisición de ontologías".
Análisis : determina el árbol de análisis (análisis gramatical) de una oración determinada. La gramática de los lenguajes naturales es ambigua y las oraciones típicas tienen múltiples análisis posibles. De hecho, quizás resulte sorprendente que para una oración típica pueda haber miles de posibles análisis (la mayoría de los cuales parecerán completamente absurdos para un ser humano).
- Análisis superficial –
Etiquetado de parte del discurso : dada una oración, determina la parte del discurso para cada palabra. Muchas palabras, especialmente las comunes, pueden servir como múltiples partes del discurso . Por ejemplo, "libro" puede ser un sustantivo ("el libro sobre la mesa") o un verbo ("reservar un vuelo"); "conjunto" puede ser un sustantivo , verbo o adjetivo ; y "fuera" puede ser cualquiera de al menos cinco partes diferentes del discurso. Algunos idiomas tienen más ambigüedad que otros. Los idiomas con poca morfología flexiva , como el inglés, son particularmente propensos a dicha ambigüedad. El chino es propenso a esa ambigüedad porque es un lenguaje tonal durante la verbalización. Tal inflexión no se transmite fácilmente a través de las entidades empleadas dentro de la ortografía para transmitir el significado deseado.
Ampliación de consultas –
Extracción de relaciones : dado un fragmento de texto, identifica las relaciones entre entidades nombradas (por ejemplo, quién es la esposa de quién).
Análisis semántico (computacional) : análisis formal del significado, y "computacional" se refiere a enfoques que, en principio, apoyan una implementación efectiva.
- Análisis semántico explícito –
- Análisis semántico latente –
- Análisis semántico –
Separación de oraciones (también conocida como desambiguación de límites de oraciones y detección de oraciones): dado un fragmento de texto, encuentra los límites de las oraciones. Los límites de las oraciones suelen estar marcados por puntos u otros signos de puntuación , pero estos mismos caracteres pueden servir para otros propósitos (por ejemplo, marcar abreviaturas ).
Segmentación del habla : dado un clip de sonido de una persona o personas hablando, lo separa en palabras. Una subtarea del reconocimiento de voz y normalmente se agrupa con ella.
Derivación : reduce una palabra flexionada o derivada a su forma de raíz , base o raíz .
Fragmentación de texto –
Tokenización : dado un fragmento de texto, lo separa en distintas palabras, símbolos, oraciones u otras unidades.
Segmentación y reconocimiento de temas: dado un fragmento de texto, lo separa en segmentos, cada uno de los cuales está dedicado a un tema e identifica el tema del segmento.
Truecasing –
Segmentación de palabras : separa un fragmento de texto continuo en palabras separadas. Para un idioma como el inglés, esto es bastante trivial, ya que las palabras suelen estar separadas por espacios. Sin embargo, algunos idiomas escritos como el chino, el japonés y el tailandés no marcan los límites de las palabras de esa manera, y en esos idiomas la segmentación del texto es una tarea importante que requiere conocimiento del vocabulario y la morfología de las palabras en el idioma.
Desambiguación del sentido de las palabras (WSD): debido a que muchas palabras tienen más de un significado , la desambiguación del sentido de las palabras se utiliza para seleccionar el significado que tiene más sentido en el contexto. Para este problema, normalmente se nos proporciona una lista de palabras y sus sentidos asociados, por ejemplo, de un diccionario o de un recurso en línea como WordNet .
- Inducción del sentido de las palabras : problema abierto del procesamiento del lenguaje natural, que se refiere a la identificación automática de los sentidos de una palabra (es decir, significados). Dado que el resultado de la inducción del sentido de la palabra es un conjunto de sentidos para la palabra objetivo (inventario de sentido), esta tarea está estrictamente relacionada con la de desambiguación del sentido de la palabra (WSD), que se basa en un inventario de sentido predefinido y tiene como objetivo resolver La ambigüedad de las palabras en contexto.
- Adquisición automática de corpus con etiquetas sensoriales –
W-shingling : conjunto de "shingles" únicos (subsecuencias contiguas de tokens en un documento) que se pueden utilizar para medir la similitud de dos documentos. La w indica la cantidad de fichas en cada teja del conjunto.

Procesos componentes de la generación del lenguaje natural.

Generación de lenguaje natural : tarea de convertir información de bases de datos informáticas en lenguaje humano legible.

Inducción automática de taxonomía (ATI): construcción automatizada de estructuras de árbol a partir de un corpus. Mientras que ATI se utiliza para construir el núcleo de las ontologías (y al hacerlo, lo convierte en un proceso componente de la comprensión del lenguaje natural), cuando las ontologías que se construyen son legibles por el usuario final (como un esquema de tema), y estas se utilizan para la construcción. de documentación adicional (como el uso de un esquema como base para construir un informe o tratado), esto también se convierte en un proceso componente de la generación del lenguaje natural.
Estructuración del documento –

Historia del procesamiento del lenguaje natural

Historia de la traducción automática
Historia de la puntuación de ensayos automatizada
Historia de la interfaz de usuario en lenguaje natural
Historia de la comprensión del lenguaje natural
Historia del reconocimiento óptico de caracteres.
Historia de la respuesta a preguntas.
Historia de la síntesis de voz.
Prueba de Turing : prueba de la capacidad de una máquina para exhibir un comportamiento inteligente, equivalente o indistinguible del de un ser humano real. En el ejemplo ilustrativo original, un juez humano entabla una conversación en lenguaje natural con un humano y una máquina diseñada para generar un desempeño indistinguible del de un ser humano. Todos los participantes están separados unos de otros. Si el juez no puede distinguir de forma fiable la máquina del humano, se dice que la máquina ha pasado la prueba. La prueba fue presentada por Alan Turing en su artículo de 1950 "Computing Machinery and Intelligence", que comienza con las palabras: "Propongo considerar la pregunta: '¿Pueden pensar las máquinas?'".
Gramática universal : teoría en lingüística , generalmente atribuida a Noam Chomsky , que propone que la capacidad de aprender gramática está integrada en el cerebro. ^[8] La teoría sugiere que la habilidad lingüística se manifiesta sin ser enseñada ( ver pobreza del estímulo ), y que hay propiedades que todos los lenguajes humanos naturales comparten. Es cuestión de observación y experimentación determinar con precisión qué habilidades son innatas y qué propiedades comparten todas las lenguas.
ALPAC – fue un comité de siete científicos dirigido por John R. Pierce, creado en 1964 por el gobierno de Estados Unidos con el fin de evaluar los avances en la lingüística computacional en general y en la traducción automática en particular. Su informe, publicado en 1966, ganó notoriedad por ser muy escéptico con respecto a las investigaciones realizadas hasta el momento en traducción automática y enfatizar la necesidad de realizar investigaciones básicas en lingüística computacional; Esto finalmente provocó que el gobierno de Estados Unidos redujera drásticamente su financiación para el tema.
Teoría de la dependencia conceptual : un modelo de comprensión del lenguaje natural utilizado en sistemas de inteligencia artificial. Roger Schank de la Universidad de Stanford introdujo el modelo en 1969, en los primeros días de la inteligencia artificial. ^[9] Este modelo fue ampliamente utilizado por los estudiantes de Schank en la Universidad de Yale, como Robert Wilensky, Wendy Lehnert y Janet Kolodner.
Red de transición aumentada : tipo de estructura teórica de grafos utilizada en la definición operativa de lenguajes formales, utilizada especialmente para analizar lenguajes naturales relativamente complejos y que tiene una amplia aplicación en inteligencia artificial. Introducido por William A. Woods en 1970.
Traducción de idiomas distribuidos (proyecto) –

Cronología del software de PNL

Conceptos generales de procesamiento del lenguaje natural.

Algoritmo de Sukhotin : algoritmo de clasificación estadística para clasificar caracteres de un texto como vocales o consonantes. Inicialmente fue creado por Boris V. Sukhotin.
T9 (texto predictivo) : significa "Texto en 9 teclas", es una tecnología de texto predictivo patentada en EE. UU. para teléfonos móviles (específicamente aquellos que contienen un teclado numérico de 3x4), desarrollada originalmente por Tegic Communications, ahora parte de Nuance Communications.
Tatoeba : base de datos colaborativa en línea gratuita de oraciones de ejemplo dirigida a estudiantes de idiomas extranjeros.
Teragram Corporation : filial de propiedad total de SAS Institute, un importante productor de software de análisis estadístico, con sede en Cary, Carolina del Norte, EE. UU. Teragram tiene su sede en Cambridge, Massachusetts y se especializa en la aplicación de la lingüística computacional al procesamiento multilingüe del lenguaje natural.
TipTop Technologies : empresa que desarrolló TipTop Search, un motor de búsqueda social web en tiempo real con una plataforma única para el análisis semántico del lenguaje natural. TipTop Search proporciona resultados que capturan sentimientos, opiniones y experiencias individuales y grupales a partir de contenido de diversos tipos, incluidos mensajes en tiempo real de Twitter o reseñas de productos de consumo en Amazon.com.
Búsqueda transderivacional : cuando se realiza una búsqueda de una coincidencia aproximada en un campo amplio. En informática, la función equivalente se puede realizar utilizando memoria direccionable por contenido.
Desajuste de vocabulario : fenómeno común en el uso de lenguajes naturales, que ocurre cuando diferentes personas nombran la misma cosa o concepto de manera diferente.
Mapa LRE –
Cosificación (lingüística) –
Web semántica -
- Metadatos –
Sistema de diálogo hablado –
Colocar gramática sobre una red finita –
Agregación (lingüística) –
Modelo de bolsa de palabras : modelo que representa un texto como una bolsa (conjunto múltiple) de sus palabras que ignora la gramática y la secuencia de palabras, pero mantiene la multiplicidad. Este modelo se usa comúnmente para entrenar clasificadores de documentos.
Etiquetador brillante -
Modelo de lenguaje de caché –
ChaSen , MeCab : proporcionan análisis morfológicos y división de palabras en japonés
WSD monolingüe clásico –
Bosque Claro –
Diccionario de pronunciación CMU , también conocido como cmudict , es un diccionario de pronunciación de dominio público diseñado para usos en tecnología del habla y fue creado por la Universidad Carnegie Mellon (CMU). Define un mapeo de palabras en inglés a sus pronunciaciones norteamericanas y se usa comúnmente en aplicaciones de procesamiento de voz como el Festival Speech Synthesis System y el sistema de reconocimiento de voz CMU Sphinx .
Minería de conceptos –
Determinación del contenido –
DATR –
Destacado de DBpedia –
Procesamiento lingüístico profundo –
Relación discursiva –
Matriz de términos de documento –
Dragomir R. Radev –
ETBLAST –
Red de transición recursiva filtrada –
Robby Garner –
GeneRIF –
Dirección Gorn –
Inducción gramatical –
Gramática –
Truco de hash –
Modelo de Markov oculto –
Tecnología del lenguaje humano –
Extracción de información –
Congreso Internacional sobre Evaluación y Recursos Lingüísticos –
estrella kleene -
Corporación de Computación del Idioma –
Modelo de lenguaje –
IdiomaWare –
Mapeo semántico latente –
Recuperación de información jurídica –
Algoritmo de Lesk –
Tecnologías Lessac –
Lexalíticos –
Elección léxica –
Marco de marcado léxico –
Sustitución léxica –
LKB –
Forma lógica –
Mapa LRE –
Usabilidad del software de traducción automática –
MAREC –
Entropía máxima –
Conferencia de comprensión de mensajes –
METEOR –
Semántica de recursividad mínima –
Patrón morfológico –
Resumen de varios documentos –
Notación multilingüe –
Semántica ingenua –
Lenguaje natural -
Interfaz de lenguaje natural –
Interfaz de usuario en lenguaje natural –
Análisis de noticias –
Polinomio no determinista –
Respuesta a preguntas de dominio abierto –
Teoría de la optimidad –
Paco Natán –
Gramática de estructura de frase –
Powerset (empresa) –
Producción (informática) –
Banco de apoyo –
Respuesta a preguntas -
Realización (lingüística) –
Red de transición recursiva –
Generación de expresiones de referencia –
Reescribir regla –
Compresión semántica –
Red neuronal semántica –
SemEval –
Notación SPL –
Derivación : reduce una palabra flexionada o derivada a su forma de raíz , base o raíz .
Núcleo de cadena –

Herramientas de procesamiento del lenguaje natural

Google Ngram Viewer : grafica el uso de n -gramas de un corpus de más de 5,2 millones de libros

corpus

Corpus de texto (ver lista ): conjunto grande y estructurado de textos (hoy en día generalmente almacenados y procesados electrónicamente). Se utilizan para realizar análisis estadísticos y pruebas de hipótesis, comprobar ocurrencias o validar reglas lingüísticas dentro de un territorio lingüístico específico.

Kits de herramientas de procesamiento del lenguaje natural

Los siguientes kits de herramientas de procesamiento de lenguaje natural son colecciones notables de software de procesamiento de lenguaje natural . Son conjuntos de bibliotecas , marcos y aplicaciones para el procesamiento simbólico, estadístico del lenguaje natural y del habla.

Reconocedores de entidades nombradas

ABNER (Un reconocedor de entidades con nombre biomédico): programa de minería de texto de código abierto que utiliza modelos de secuencia de campos aleatorios condicionales de cadena lineal. Etiqueta automáticamente genes, proteínas y otros nombres de entidades en el texto. Escrito por Burr Settles de la Universidad de Wisconsin-Madison.
Stanford NER (Reconocedor de entidades con nombre): implementación en Java de un reconocedor de entidades con nombre que utiliza modelos de secuencia de campos aleatorios condicionales de cadena lineal. Etiqueta automáticamente personas, organizaciones y ubicaciones en texto en inglés, alemán, chino y español. Escrito por Jenny Finkel y otros miembros del Stanford PNL Group de la Universidad de Stanford.

Software de traduccion

Comparación de aplicaciones de traducción automática
Aplicaciones de traducción automática
- Google Translate
- Profundo
- Linguee : servicio web que proporciona un diccionario en línea para varios pares de idiomas. A diferencia de servicios similares, como LEO, Linguee incorpora un motor de búsqueda que brinda acceso a grandes cantidades de pares de oraciones traducidas bilingües, que provienen de la World Wide Web. Como ayuda a la traducción, Linguee se diferencia de los servicios de traducción automática como Babelfish y su función es más similar a una memoria de traducción.
- Lenguaje de red universal UNL
- Yahoo! Pez Babel
- reverso

Otro software

CTAKES : sistema de procesamiento de lenguaje natural de código abierto para la extracción de información de texto libre clínico de historias clínicas electrónicas. Procesa notas clínicas, identificando tipos de entidades clínicas nombradas: medicamentos, enfermedades/trastornos, signos/síntomas, sitios anatómicos y procedimientos. Cada entidad nombrada tiene atributos para la extensión del texto, el código de mapeo de ontología, el contexto (historia familiar, actual, no relacionado con el paciente) y negado/no negado. También conocido como Apache cTAKES.
DMAP –
ETAP-3 : sistema de procesamiento lingüístico patentado centrado en inglés y ruso. ^[12] Es un sistema basado en reglas que utiliza la teoría del significado-texto como base teórica.
JAPE : el motor de patrones de anotación de Java, un componente de la plataforma de arquitectura general para ingeniería de textos (GATE) de código abierto. JAPE es un transductor de estado finito que opera sobre anotaciones basadas en expresiones regulares.
LOLITA - "Interactor, traductor y analizador lingüístico a gran escala, basado en objetos". LOLITA fue desarrollada por Roberto Garigliano y sus colegas entre 1986 y 2000. Fue diseñada como una herramienta de uso general para procesar texto sin restricciones que podría ser la base de una amplia variedad de aplicaciones. En su núcleo había una red semántica que contenía unos 90.000 conceptos interconectados.
Maluuba : asistente personal inteligente para dispositivos Android, que utiliza un enfoque contextual para la búsqueda que tiene en cuenta la ubicación geográfica, los contactos y el idioma del usuario.
METAL MT : sistema de traducción automática desarrollado en la década de 1980 en la Universidad de Texas y en Siemens que funcionaba con máquinas Lisp.
Aprendizaje de idiomas sin fin : sistema de aprendizaje automático semántico desarrollado por un equipo de investigación de la Universidad Carnegie Mellon y respaldado por subvenciones de DARPA, Google y NSF, con partes del sistema ejecutándose en un clúster de supercomputación proporcionado por Yahoo!. ^[13] NELL fue programado por sus desarrolladores para poder identificar un conjunto básico de relaciones semánticas fundamentales entre unos cientos de categorías de datos predefinidas, como ciudades, empresas, emociones y equipos deportivos. Desde principios de 2010, el equipo de investigación de Carnegie Mellon ha estado ejecutando NELL las 24 horas del día, examinando cientos de millones de páginas web en busca de conexiones entre la información que ya conoce y lo que encuentra a través de su proceso de búsqueda, para establecer nuevas conexiones en una manera que pretende imitar la forma en que los humanos aprenden nueva información. ^[14]
NLTK –
Traductor-en-linea.com –
Regulus Grammar Compiler : sistema de software para compilar gramáticas de unificación en gramáticas para sistemas de reconocimiento de voz.
Voz s -
Siri (software) –
Habla con –
TeLQAS –
Herramientas de clasificación de Weka –
word2vec : modelos desarrollados por un equipo de investigadores dirigido por Thomas Milkov en Google para generar incrustaciones de palabras que puedan reconstruir parte del contexto lingüístico de las palabras utilizando redes neuronales bidimensionales poco profundas derivadas de un espacio vectorial mucho más grande.
Sistema de síntesis de discursos en festivales –
Sistema de reconocimiento de voz CMU Sphinx –
Language Grid : plataforma de código abierto para servicios web lingüísticos, que puede personalizar los servicios lingüísticos combinando los servicios lingüísticos existentes.

Chatbots

Chatterbot : un agente de conversación basado en texto que puede interactuar con usuarios humanos a través de algún medio, como un servicio de mensajería instantánea . Algunos chatterbots están diseñados para propósitos específicos, mientras que otros conversan con usuarios humanos sobre una amplia gama de temas.

Chatbots clásicos

Chatbots generales

Albert One – Ganador del Loebner 1998 y 1999 , de Robby Garner .
ALICE – Ganadora del Premio Loebner 2001, 2002 y 2004 desarrollado por Richard Wallace .
charlix
Cleverbot (ganador del Concurso de Inteligencia Mecánica 2010)
Elbot – Premio Loebner 2008 , de Fred Roberts .
Eugene Goostman – Ganador de las 100 Millas de Turing 2012, por Vladimir Veselov.
Fred : uno de los primeros charlatanes de Robby Garner .
charlatán
jeeney ai
MegaHAL
Mitsuku , ganador del Premio Loebner 2013 y 2016 ^[15]
Rose - ... 2015 - Ganador del triple premio Loebner , de Bruce Wilcox .
SimSimi : un popular programa de conversación de inteligencia artificial creado en 2002 por ISMaker.
Spookitalk : un chatterbot utilizado para los NPC en el videojuego Starship Titanic de Douglas Adams .
Ultra Hal – Premio Loebner 2007 , de Robert Medeksza.
verbot

Chatbots de mensajería instantánea

GooglyMinotaur , especializado en Radiohead , el primer bot lanzado por ActiveBuddy (junio de 2001-marzo de 2002) ^[16]
SmarterChild , desarrollado por ActiveBuddy y lanzado en junio de 2001 ^[17]
Infobot , un asistente en canales IRC como #perl , principalmente para ayudar a responder preguntas frecuentes (junio de 1995 a hoy) ^[18]
Negobot , un robot diseñado para atrapar pedófilos en línea haciéndose pasar por una niña e intentando obtener detalles personales de las personas con las que habla. ^[19]

Organizaciones de procesamiento del lenguaje natural

AFNLP (Federación Asiática de Asociaciones de Procesamiento del Lenguaje Natural): la organización para coordinar las actividades y eventos relacionados con el procesamiento del lenguaje natural en la región de Asia y el Pacífico.
Asociación de Tecnología del Idioma de Australasia –
Asociación de Lingüística Computacional : sociedad científica y profesional internacional para personas que trabajan en problemas relacionados con el procesamiento del lenguaje natural.

Conferencias relacionadas con el procesamiento del lenguaje natural.

Reunión Anual de la Asociación de Lingüística Computacional (ACL)
Conferencia Internacional sobre Procesamiento Inteligente de Textos y Lingüística Computacional (CICLing)
Conferencia internacional sobre evaluación y recursos lingüísticos : conferencia bienal organizada por la Asociación Europea de Recursos Lingüísticos con el apoyo de instituciones y organizaciones involucradas en el procesamiento del lenguaje natural.
Conferencia Anual del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL)
Texto, Discurso y Diálogo (TSD) – conferencia anual
Conferencia de recuperación de texto (TREC): serie continua de talleres que se centran en diversas áreas o pistas de investigación de recuperación de información (IR)

Empresas involucradas en el procesamiento del lenguaje natural.

AlchemyAPI : proveedor de servicios de una API de procesamiento de lenguaje natural.
Google, Inc .: el motor de búsqueda de Google es un ejemplo de resumen automático que utiliza extracción de frases clave.
Calais (producto de Reuters) : proveedor de servicios de procesamiento de lenguaje natural.
Wolfram Research, Inc. desarrollador del motor computacional de procesamiento de lenguaje natural Wolfram Alpha .

Publicaciones sobre procesamiento del lenguaje natural.

Libros

Enfoques conexionistas, estadísticos y simbólicos del aprendizaje para el procesamiento del lenguaje natural : Wermter, S., Riloff E. y Scheler, G. (editores). ^[20] Primer libro que abordó el aprendizaje estadístico y de redes neuronales del lenguaje.
Procesamiento del habla y el lenguaje: una introducción al procesamiento del lenguaje natural, el reconocimiento del habla y la lingüística computacional , por Daniel Jurafsky y James H. Martin. ^[21] Libro introductorio a la tecnología del lenguaje.

Serie de libros

Estudios sobre procesamiento del lenguaje natural : serie de libros de la Asociación de Lingüística Computacional, publicado por Cambridge University Press.

Revistas

Lingüística computacional : revista académica revisada por pares en el campo de la lingüística computacional. Es una publicación trimestral de MIT Press para la Asociación de Lingüística Computacional (ACL).

Personas influyentes en el procesamiento del lenguaje natural.

Daniel Bobrow –
Rollo Carpenter : creador de Jabberwacky y Cleverbot.
Noam Chomsky : autor de la obra fundamental Estructuras sintácticas , que revolucionó la lingüística con la " gramática universal ", un sistema de estructuras sintácticas basado en reglas. ^[22]
Kenneth Colby –
David Ferrucci , investigador principal del equipo que creó Watson , la computadora con inteligencia artificial de IBM que ganó el concurso Jeopardy!
Lyn Frazier –
Daniel Jurafsky – Profesor de Lingüística e Informática en la Universidad de Stanford. Con James H. Martin, escribió el libro de texto Procesamiento del habla y el lenguaje: una introducción al procesamiento del lenguaje natural, el reconocimiento del habla y la lingüística computacional.
Roger Schank : introdujo la teoría de la dependencia conceptual para la comprensión del lenguaje natural. ^[23]
Árbol de Jean E. Fox –
Alan Turing : creador de la prueba de Turing .
Joseph Weizenbaum , autor del chatterbot ELIZA .
Terry Winograd , profesor de informática en la Universidad de Stanford y codirector del Grupo de Interacción Humano-Computadora de Stanford. Es conocido en los campos de la filosofía de la mente y la inteligencia artificial por su trabajo en el lenguaje natural utilizando el programa SHRDLU.
William Aarón Woods –
Maurice Gross : autor del concepto de gramática local, ^[24] tomando los autómatas finitos como modelo de competencia del lenguaje. ^[25]
Stephen Wolfram : director ejecutivo y fundador de Wolfram Research , creador del lenguaje de programación (comprensión del lenguaje natural) Wolfram Language y del motor computacional de procesamiento de lenguaje natural Wolfram Alpha . ^[26]
Víctor Yngve –

Ver también

Referencias

^
"... la ciencia moderna es tanto un descubrimiento como una invención. Fue un descubrimiento de que la naturaleza generalmente actúa con suficiente regularidad como para ser descrita por leyes e incluso por matemáticas; y requirió invención para idear las técnicas, abstracciones, aparatos y organización. para exhibir las regularidades y asegurar sus descripciones similares a leyes." —p.vii, JL Heilbron , (2003, editor en jefe) The Oxford Companion to the History of Modern Science Nueva York: Oxford University Press ISBN 0-19-511229-6
- "ciencia". Diccionario en línea Merriam-Webster . Merriam-Webster , Inc. Consultado el 16 de octubre de 2011 . 3 a: conocimiento o un sistema de conocimiento que cubre verdades generales o el funcionamiento de leyes generales, especialmente tal como se obtienen y prueban mediante el método científico b: tal conocimiento o tal sistema de conocimiento relacionado con el mundo físico y sus fenómenos
^ SWEBOK Pierre Bourque; Robert Dupuis, eds. (2004). Guía de los conocimientos de ingeniería de software - Versión 2004. editores ejecutivos, Alain Abran, James W. Moore; editores, Pierre Bourque, Robert Dupuis. Sociedad de Computación IEEE . pag. 1.ISBN 0-7695-2330-7.
^ ACM (2006). "Grados y carreras en informática". ACM. Archivado desde el original el 17 de junio de 2011 . Consultado el 23 de noviembre de 2010 .
^ Laplante, Phillip (2007). Lo que todo ingeniero debe saber sobre ingeniería de software. Boca Ratón: CRC. ISBN 978-0-8493-7228-5. Consultado el 21 de enero de 2011 .
^ Dispositivo de entrada Computadora Esperanza
^ McQuail, Denis. (2005). Teoría de la comunicación de masas de Mcquail . 5ª edición. Londres: Publicaciones SAGE.
^ Yucong Duan, Christophe Cruz (2011), [http –//www.ijimt.org/abstract/100-E00187.htm Formalizando la semántica del lenguaje natural a través de la conceptualización a partir de la existencia] . Revista Internacional de Innovación, Gestión y Tecnología (2011) 2 (1), págs. 37–42.
^ "Módulo de herramientas: Gramática universal de Chomsky". thebrain.mcgill.ca .
^ Roger Schank , 1969, Un analizador de dependencia conceptual para el lenguaje natural Actas de la conferencia de 1969 sobre lingüística computacional, Sång-Säby, Suecia, páginas 1-3
^ McCorduck 2004, pag. 286, Crevier 1993, págs. 76-79, Russell y Norvig 2003, pág. 19
^ McCorduck 2004, págs. 291-296, Crevier 1993, págs. 134-139
^ "МНОГОЦЕЛЕВОЙ ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР ЭТАП-3". Iitp.ru. Consultado el 14 de febrero de 2012 .
^ "Con el objetivo de aprender como nosotros, una máquina se enseña a sí misma". New York Times . 4 de octubre de 2010 . Consultado el 5 de octubre de 2010 . Desde principios de año, un equipo de investigadores de la Universidad Carnegie Mellon (con el apoyo de subvenciones de la Agencia de Proyectos de Investigación Avanzada de Defensa y de Google, y aprovechando un grupo de supercomputación de investigación proporcionado por Yahoo) ha estado afinando un sistema informático que está tratando de dominar la semántica aprendiendo más como un humano.
^ Descripción general del proyecto, Universidad Carnegie Mellon . Consultado el 5 de octubre de 2010.
^ "Concurso Premio Loebner 2013". People.exeter.ac.uk. 2013-09-14 . Consultado el 2 de diciembre de 2013 .
^ Burlas, Al (25 de marzo de 2002). "El círculo de amigos se hace cada vez más amplio". Revista de Las Vegas (Nevada) .
^ "ActiveBuddy presenta software para crear e implementar agentes interactivos para mensajería de texto; el sitio para desarrolladores de ActiveBuddy ya está abierto: www.BuddyScript.com". Cable comercial . 2002-07-15 . Consultado el 16 de enero de 2014 .
^ Lenzo, Kevin (verano de 1998). "Infobots y Purl". El diario Perl . 3 (2) . Consultado el 26 de julio de 2010 .
^ Laorden, Carlos; Galán-García, Patxi; Santos, Igor; Sanz, Borja; Hidalgo, José María Gómez; Bringas, Pablo G. (23 de agosto de 2012). Negobot: un agente conversacional basado en la teoría de juegos para la detección de comportamientos pedófilos (PDF) . ISBN 978-3-642-33018-6. Archivado desde el original (PDF) el 17 de septiembre de 2013.
^ Wermter, Stephan; Ellen Riloff; Gabriele Scheler (1996). Enfoques conexionistas, estadísticos y simbólicos del aprendizaje para el procesamiento del lenguaje natural . Saltador.
^ Jurafsky, Dan; James H. Martín (2008). Procesamiento del habla y el lenguaje. Introducción al procesamiento del lenguaje natural, la lingüística computacional y el reconocimiento de voz (2ª ed.). Upper Saddle River (Nueva Jersey): Prentice Hall. pag. 2.
^ "SEM1A5 - Parte 1 - Una breve historia de la PNL" . Consultado el 25 de junio de 2010 .
^ Roger Schank , 1969, Un analizador de dependencia conceptual para el lenguaje natural Actas de la conferencia de 1969 sobre lingüística computacional, Sång-Säby, Suecia, páginas 1-3
^ Ibrahim, Amr Helmy. 2002. "Maurice Gross (1934-2001). À la mémoire de Maurice Gross". Hermes 34.
^ Dougherty, Ray. 2001. Carta en memoria de Maurice Gross.
^ "La programación con lenguaje natural realmente va a funcionar: Blog de Wolfram". 16 de noviembre de 2010.

Bibliografía

Crevier, Daniel (1993). IA: la tumultuosa búsqueda de la inteligencia artificial . Nueva York, Nueva York: BasicBooks. ISBN 0-465-02997-3.
McCorduck, Pamela (2004), Máquinas que piensan (2ª ed.), Natick, MA: AK Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627.
Russell, Stuart J .; Norvig, Peter (2003), Inteligencia artificial: un enfoque moderno (2ª ed.), Upper Saddle River, Nueva Jersey: Prentice Hall, ISBN 0-13-790395-2.