La interfaz de usuario en lenguaje natural ( LUI o NLUI ) es un tipo de interfaz humana-computadora donde fenómenos lingüísticos como verbos, frases y cláusulas actúan como controles de UI para crear, seleccionar y modificar datos en aplicaciones de software.
Las interfaces de texto son "naturales" en distintos grados. Muchos lenguajes de programación formales (no naturales) incorporan expresiones idiomáticas del lenguaje humano natural. De la misma manera, un motor de búsqueda de palabras clave tradicional podría describirse como una interfaz de usuario de lenguaje natural "superficial".
Descripción general
En teoría, un motor de búsqueda en lenguaje natural encontraría respuestas específicas a las preguntas de los usuarios (a diferencia de la búsqueda por palabras clave). Por ejemplo, cuando se les plantea una pregunta del tipo "¿qué estado de EE. UU . tiene el impuesto sobre la renta más alto ?", los motores de búsqueda convencionales ignoran la pregunta y, en su lugar, buscan las palabras clave "estado", "renta" e "impuesto". La búsqueda en lenguaje natural, por otro lado, intenta utilizar el procesamiento del lenguaje natural para comprender la naturaleza de la pregunta y luego buscar y devolver un subconjunto de la web que contiene la respuesta a la pregunta. Si funciona, los resultados tendrían una mayor relevancia que los resultados de un motor de búsqueda por palabras clave, debido a que se incluye la pregunta. [ cita requerida ]
Historia
Los prototipos de interfaces Nl ya habían aparecido a finales de los años sesenta y principios de los setenta. [2]
SHRDLU , una interfaz de lenguaje natural que manipula bloques en un "mundo de bloques" virtual
Lunar , una interfaz en lenguaje natural para una base de datos que contiene análisis químicos de las rocas lunares del Apolo 11 por William A. Woods.
Chat-80 transformó las preguntas en inglés en expresiones Prolog , que se evaluaron en la base de datos Prolog. El código de Chat-80 se distribuyó ampliamente y formó la base de varias otras interfaces Nl experimentales. Hay una demostración en línea disponible en el sitio web de LPA. [3]
ELIZA , escrito en el MIT por Joseph Weizenbaum entre 1964 y 1966, imitaba a un psicoterapeuta y funcionaba procesando las respuestas de los usuarios a los guiones. Utilizando casi ninguna información sobre el pensamiento o la emoción humana, el guión DOCTOR a veces proporcionaba una interacción sorprendentemente similar a la humana. Hay una demostración en línea disponible en el sitio web de LPA. [4]
Janus es también uno de los pocos sistemas que admiten cuestiones temporales.
Intelecto de Trinzic (formado por la fusión de AICorp y Aion).
El lenguaje Parlance de BBN se basó en la experiencia del desarrollo de los sistemas Rus e Irus .
En el pasado, las interfaces en lenguaje natural han llevado a los usuarios a antropomorfizar el ordenador o, al menos, a atribuirle a las máquinas más inteligencia de la que se justifica. Esto ha llevado al usuario a tener expectativas poco realistas sobre las capacidades del sistema. Esas expectativas dificultarán el aprendizaje de las restricciones del sistema si los usuarios le atribuyen demasiadas capacidades y, en última instancia, conducirán a una decepción cuando el sistema no funcione como se esperaba, como sucedió en el invierno de la IA de los años 70 y 80.
Un artículo de 1995 titulado 'Interfaces de lenguaje natural para bases de datos: una introducción' describe algunos desafíos: [2]
Modificador adjunto
La solicitud "Enumere todos los empleados de la empresa con licencia de conducir" es ambigua a menos que sepa que las empresas no pueden tener licencias de conducir.
Conjunción y disyunción
"Enumere a todos los solicitantes que viven en California y Arizona" es ambiguo a menos que sepa que una persona no puede vivir en dos lugares a la vez.
Resolver lo que un usuario quiere decir con 'él', 'ella' o 'eso', en una consulta autorreferencial.
Otros objetivos a tener en cuenta de forma más general son la velocidad y la eficiencia de la interfaz; en todos los algoritmos, estos dos puntos son los principales que determinarán si algunos métodos son mejores que otros y, por lo tanto, tienen mayor éxito en el mercado. Además, la localización en sitios en varios idiomas requiere una consideración adicional; esto se basa en las diferentes estructuras de oraciones y variaciones de sintaxis del idioma entre la mayoría de los idiomas.
Por último, en cuanto a los métodos utilizados, el principal problema a resolver es la creación de un algoritmo general que pueda reconocer todo el espectro de voces diferentes, sin tener en cuenta la nacionalidad, el género o la edad. Es necesario superar las diferencias significativas entre los rasgos extraídos, incluso entre hablantes que dicen la misma palabra o frase.
Usos y aplicaciones
La interfaz de lenguaje natural da lugar a tecnología utilizada para muchas aplicaciones diferentes.
Algunos de los principales usos son:
El dictado es el uso más común de los sistemas de reconocimiento automático de voz (ASR) en la actualidad. Esto incluye transcripciones médicas, dictados legales y comerciales y procesamiento de textos en general. En algunos casos, se utilizan vocabularios especiales para aumentar la precisión del sistema.
Comando y control : los sistemas ASR que están diseñados para realizar funciones y acciones en el sistema se definen como sistemas de comando y control. Expresiones como "Abrir Netscape" e "Iniciar un nuevo xterm" harán justamente eso.
Telefonía : algunos sistemas PBX/ Buzón de voz permiten a las personas que llaman decir comandos en lugar de presionar botones para enviar tonos específicos.
Dispositivos portátiles : debido a que las entradas para estos dispositivos son limitadas, hablar es una posibilidad natural.
Por razones médicas o de discapacidad , muchas personas tienen dificultades para escribir debido a limitaciones físicas como lesiones por esfuerzo repetitivo (LER), distrofia muscular y muchas otras. Por ejemplo, las personas con dificultades auditivas podrían utilizar un sistema conectado a su teléfono para convertir el habla de la persona que llama en texto.
Aplicaciones integradas : algunos teléfonos celulares nuevos incluyen reconocimiento de voz C&C que permite expresiones como "llamar a casa". Este puede ser un factor importante en el futuro del reconocimiento automático de voz y Linux .
A continuación se nombran y definen algunas de las aplicaciones que utilizan el reconocimiento de lenguaje natural y que, por lo tanto, tienen utilidades integradas enumeradas anteriormente.
Ubicuidad
Ubiquity, un complemento para Mozilla Firefox , es una colección de comandos derivados del lenguaje natural, rápidos y sencillos, que actúan como combinaciones de servicios web, permitiendo así a los usuarios obtener información y relacionarla con páginas web actuales y otras.
Wolfram Alfa
Wolfram Alpha es un servicio en línea que responde a consultas factuales directamente calculando la respuesta a partir de datos estructurados, en lugar de proporcionar una lista de documentos o páginas web que podrían contener la respuesta como lo haría un motor de búsqueda . [5] Fue anunciado en marzo de 2009 por Stephen Wolfram y se lanzó al público el 15 de mayo de 2009. [6]
Las afirmaciones de marketing de Siri incluyen que se adapta a las preferencias individuales del usuario a lo largo del tiempo y personaliza los resultados, y realiza tareas como hacer reservas para cenar mientras intenta tomar un taxi. [7]
Otros
Ask.com – La idea original detrás de Ask Jeeves (Ask.com) era la búsqueda tradicional por palabras clave con la capacidad de obtener respuestas a preguntas planteadas en lenguaje cotidiano y natural. La versión actual de Ask.com aún admite esta función, con soporte adicional para preguntas de matemáticas, diccionario y conversión.
Braina [8] – Braina es una interfaz de lenguaje natural para el sistema operativo Windows que permite escribir o decir oraciones en inglés para realizar una determinada acción o encontrar información.
GNOME Do – Permite encontrar rápidamente diversos artefactos del entorno GNOME (aplicaciones, contactos de Evolution y Pidgin, marcadores de Firefox, artistas y álbumes de Rhythmbox, etc.) y ejecutar acciones básicas en ellos (iniciar, abrir, enviar correo electrónico, chatear, reproducir, etc.). [9]
hakia – hakia era un motor de búsqueda en Internet. La empresa inventó una nueva infraestructura alternativa a la indexación que utilizaba el algoritmo SemanticRank, una combinación de soluciones de las disciplinas de la semántica ontológica, la lógica difusa, la lingüística computacional y las matemáticas. hakia cerró en 2014.
Lexxe – Lexxe era un motor de búsqueda de Internet que utilizaba el procesamiento del lenguaje natural para las consultas (búsqueda semántica). Las búsquedas podían realizarse con palabras clave, frases y preguntas, como "¿Qué antigüedad tiene Wikipedia?". Lexxe cerró sus servicios de motor de búsqueda en 2015.
Pikimal : Pikimal utilizaba lenguaje natural vinculado a las preferencias del usuario para realizar recomendaciones de búsqueda por plantilla. Pikimal cerró en 2015.
Powerset – El 11 de mayo de 2008, la compañía presentó una herramienta para buscar en un subconjunto fijo de Wikipedia utilizando frases conversacionales en lugar de palabras clave. [10] El 1 de julio de 2008, fue adquirida por Microsoft . [11]
Q-go : la tecnología Q-go ofrece respuestas relevantes a las consultas de los usuarios en el sitio web de una empresa o en la intranet corporativa, formuladas en oraciones naturales o mediante palabras clave. Q-go fue adquirida por RightNow Technologies en 2011.
Yebol – Yebol era un motor de búsqueda de “decisiones” vertical que había desarrollado una plataforma de búsqueda semántica basada en el conocimiento. Los algoritmos de inteligencia artificial e inteligencia humana de Yebol agrupaban y categorizaban automáticamente los resultados de búsqueda, los sitios web, las páginas y el contenido que presentaba en un formato indexado visualmente que se alineaba más con la intención humana inicial. Yebol utilizaba algoritmos de asociación, clasificación y agrupamiento para analizar palabras clave o páginas web relacionadas. Yebol integraba el procesamiento del lenguaje natural, sistemas complejos abiertos diseñados con metasintética y algoritmos de máquina con el conocimiento humano para cada consulta para establecer un directorio web que realmente “aprende”, utilizando algoritmos de correlación, agrupamiento y clasificación para generar automáticamente la consulta de conocimiento, que se conservaba y se regeneraba hacia adelante. [12]
^ Hill, I. (1983). "Lenguaje natural versus lenguaje informático". En M. Sime y M. Coombs (Eds.) Diseño para la comunicación entre humanos y ordenadores. Academic Press.
^ ab Interfaces de lenguaje natural para bases de datos: una introducción, I. Androutsopoulos, GD Ritchie, P. Thanisch, Departamento de Inteligencia Artificial, Universidad de Edimburgo
^ "Demostración de Chat-80". Archivado desde el original el 11 de noviembre de 2016 . Consultado el 29 de enero de 2018 .
^ "Demostración de ELIZA". Archivado desde el original el 26 de noviembre de 2016 . Consultado el 29 de enero de 2018 .
^ Johnson, Bobbie (9 de marzo de 2009). «El motor de búsqueda británico «podría rivalizar con Google»». The Guardian . Consultado el 9 de marzo de 2009 .
^ "Demasiado para un lanzamiento silencioso". Wolfram Alpha Blog. 8 de mayo de 2009. Consultado el 20 de octubre de 2009 .
^ "iOS - Siri". Apple . Consultado el 29 de enero de 2018 .
^ "Braina - Software de inteligencia artificial para Windows". www.brainasoft.com . Consultado el 29 de enero de 2018 .
^ Descripción de Agregar o quitar aplicaciones de Ubuntu 10.04 para GNOME
^ Helft, Miguel (12 de mayo de 2008). "Powerset debuta con la búsqueda en Wikipedia". Los New York Times .
^ Johnson, Mark (1 de julio de 2008). "Microsoft adquirirá Powerset". Blog de Powerset. Archivado desde el original el 25 de febrero de 2009.
^ Humphries, Matthew. "Yebol.com entra en el mercado de búsquedas" Archivado el 15 de marzo de 2012 en Wayback Machine Geek.com . 31 de julio de 2009.