Un diccionario legible por máquina ( MRD ) es un diccionario que se almacena como datos legibles por máquina en lugar de estar impreso en papel. Es un diccionario electrónico y una base de datos léxica .
Un diccionario legible por máquina es un diccionario en formato electrónico que se puede cargar en una base de datos y se puede consultar a través de un software de aplicación. Puede ser un diccionario explicativo de un solo idioma o un diccionario multilingüe para admitir traducciones entre dos o más idiomas o una combinación de ambos. El software de traducción entre varios idiomas suele aplicar diccionarios bidireccionales. Un MRD puede ser un diccionario con una estructura propietaria que se consulta mediante un software dedicado (por ejemplo, en línea a través de Internet) o puede ser un diccionario que tiene una estructura abierta y está disponible para cargarse en bases de datos de computadora y, por lo tanto, se puede usar a través de varias aplicaciones de software. Los diccionarios convencionales contienen un lema con varias descripciones. Un diccionario legible por máquina puede tener capacidades adicionales y, por lo tanto, a veces se lo llama diccionario inteligente. Un ejemplo de un diccionario inteligente es el diccionario de inglés Gellish de código abierto .
El término diccionario también se usa para referirse a un vocabulario o léxico electrónico como se usa, por ejemplo, en los correctores ortográficos . Si los diccionarios están organizados en una jerarquía de subtipo-supertipo de conceptos (o términos), entonces se llama taxonomía . Si además contiene otras relaciones entre los conceptos, se denomina ontología . Los buscadores pueden utilizar un vocabulario, una taxonomía o una ontología para optimizar los resultados de búsqueda. Los diccionarios electrónicos especializados son diccionarios morfológicos o diccionarios sintácticos.
El término MRD se suele contrastar con el de diccionario NLP , en el sentido de que un MRD es la forma electrónica de un diccionario que antes se imprimía en papel. Aunque ambos son utilizados por programas, en cambio, se prefiere el término diccionario NLP cuando el diccionario se creó desde cero teniendo en cuenta el NLP. Existe un estándar ISO para MRD y NLP que puede representar ambas estructuras y se denomina Marco de marcado léxico . [1]
Los primeros diccionarios de bolsillo de gran difusión fueron el Merriam-Webster Seventh Collegiate (W7) y el Merriam-Webster New Pocket Dictionary (MPD). Ambos fueron producidos por un proyecto financiado por el gobierno en System Development Corporation bajo la dirección de John Olney. Se mecanografiaron manualmente ya que no había cintas de composición tipográfica disponibles de ninguno de los dos libros. Originalmente, cada uno se distribuyó en múltiples carretes de cinta magnética como imágenes de tarjetas con cada palabra separada de cada definición en una tarjeta perforada separada con numerosos códigos especiales que indicaban los detalles de su uso en el diccionario impreso. Olney esbozó un gran plan para el análisis de las definiciones en el diccionario, pero su proyecto expiró antes de que el análisis pudiera llevarse a cabo. Robert Amsler, de la Universidad de Texas en Austin, reanudó el análisis y completó una descripción taxonómica del Pocket Dictionary con financiación de la National Science Foundation , sin embargo, su proyecto expiró antes de que los datos taxonómicos pudieran distribuirse. Roy Byrd et al. en IBM Yorktown Heights reanudaron el análisis del Webster's Seventh Collegiate después del trabajo de Amsler. Finalmente, en la década de 1980, con el apoyo inicial de Bellcore y posteriormente financiados por varias agencias federales de Estados Unidos, entre ellas NSF, ARDA , DARPA , DTO y REFLEX, George Armitage Miller y Christiane Fellbaum de la Universidad de Princeton completaron la creación y amplia distribución de un diccionario y su taxonomía en el proyecto WordNet , que hoy en día se erige como el recurso de lexicología computacional de mayor distribución.