Proyecto Moby

El Proyecto Moby es una colección de recursos léxicos de dominio público creada por Grady Ward . Los recursos se dedicaron al dominio público y ahora se reflejan en el Proyecto Gutenberg . A partir de 2007 ^[update], contiene la base de datos fonética gratuita más grande, con 177.267 palabras y sus pronunciaciones correspondientes. ^[1]

Separador de sílabas

Moby Hyphenator II contiene separaciones de palabras de 187.175 palabras y frases (incluidas 9.752 entradas donde no se proporcionan separaciones de palabras, como a través y avoir ). La codificación de caracteres parece ser MacRoman y la separación de palabras se indica mediante una viñeta ( ⟨•⟩ , valor de carácter 165 decimal o A5 hexadecimal). Algunas entradas, sin embargo, tienen una combinación de guiones reales y el carácter 165, como "barbero-cirujano".

Hay poca o ninguna documentación sobre las elecciones de separación de palabras realizadas; los siguientes ejemplos pueden dar una idea del estilo de separación de palabras utilizado: at•mos•phere; asistente; capacidad; incoloro.

Idiomas

Moby Language II contiene listas de palabras de cinco idiomas: francés , alemán , italiano , japonés y español . Sus estadísticas son:

Sin embargo, algunas de las listas están contaminadas: por ejemplo, la lista japonesa contiene palabras en inglés como anormal y no palabras como abcdefgh y m,./ . También hay peculiaridades inusuales en la clasificación de estas listas, ya que la lista francesa contiene una lista alfabética directa, mientras que la lista alemana contiene la lista alfabética de palabras tradicionalmente en mayúsculas y luego la lista alfabética de palabras tradicionalmente en minúsculas. La lista de palabras italianas, sin embargo, no contiene ninguna palabra en mayúscula.

Las listas no utilizan caracteres acentuados, por lo que "e^tre" es la forma en que un usuario buscaría la palabra francesa être ("ser").

Parte del discurso

Moby Part-of-Speech contiene 233,356 palabras completamente descritas por parte(s) del discurso , enumeradas en orden de prioridad. El formato del archivo es word\parts-of-speech , identificándose las siguientes partes del discurso:

pronunciador

Moby Pronunciator II contiene 177.267 entradas con sus correspondientes pronunciaciones. La mayoría de las entradas describen una sola palabra, pero aproximadamente 79.000 ^[2] contienen frases, nombres o lexemas con guiones o varias palabras . La distribución del Proyecto Gutenberg también contiene una copia del cmudict v0.3. El archivo contiene líneas con el formato palabra[/part-of-speech] pronunciación . Cada línea termina con el carácter de retorno de carro ASCII (CR, '\r', 0x0D, 13 en decimal).

El campo de palabras puede incluir apóstrofes (p. ej. , no es ), guiones (p. ej., capaz ) y varias palabras separadas por guiones bajos (p. ej., Monkey_wrench ). Las palabras que no están en inglés generalmente se traducen, como se indica en la documentación, sin acentos ni otros signos diacríticos. Sin embargo, en 36 entradas (por ejemplo, São_Miguel ), quedan algunos caracteres acentuados no ASCII, representados mediante codificación Mac OS Roman .

El campo de parte del discurso se utiliza para eliminar la ambigüedad de 770 de las palabras que tienen diferentes pronunciaciones dependiendo de su parte del discurso. Por ejemplo, para las palabras escritas cerca, el verbo tiene la pronunciación / ˈ k l oʊ z / , mientras que el adjetivo es / ˈ k l oʊ s / . A las partes del discurso se les han asignado los siguientes códigos:

A continuación viene la pronunciación. Están presentes varios símbolos especiales:

El resto de los símbolos se utilizan para representar caracteres IPA . Las pronunciaciones son generalmente consistentes con un dialecto americano general del inglés, que exhibe fusión padre-molesta , fusión prisa-peludo y división de tela , pero no exhibe fusión atrapada en el catre o fusión vino-quejido . Cada fonema está representado por una secuencia de uno o más caracteres. Algunas de las secuencias están delimitadas con una barra diagonal "/", como se muestra en la siguiente tabla, pero tenga en cuenta que la secuencia de / ɔɪ / está delimitada por dos barras diagonales en cada extremo:

A esta colección se añaden una serie de secuencias adicionales que representan fonemas que se encuentran en varios otros idiomas. Se utilizan para codificar las palabras, frases y nombres que no están en inglés y que se incluyen en la base de datos. La siguiente tabla contiene estos fonemas adicionales, pero tenga en cuenta que no está claro hasta qué punto algunos de ellos pueden existir debido a errores de codificación.

Shakespeare

Moby Shakespeare contiene las obras completas íntegras de Shakespeare . Este recurso específico no está disponible en el Proyecto Gutenberg, pero sí en una versión de 1993 en la web. ^[3]

Tesauro

El Moby Thesaurus II contiene 30.260 palabras raíz, con 2.520.264 sinónimos y términos relacionados, un promedio de 83,3 por palabra raíz. Cada línea consta de una lista de valores separados por comas , siendo el primer término la palabra raíz y todas las palabras siguientes términos relacionados.

Grady Ward colocó este diccionario de sinónimos en el dominio público en 1996. También está disponible como paquete Debian , aunque el paquete se ha descontinuado a partir de Bullseye . ^[4]

Palabras

Moby Words II es la lista de palabras más grande del mundo. ^[1]^{[ se necesitan citas adicionales ]} La distribución consta de los siguientes 16 archivos:

Referencias

^ ab "Enlaces de recursos de ACL SIGLEX". Grupo de Interés Especial sobre el Léxico de la Asociación de Lingüística Computacional. 13 de agosto de 2004. Archivado desde el original el 15 de diciembre de 2018 . Consultado el 9 de mayo de 2022 . Moby Words: más de 610.000 palabras y frases. La lista de palabras más grande del mundo.
^ Obtenido ejecutando el comando UNIX grep '.*[-_].* .*' mobypron.unc | wc -l después de convertir los finales de línea y corregir algunos errores de codificación.
^ mobyshak.txt versión 1993
^ Tosi, Sandro (13 de julio de 2020). "RM: dict-moby-thesaurus - RoQA; aguas arriba muertas (más de 10 años); solo python2; sin departamentos externos [sic]; popcon extremadamente bajo". Registros de informes de errores de Debian . Consultado el 10 de mayo de 2022 .

enlaces externos

Página de inicio del Proyecto Moby, Universidad de Sheffield; copia realizada por Wayback Machine de la página tal como estaba el 30 de septiembre de 2017. ("Última modificación: 24 de octubre de 2000") sitio de descarga en funcionamiento.
Descargas del Proyecto Gutenberg
Buscando rimas con Perl ; código correspondiente
Wikcionario: Apéndice: Moby Thesaurus II