Algoritmo para indexar palabras por su pronunciación
Un algoritmo fonético es un algoritmo para indexar palabras por su pronunciación . La mayoría de los algoritmos fonéticos fueron desarrollados para el inglés y no son útiles para indexar palabras en otros idiomas. [ 1] Debido a que la ortografía del inglés varía significativamente dependiendo de múltiples factores, como el origen y el uso de la palabra a lo largo del tiempo y los préstamos de otros idiomas, los algoritmos fonéticos necesariamente tienen en cuenta numerosas reglas y excepciones. [2]
Algoritmos
Entre los algoritmos fonéticos más conocidos se encuentran:
- Soundex , que fue desarrollado para codificar apellidos para su uso en censos. Los códigos Soundex son cadenas de cuatro caracteres compuestas por una sola letra seguida de tres números.
- Soundex de Daitch–Mokotoff , que es una versión mejorada de Soundex diseñada para que coincida mejor con los apellidos de origen eslavo y germánico. Los códigos Soundex de Daitch–Mokotoff son cadenas compuestas por seis dígitos numéricos.
- Fonética de Colonia : es similar a Soundex, pero más adecuado para palabras alemanas.
- Metaphone y Double Metaphone son adecuados para su uso con la mayoría de las palabras en inglés, no solo con los nombres. Los algoritmos de Metaphone son la base de muchos correctores ortográficos populares .
- Sistema de identificación e inteligencia del estado de Nueva York (NYSIIS), que asigna fonemas similares a la misma letra. El resultado es una cadena que el lector puede pronunciar sin necesidad de decodificar.
- Enfoque de calificación de coincidencia desarrollado por Western Airlines en 1977: este algoritmo tiene una técnica de codificación y comparación de rango.
- Caverphone , creado para ayudar en la comparación de datos entre los padrones electorales de finales del siglo XIX y principios del siglo XX, optimizado para los acentos presentes en algunas partes de Nueva Zelanda.
Usos comunes
- Los correctores ortográficos suelen contener algoritmos fonéticos. El algoritmo Metaphone , por ejemplo, puede tomar una palabra mal escrita y crear un código. El código se busca en un directorio para encontrar palabras con la misma o similar Metaphone. Las palabras que tienen la misma o similar Metaphone se convierten en posibles alternativas de ortografía.
- La función de búsqueda suele utilizar algoritmos fonéticos para encontrar resultados que no coincidan exactamente con los términos utilizados en la búsqueda. La búsqueda de nombres puede resultar difícil, ya que suelen existir múltiples grafías alternativas para los nombres. Un ejemplo es el nombre Claire. Tiene dos alternativas, Clare/Clair, que se pronuncian de la misma forma. La búsqueda de una de las grafías no arrojaría resultados para las otras dos. Al utilizar Soundex, las tres variaciones producen el mismo código Soundex, C460. Al buscar nombres según el código Soundex, se obtendrán las tres variaciones.
- Los esfuerzos de deduplicación de datos utilizan algoritmos fonéticos para agrupar fácilmente los registros en grupos de nombres que suenan similares para una evaluación posterior.
- Los módulos de voz a texto utilizan codificación fonética para encontrar el conjunto de palabras del diccionario que se pronuncian de manera similar a los fonemas emitidos por la señal de audio procesada.
Véase también
Referencias
- ^ Li, Nan; Hitchcock, Peter; Blustein, James; Bliemel, Michael (2011). H. Raghav Rao; Raj Sharman; TS Raghu (eds.). Explorando los grandes desafíos para la próxima generación de negocios electrónicos: 8.º taller sobre negocios electrónicos, WEB 2009, Phoenix, AZ, EE. UU., 15 de diciembre de 2009, Documentos seleccionados revisados. Berlín: Springer. pág. 232. ISBN 9783642174483. Recuperado el 31 de diciembre de 2020 .
- ^ Cohen, Eli B. (2009). Cultivando información: Parte 2. Santa Rosa, California: Informing Science. pág. 498. ISBN 978-1-932886-17-7.
Enlaces externos
- Algoritmo para convertir palabras en fonemas y viceversa.
- Proyecto StringMetric, una biblioteca Scala de algoritmos fonéticos.
- Proyecto clj-fuzzy una biblioteca Clojure de algoritmos fonéticos.
- Biblioteca SoundexBR de algoritmo fonético implementado en R.
- Talisman es una biblioteca de JavaScript que recopila varios algoritmos fonéticos que se pueden probar en línea.