Corrector ortográfico

En software , un corrector ortográfico (o corrector ortográfico o corrector ortográfico ) es una función de software que comprueba si hay errores ortográficos en un texto . Las funciones de revisión ortográfica suelen estar integradas en software o servicios, como un procesador de textos , un cliente de correo electrónico , un diccionario electrónico o un motor de búsqueda .

Ojo, tengo un corrector ortográfico,
vino con mi Pea Sea.
El avión lee marca cuatro en mi revista
Miss Steaks. Puedo anudar el mar.

Los ojos golpean los muelles y escriben un zumbido
y el peso cuatro y dos dicen
Tiempo, los ojos estoy escribiendo el remo mal
. Me dice directamente un peso.

Ojo corrió este poema lo arrojó,
Tu orilla muy contenta dos no.
Su variedad es pulida en su peso.
Mi inspector me dijo que cosiera.

Una ficha es algo bendito,
congela vetas de tomillo.
Me ayuda a enderezar todos los estilos de enderezar,
y me ayuda cuando la vista está encendida.

Cada deshilachado aparece en mi pantalla.
El ojo está atado demasiado por un julio.
El corrector se vierte sobre cada palabra.
Regla ortográfica de dos sumas de control.

La versión original de este poema fue escrita por Jerrold H. Zar en 1992. Un corrector ortográfico sencillo encontrará pocos o ningún defecto en este poema porque verifica las palabras de forma aislada. Un corrector ortográfico más sofisticado utilizará un modelo de lenguaje para considerar el contexto en el que aparece una palabra.

Diseño

Un corrector ortográfico básico realiza los siguientes procesos:

Escanea el texto y extrae las palabras que contiene.
Luego compara cada palabra con una lista conocida de palabras escritas correctamente (es decir, un diccionario). Esto puede contener solo una lista de palabras o también puede contener información adicional, como puntos de separación de palabras o atributos léxicos y gramaticales.
Un paso adicional es un algoritmo dependiente del idioma para manejar la morfología . Incluso para un idioma con ligeras flexiones como el inglés , el corrector ortográfico deberá considerar diferentes formas de la misma palabra, como plurales, formas verbales, contracciones y posesivos . Para muchos otros idiomas, como aquellos que presentan aglutinación y declinación y conjugación más complejas, esta parte del proceso es más complicada.

No está claro si el análisis morfológico (que permite muchas formas de una palabra dependiendo de su función gramatical) proporciona un beneficio significativo para el inglés, aunque sus beneficios para idiomas altamente sintéticos como el alemán, el húngaro o el turco son claros.

Como complemento de estos componentes, la interfaz de usuario del programa permite a los usuarios aprobar o rechazar reemplazos y modificar el funcionamiento del programa.

Los correctores ortográficos pueden utilizar algoritmos aproximados de coincidencia de cadenas , como la distancia de Levenshtein, para encontrar la ortografía correcta de palabras mal escritas. ^[1] Un tipo alternativo de corrector ortográfico utiliza únicamente información estadística, como n-gramas , para reconocer errores en lugar de palabras escritas correctamente. Este enfoque suele requerir mucho esfuerzo para obtener suficiente información estadística. Las ventajas clave incluyen la necesidad de menos almacenamiento en tiempo de ejecución y la capacidad de corregir errores en palabras que no están incluidas en un diccionario. ^[2]

En algunos casos, los correctores ortográficos utilizan una lista fija de errores ortográficos y sugerencias para esos errores; Este enfoque menos flexible se utiliza a menudo en métodos de corrección en papel, como las entradas de enciclopedias.

También se han utilizado algoritmos de agrupamiento para la revisión ortográfica ^[3] combinados con información fonética. ^[4]

Historia

Pre-PC

En 1961, Les Earnest , que dirigió la investigación sobre esta incipiente tecnología, vio necesario incluir el primer corrector ortográfico que accedía a una lista de 10.000 palabras aceptables. ^[5] Ralph Gorin, un estudiante de posgrado de Earnest en ese momento, creó el primer verdadero programa de revisión ortográfica escrito como un programa de aplicaciones (en lugar de investigación) para textos en inglés general: SPELL para el DEC PDP-10 en el Laboratorio de Inteligencia Artificial de la Universidad de Stanford. , en febrero de 1971. ^[6] Gorin escribió SPELL en lenguaje ensamblador , para una acción más rápida; Hizo el primer corrector ortográfico buscando en la lista de palabras ortografías correctas plausibles que difieran en una sola letra o transposiciones de letras adyacentes y presentándolas al usuario. Gorin hizo que SPELL fuera accesible al público, como se hizo con la mayoría de los programas SAIL (Laboratorio de Inteligencia Artificial de Stanford), y pronto se extendió por todo el mundo a través de la nueva ARPAnet, unos diez años antes de que las computadoras personales se generalizaran. ^[7] SPELL, sus algoritmos y estructuras de datos inspiraron el programa ispell de Unix .

Los primeros correctores ortográficos estuvieron ampliamente disponibles en las computadoras centrales a fines de la década de 1970. Un grupo de seis lingüistas de la Universidad de Georgetown desarrolló el primer sistema de corrección ortográfica para la corporación IBM. ^[8]

Henry Kučera inventó uno para las máquinas VAX de Digital Equipment Corp en 1981. ^[9]

Unix

El programa International Ispell comúnmente utilizado en Unix se basa en SPELL de RE Gorin. Pace Willisson en el MIT lo convirtió a C. ^[10]

El proyecto GNU cuenta con su corrector ortográfico GNU Aspell . La principal mejora de Aspell es que puede sugerir con mayor precisión alternativas correctas para palabras en inglés mal escritas. ^[11]

Debido a la incapacidad de los correctores ortográficos tradicionales para verificar palabras en lenguajes con flexiones complejas, el húngaro László Németh desarrolló Hunspell , un corrector ortográfico que admite lenguajes aglutinantes y palabras compuestas complejas. Hunspell también utiliza Unicode en sus diccionarios. ^{[12] Hunspell reemplazó el}MySpell anterior en OpenOffice.org en la versión 2.0.2.

Enchant es otro corrector ortográfico general, derivado de AbiWord . Su objetivo es combinar programas que admitan diferentes idiomas como Aspell, Hunspell, Nuspell, Hspell (hebreo), Voikko (finlandés), Zemberek (turco) y AppleSpell en una sola interfaz. ^[13]

PC

Los primeros correctores ortográficos para computadoras personales aparecieron en 1980, como "WordCheck" para sistemas Commodore, que se lanzó a finales de 1980 a tiempo para que los anuncios se imprimieran en enero de 1981. ^[14] Desarrolladores como Maria Mariani ^[8] y Random House ^[15] se apresuró a introducir paquetes OEM o productos de usuario final en el mercado de software en rápida expansión. En las PC anteriores a Windows, estos correctores ortográficos eran programas independientes, muchos de los cuales podían ejecutarse en modo residente desde dentro de paquetes de procesamiento de textos en PC con suficiente memoria.

Sin embargo, el mercado de paquetes independientes duró poco, ya que a mediados de la década de 1980 los desarrolladores de paquetes populares de procesamiento de textos como WordStar y WordPerfect habían incorporado correctores ortográficos en sus paquetes, en su mayoría con licencia de las empresas antes mencionadas, que rápidamente ampliaron el soporte desde solo Inglés a muchos idiomas europeos y eventualmente incluso asiáticos . Sin embargo, esto requirió una creciente sofisticación en las rutinas morfológicas del software, particularmente con respecto a idiomas fuertemente aglutinantes como el húngaro y el finlandés . Aunque el tamaño del mercado de procesamiento de textos en un país como Islandia podría no haber justificado la inversión en implementar un corrector ortográfico, empresas como WordPerfect se esforzaron por localizar su software para tantos mercados nacionales como fuera posible como parte de su estrategia de marketing global .

Cuando Apple desarrolló "un corrector ortográfico para todo el sistema" para Mac OS X de modo que "el sistema operativo se hiciera cargo de las correcciones ortográficas", ^[16] fue una novedad: "no era necesario mantener un corrector ortográfico separado para cada uno". programa. ^{[17] La cobertura del corrector ortográfico de} Mac OS X incluye prácticamente todas las aplicaciones incluidas y de terceros.

VT Speller de Visual Tools , presentado en 1994, fue "diseñado para desarrolladores de aplicaciones compatibles con Windows". ^[18]^[19] Viene con un diccionario pero tenía la capacidad de construir e incorporar el uso de diccionarios secundarios. ^[20]

Navegadores

Los navegadores web como Firefox y Google Chrome ofrecen soporte de revisión ortográfica mediante Hunspell . Antes de usar Hunspell, Firefox y Chrome Chrome usaban MySpell y GNU Aspell , respectivamente. ^[21]

Especialidades

Algunos correctores ortográficos admiten diccionarios médicos por separado para ayudar a prevenir errores médicos. ^[22]^[23]^[24]

Funcionalidad

Los primeros correctores ortográficos fueron "verificadores" en lugar de "correctores". No ofrecieron sugerencias para palabras mal escritas. Esto fue útil para los errores tipográficos , pero no tanto para los errores lógicos o fonéticos. El desafío al que se enfrentaron los desarrolladores fue la dificultad de ofrecer sugerencias útiles para palabras mal escritas. Esto requiere reducir las palabras a una forma esquelética y aplicar algoritmos de coincidencia de patrones.

Podría parecer lógico que en lo que respecta a los diccionarios de corrección ortográfica, "cuanto más grandes, mejor", para que las palabras correctas no se marquen como incorrectas. Sin embargo, en la práctica, un tamaño óptimo para el inglés parece ser de unas 90.000 entradas. Si hay más que esto, las palabras mal escritas pueden omitirse porque se confunden con otras. Por ejemplo, un lingüista podría determinar, basándose en la lingüística de corpus , que la palabra baht es más frecuentemente un error ortográfico de bath o bat que una referencia a la moneda tailandesa. Por lo tanto, normalmente sería más útil si algunas personas que escriben sobre la moneda tailandesa sufrieran un ligero inconveniente que si se pasaran por alto los errores de ortografía de muchas más personas que hablan sobre los baños.

Los primeros correctores ortográficos de MS-DOS se utilizaron principalmente en modo de revisión desde paquetes de procesamiento de textos. Después de preparar un documento, un usuario escaneaba el texto en busca de errores ortográficos. Más tarde, sin embargo, se ofreció el procesamiento por lotes en paquetes como el efímero CoAuthor de Oracle y permitió al usuario ver los resultados después de procesar un documento y corregir sólo las palabras que se sabía que eran incorrectas. Cuando la memoria y la potencia de procesamiento se hicieron abundantes, la revisión ortográfica se realizó en segundo plano de forma interactiva, como ha sido el caso del programa Spellbound producido por Sector Software lanzado en 1987 y Microsoft Word desde Word 95.

Los correctores ortográficos se volvieron cada vez más sofisticados; ahora capaz de reconocer errores gramaticales . Sin embargo, incluso en el mejor de los casos, rara vez detectan todos los errores de un texto (como los errores homófonos ) y señalan los neologismos y las palabras extranjeras como errores ortográficos. No obstante, los correctores ortográficos pueden considerarse como un tipo de ayuda a la escritura en un idioma extranjero en el que los estudiantes de idiomas no nativos pueden confiar para detectar y corregir sus errores ortográficos en el idioma de destino. ^[25]

Revisión ortográfica de idiomas distintos del inglés

El inglés es inusual porque la mayoría de las palabras utilizadas en la escritura formal tienen una única ortografía que se puede encontrar en un diccionario típico, con la excepción de algunas jergas y palabras modificadas. En muchos idiomas, las palabras suelen concatenarse en nuevas combinaciones de palabras. En alemán, los sustantivos compuestos suelen surgir de otros sustantivos existentes. Algunas escrituras no separan claramente una palabra de otra, lo que requiere algoritmos de división de palabras. Cada uno de estos presenta desafíos únicos para los correctores ortográficos de idiomas distintos del inglés.

Correctores ortográficos sensibles al contexto

Se han realizado investigaciones sobre el desarrollo de algoritmos que sean capaces de reconocer una palabra mal escrita, incluso si la palabra en sí está en el vocabulario, en función del contexto de las palabras circundantes. Esto no sólo permite captar palabras como las del poema anterior, sino que mitiga el efecto perjudicial de ampliar los diccionarios, permitiendo reconocer más palabras. Por ejemplo, baht en el mismo párrafo que tailandés o Tailandia no se reconocería como un error ortográfico de baño . El ejemplo más común de errores detectados por un sistema de este tipo son los errores homófonos , como las palabras en negrita en la siguiente oración:

Su llegada también al mar si es carrete .

El algoritmo más exitoso hasta la fecha es el " algoritmo de corrección ortográfica basado en Winnow " de Andrew Golding y Dan Roth ^[26] , publicado en 1999, que es capaz de reconocer alrededor del 96% de los errores ortográficos sensibles al contexto, además de los errores comunes que no son palabras. errores de ortografía. Los correctores ortográficos sensibles al contexto aparecieron en las aplicaciones ahora desaparecidas Microsoft Office 2007 ^[27] y Google Wave . ^[28]

Los correctores gramaticales intentan solucionar problemas gramaticales más allá de los errores ortográficos, incluida la elección incorrecta de palabras.

Ver también

Wikiquote tiene citas relacionadas con el corrector ortográfico .

Referencias

^ Perner, Petra (5 de julio de 2010). Avances en minería de datos: aplicaciones y aspectos teóricos: Décima Conferencia Industrial, ICDM 2010, Berlín, Alemania, 12 al 14 de julio de 2010. Actas. Medios de ciencia y negocios de Springer. ISBN 978-3-642-14399-1.
^ Patente de EE. UU. 6618697, Método para la corrección de errores ortográficos y gramaticales basada en reglas
^ de Amorim, RC; Zampieri, M. (2013) Métodos eficaces de revisión ortográfica utilizando algoritmos de agrupación. Archivado el 17 de agosto de 2017 en las Actas de Wayback Machine sobre avances recientes en el procesamiento del lenguaje natural (RANLP2013). Hisar, Bulgaria. pag. 172-178.
^ Zampieri, M.; de Amorim, RC (2014) Entre el sonido y la ortografía: combinación de fonética y algoritmos de agrupación para mejorar la recuperación de la palabra objetivo. Actas de la novena Conferencia Internacional sobre Procesamiento del Lenguaje Natural (PolTAL). Apuntes de conferencias en informática (LNCS). Saltador. pag. 438-449.
^ Serio, Les. "Los primeros tres correctores ortográficos" (PDF) . Universidad Stanford. Archivado desde el original (PDF) el 22 de octubre de 2012 . Consultado el 10 de octubre de 2011 .
^ Peterson, James (diciembre de 1980). Programas informáticos para detectar y corregir errores ortográficos (PDF) . Consultado el 18 de febrero de 2011 .
^ Serio, Les. Legados visibles para el año 3000 (PDF) . Archivado desde el original (PDF) el 20 de julio de 2011 . Consultado el 18 de febrero de 2011 .
^ ab "Facultad y personal de la Universidad de Georgetown: el centro para el lenguaje, la educación y el desarrollo". Archivado desde el original el 5 de febrero de 2009 . Consultado el 18 de diciembre de 2008 ., cita: "Maria Mariani... formó parte de un grupo de seis lingüistas de la Universidad de Georgetown que desarrollaron el primer sistema de corrección ortográfica para la corporación IBM".
^ Harvey, Charlotte Bruce (mayo-junio de 2010). "Enseñar la ortografía a las computadoras (obituario de Henry Kučera)". Revista Brown Alumni . pag. 79.
^ "Ispell internacional". www.cs.hmc.edu . Consultado el 19 de febrero de 2023 .
^ "GNU Aspell". aspell.net . Consultado el 19 de febrero de 2023 .
^ "Hunspell: Acerca de". hunspell.github.io . Consultado el 19 de febrero de 2023 .
^ AbiWord / encantar, AbiWord, 13 de febrero de 2023 , consultado el 19 de febrero de 2023
^ Anuncio (enero de 1981). "Micro Computer Industries, Ltd" (PDF) . ¡Calcular! Revista, número 8, vol. 3, n° 1 . pag. 119.
^ Anuncio (noviembre de 1982). "El concurso de ortografía ha terminado". Revista PC . pag. 165 . Consultado el 21 de octubre de 2013 .
^ David Pogue (2009). Mac OS X Snow Leopard: el manual perdido .
^ David Pogue (2015). Cambiar a Mac: el manual que falta. "O'Reilly Media, Inc.". ISBN 9781491948125.
^ "VisualTools VT-Speller". Mundo de la informática . 21 de febrero de 1994. p. 68.
^ "Navegar el 27 de septiembre de 1993". VT-SPELLER
^ Peter G. Aitken (8 de noviembre de 1994). "Revisión ortográfica de sus aplicaciones". Revista PC . pag. 299.
^ "Aspell y Hunspell: una historia de dos correctores ortográficos". battlepenguin.com .
^ "Corrector ortográfico médico para Firefox y Thunderbird". e-MedTools. 2017. Archivado desde el original el 4 de mayo de 2019 . Consultado el 29 de agosto de 2018 .
^ Quathamer, Dr. Tobias (2016). "Palabras del diccionario médico alemán". Dr. Tobías Quathamer . Consultado el 29 de agosto de 2018 .
^ Friedman, Richard A.; D, M (2003). "CASOS; ¿Cuentan la ortografía y la caligrafía? En medicina, usted apuesta". Los New York Times . Consultado el 29 de agosto de 2018 .
^ Bancos, T. (2008). Dificultades en el aprendizaje de lenguas extranjeras y estrategias de enseñanza. (págs. 29). Tesis de Maestría, Universidad Dominicana de California. Consultado el 19 de marzo de 2012.
^ Golding, Andrew R.; Roth, Dan (1999). "Artículo de revista". Aprendizaje automático . Enlace Springer. 34 : 107-130. doi :10.1023/A:1007545901558. S2CID 12283016.
^ Walt Mossberg (4 de enero de 2007). "Revisar". Wall Street Journal . Consultado el 24 de septiembre de 2010 .
^ "Sistema operativo de Google". googlesystem.blogspot.com. 29 de mayo de 2009 . Consultado el 25 de septiembre de 2010 . "Corrector ortográfico sensible al contexto de Google". 29 de mayo de 2009 . Consultado el 25 de septiembre de 2010 .

enlaces externos

Wikimedia Commons tiene medios relacionados con la revisión ortográfica .

Lista de correctores ortográficos en Curlie
Norvig.com, "Cómo escribir un corrector ortográfico", por Peter Norvig
BBK.ac.uk, "Corrección ortográfica por ordenador", por Roger Mitton
CBSNews.com, La muleta del corrector ortográfico reduce la corrección, por Lloyd de Vries
Historia y texto de "Candidate for a Pullet Surprise" de Mark Eckman y Jerrold H. Zar