La traducción automática estadística fue reintroducida en 1991 por investigadores de la Thomas J. Watson Research Center de IBM[2] y ha contribuido al resurgimiento significativo del interés por la traducción automática en los últimos años.
se consigue escogiendo aquella que dé la probabilidad más alta: Para una aplicación rigurosa de éste se tendría que realizar una búsqueda exhaustiva por pasar por todas las cadenas
Como los sistemas de traducción no son capaces de almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto es suficiente.
Su retorno a escena se produce en 1991, con el sistema CANDIDE, desarrollado por un grupo de investigadores del Thomas J. Watson Center de IBM en Nueva York (Brown et al.
El experimento se realizó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos tres millones de oraciones en inglés y francés).
Los resultados sorprendieron a los propios investigadores, ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenían el mismo sentido aunque con palabras distintas.
El sistema no se llegó a comercializar, pero supuso un hito histórico en la reorientación de las investigaciones.
Por ejemplo, la palabra inglesa corner puede ser traducida en español por rincón o bien por esquina, dependiendo de si es en el sentido de su ángulo interno o externo.
La traducción simple basada en palabras no se puede traducir entre lenguas de diferente origen.
Por ejemplo, si quisiéramos traducir del francés al inglés, cada palabra en inglés podría producir cualquier cantidad de palabras francesas, y no al revés.
La mayor parte de sistemas basados en la frase siguen utilizando GIZA++ para alinear el corpus.
Los alineamientos se utilizan para extraer frases o deducir reglas de sintaxis.
[7] Y las palabras que coinciden en la bi-texto sigue siendo un problema discutido activamente en la comunidad.
Por ejemplo, usando el corpus bilingüe Hansard de Canadá, "oye" (en inglés, "hear") casi siempre se traducirá como "¡Bravo!"
Así, podemos hablar, por ejemplo, de lenguas tipo SVO (en la frase típica el sujeto encabeza la oración, sigue el verbo y finalmente se especifica el objeto), o de lenguas VSO, por poner los ejemplos más habituales.
También hay diferencias adicionales en este orden de palabras: por ejemplo, en qué posición se colocan los modificadores del sustantivo en cuanto al propio sustantivo -la expresión española "viaje inesperado" se convertiría en inglés en "unexpected journey", donde se invierte el orden de nombre y adjetivo-; diferencias en el orden de palabras en expresiones afirmativas, negaciones, preguntas o imperativos; aparición de verbos auxiliares en distintos puntos de la oración.
Así, en francés, podríamos tener la frase afirmativa "Il conduit un camion", que se traduciría al español palabra por palabra como (Él) conduce un camión.
Para SMT, el traductor automático sólo puede administrar pequeñas secuencias de palabras, y orden de las palabras tiene que ser pensada por el diseñador del programa.
Sistemas SMT almacenar formularios diferentes palabras como símbolos independientes sin ninguna relación entre sí y formas de la palabra o frases que no estaban en los datos de entrenamiento no se pueden traducir.
Esto podría ser debido a la falta de datos de entrenamiento, los cambios en el dominio humano, cuando se utilice el sistema, o las diferencias en la morfología.
Hay también diferencias adicionales, por ejemplo, en el orden en que se sitúan los modificadores de los sustantivos.
En el reconocimiento de la voz se pueden enlazar la señal del discurso y la representación textual en bloques ordenados.
Los sistemas de SMT almacenan formas léxicas diferentes como símbolos separados sin ninguna relación entre ellas y las formas léxicas o frases que no estaban en los datos de formación no pueden ser traducidos.