viene definida por la ecuación: siempre que dicho límite exista.
Una cantidad relacionada con la ratio de entropía ( H(X) ) es: cuando dicho límite existe.
Para proceso estocásticos estacionarios se cumple H(X)=H'(X) Un idioma o lengua, es un sistema de comunicación verbal o gestual propio de una comunidad humana.
No sería necesario usar todos los símbolos que usamos para expresar algo.
Por ejemplo si queremos transmitir el mensaje "This is a suny day" podríamos usar la expresión "This is a suny dy" de forma que el receptor nos entendería igual.
En otras palabras, si un alfabeto consta de L elementos, existirán
(con r la ratio del idioma) mensajes que tengan sentido Para el castellano se estima que el ratio está entre 1.2 y 1.5.
Este valor identifica el máximo número de bits que pueden ser codificados con cada carácter (símbolo) asumiendo que cada carácter de la secuencia es equiprobable.
Este valor muestra cuanto puede ser reducido la longitud de un texto en un idioma sin perder ninguna información.
expresará porcentualmente que tan redundante es el lenguaje utilizado.
Estos métodos se han aplicado habitualmente al idioma inglés pero, en general, esos métodos son aplicables a cualquier otro idioma obteniendo su propio valor aproximado.
Vamos a ver los métodos propuestos más importantes y cuales han sido los resultados para el idioma inglés.
Para ello Shannon propone una serie de lenguajes artificiales que convergen con el idioma y que van aproximándose cada vez más a él.
En cada paso se van cogiendo más características del idioma pareciéndose cada vez más a él y por tanto la incertidumbre de cada símbolo, condicionada por el conocimiento de los anteriores, se va reduciendo.
De esta forma va acotando paulatinamente la ratio del idioma.
La serie de lenguajes artificiales que propone son los siguientes: Sin embargo estos valores sólo sirven para acotar ya que no capturan toda la estructura del idioma, sólo capturan una parte (aunque cada vez más importante).
El método consiste en coger un ejemplo de texto suficientemente largo y preguntar sucesivamente a un humano que adivine la próxima letra.
Si fallara contestaría con el siguiente más probable y así sucesivamente.
Muchas letras requerirán sólo un intento, sin embargo otras serán más difíciles (por ejemplo las iniciales de palabras o frases).
Usando este método con distintos textos independientes podemos hacer una estimación de la ratio del idioma ya que podemos conjeturar que la entropía de las secuencia a adivinar es la entropía del idioma.
En este enfoque hacemos que un sujeto humano apueste sobre la próxima letra de un texto en inglés.
En este caso, la elección óptima es proporcional a la probabilidad condicional de la próxima letra.
La apuesta de forma secuencial es equivalente a apostar sobre la secuencia completa.
Por tanto la apuesta después de n letras puede ser escrita como: donde