stringtranslate.com

Longitud mínima del mensaje

La longitud mínima del mensaje ( MML ) es un método teórico de la información bayesiano para la comparación y selección de modelos estadísticos. [1] Proporciona una reformulación de la teoría de la información formal de la navaja de Occam : incluso cuando los modelos son iguales en su medida de precisión de ajuste a los datos observados, el que genera la explicación más concisa de los datos tiene más probabilidades de ser correcto (donde la explicación consiste en la declaración del modelo, seguida de la codificación sin pérdida de los datos utilizando el modelo establecido). MML fue inventado por Chris Wallace , apareciendo por primera vez en el artículo seminal "Una medida de información para la clasificación". [2] MML no está pensado solo como una construcción teórica, sino como una técnica que puede implementarse en la práctica. [3] Se diferencia del concepto relacionado de complejidad de Kolmogorov en que no requiere el uso de un lenguaje Turing-completo para modelar datos. [4]

Definición

En Una teoría matemática de la comunicación (1948) de Shannon se afirma que en un código óptimo, la longitud del mensaje (en binario) de un evento , , donde tiene probabilidad , viene dada por .

El teorema de Bayes establece que la probabilidad de una hipótesis (variable) dada una evidencia fija es proporcional a , que, por la definición de probabilidad condicional , es igual a . Queremos el modelo (hipótesis) con la mayor probabilidad posterior . Supongamos que codificamos un mensaje que representa (describe) tanto el modelo como los datos conjuntamente. Como , el modelo más probable tendrá el mensaje más corto. El mensaje se divide en dos partes: . La primera parte codifica el modelo en sí. La segunda parte contiene información (por ejemplo, valores de parámetros o condiciones iniciales, etc.) que, cuando es procesada por el modelo, genera los datos observados.

MML intercambia de forma natural y precisa la complejidad del modelo por la bondad del ajuste. Un modelo más complicado lleva más tiempo en enunciar (primera parte más larga), pero probablemente se ajuste mejor a los datos (segunda parte más corta). Por lo tanto, una métrica MML no elegirá un modelo complicado a menos que ese modelo se amortice por sí solo.

Parámetros de valor continuo

Una razón por la que un modelo podría ser más largo sería simplemente porque sus diversos parámetros se expresan con mayor precisión, lo que requiere la transmisión de más dígitos. Gran parte de la potencia de MML se deriva de su manejo de la precisión con la que se deben expresar los parámetros en un modelo y de una variedad de aproximaciones que hacen que esto sea factible en la práctica. Esto permite comparar de manera útil, por ejemplo, un modelo con muchos parámetros expresados ​​de manera imprecisa con un modelo con menos parámetros expresados ​​con mayor precisión.

Características principales de MML

Véase también

Referencias

  1. ^ Wallace, CS (Christopher S.), -2004. (2005). Inferencia estadística e inductiva por longitud mínima de mensaje . Nueva York: Springer. ISBN 9780387237954.OCLC 62889003  .{{cite book}}: CS1 maint: nombres múltiples: lista de autores ( enlace ) CS1 maint: nombres numéricos: lista de autores ( enlace )
  2. ^ Wallace, CS; Boulton, DM (1968-08-01). "Una medida de información para la clasificación". The Computer Journal . 11 (2): 185–194. doi : 10.1093/comjnl/11.2.185 . ISSN  0010-4620.
  3. ^ Allison, Lloyd. (2019). Codificación de la navaja de Ockham . Springer. ISBN 978-3030094881.OCLC 1083131091  .
  4. ^ ab Wallace, CS; Dowe, DL (1999-01-01). "Longitud mínima del mensaje y complejidad de Kolmogorov". The Computer Journal . 42 (4): 270–283. doi :10.1093/comjnl/42.4.270. ISSN  0010-4620.

Enlaces externos

Publicación original:

Libros:

Enlaces relacionados: