stringtranslate.com

Principio de los grupos de transformación

El principio de grupos de transformación es una metodología para asignar probabilidades previas en cuestiones de inferencia estadística , inicialmente propuesta por el físico ET Jaynes . [1] Se considera como una extensión del principio de indiferencia .

Las probabilidades previas determinadas por este principio son objetivas en el sentido de que se basan únicamente en las características inherentes del problema, lo que garantiza que dos personas que apliquen el principio al mismo asunto asignarán probabilidades previas idénticas. Por lo tanto, este principio es parte integral de la interpretación bayesiana objetiva de la probabilidad .

Descripción de la motivación y el método

El principio está motivado por el siguiente principio normativo o desideratum:

En escenarios donde la información previa es idéntica, los individuos deben asignar las mismas probabilidades previas.

Esta regla se implementa identificando simetrías, definidas por grupos de transformación , que permiten convertir un problema en uno equivalente y utilizando estas simetrías para calcular las probabilidades previas.

En el caso de problemas con variables discretas (como dados, cartas o datos categóricos ), las simetrías se caracterizan por grupos de permutación y, en estos casos, el principio se simplifica al principio de indiferencia . En los casos que involucran variables continuas, las simetrías pueden representarse mediante otros tipos de grupos de transformación. Determinar las probabilidades previas en tales casos a menudo requiere resolver una ecuación diferencial , que puede no dar una solución única. Sin embargo, muchos problemas de variables continuas tienen probabilidades previas que están definidas de manera única por el principio de grupos de transformación, a los que Jaynes se refirió como problemas " bien planteados ".

Ejemplos

Caso discreto: lanzamiento de moneda

Considere una moneda con cara (H) y cruz (T). Denote esta información por . Para un lanzamiento de moneda dado, denote la probabilidad de un resultado de cara como y de cruz por .

Al aplicar el desiderátum, considere la información contenida en el caso del lanzamiento de la moneda tal como está formulada. No describe ninguna distinción entre cara y cruz. Si no hay otra información, los elementos "cara" y "cruz" son intercambiables. La aplicación del desiderátum exige entonces que

.

Como es todo el espacio muestral, las probabilidades deben sumar 1; por lo tanto

Este argumento se extiende a N categorías, para dar la probabilidad previa "plana" 1/N .

Esto proporciona un argumento basado en la consistencia para el principio de indiferencia: si alguien es verdaderamente ignorante acerca de un conjunto discreto o contable de resultados aparte de su existencia potencial, pero no les asigna probabilidades previas iguales, entonces está asignando probabilidades diferentes cuando se le da la misma información .

Alternativamente, esto puede expresarse así: alguien que no usa el principio de indiferencia para asignar probabilidades previas a variables discretas, o bien tiene información sobre esas variables o está razonando de manera inconsistente .

Caso continuo: parámetro de ubicación

Este es el ejemplo más sencillo para variables continuas. Se da al afirmar que uno "ignora" el parámetro de ubicación en un problema determinado. La afirmación de que un parámetro es un "parámetro de ubicación" significa que la distribución de muestreo, o la probabilidad de una observación X, depende de un parámetro solo a través de la diferencia.

para alguna distribución de probabilidad normalizada .

Obsérvese que la información dada de que se trata de una distribución normalizada es un prerrequisito importante para obtener la conclusión final de una distribución a priori uniforme, porque las distribuciones de probabilidad uniformes solo se pueden normalizar dado un dominio de entrada finito. En otras palabras, la suposición de que se normaliza implícitamente también requiere que el parámetro de ubicación no se extienda hasta el infinito en ninguna de sus dimensiones. De lo contrario, la distribución a priori uniforme no sería normalizable.

Los ejemplos de parámetros de ubicación incluyen el parámetro medio de una distribución normal con varianza conocida y el parámetro mediano de una distribución de Cauchy con un rango intercuartil conocido.

Los dos "problemas equivalentes" en este caso, dado el conocimiento de la distribución de muestreo , pero ningún otro conocimiento sobre , se dan por un "desplazamiento" de igual magnitud en X y . Esto se debe a la relación:

"Desplazar" todas las cantidades hacia arriba en un número b y resolver en el "espacio desplazado" y luego "desplazar" nuevamente al original debería dar exactamente la misma respuesta que si solo trabajáramos en el espacio original. Al hacer la transformación de a, se obtiene un jacobiano de simplemente 1, mientras que la probabilidad previa debe satisfacer la ecuación funcional:

Y la única función que satisface esta ecuación es la "constante prior":

Por lo tanto, la distribución previa uniforme está justificada para expresar la ignorancia completa de una distribución previa normalizada en un parámetro de ubicación finito y continuo.

Caso continuo: parámetro de escala

Como en el argumento anterior, una afirmación que es un parámetro de escala significa que la distribución de muestreo tiene la forma funcional:

Donde, como antes, es una función de densidad de probabilidad normalizada. El requisito de que las probabilidades sean finitas y positivas obliga a la condición . Los ejemplos incluyen la desviación estándar de una distribución normal con una media conocida o la distribución gamma . La "simetría" en este problema se encuentra al notar que

y configuración y Sin embargo, a diferencia del caso del parámetro de ubicación, el jacobiano de esta transformación en el espacio muestral y el espacio de parámetros es , no 1, por lo que la probabilidad de muestreo cambia a

que es invariante (es decir, tiene la misma forma antes y después de la transformación). Además, la probabilidad previa cambia a

que tiene la solución única (hasta proporcionalidad)

.

Se trata de una conocida prior de Jeffreys para parámetros de escala, que es "plana" en la escala logarítmica, aunque se deriva utilizando un argumento diferente al que se utiliza aquí, basado en la función de información de Fisher . El hecho de que estos dos métodos den los mismos resultados en este caso no implica que lo hagan en general.

Caso continuo: la paradoja de Bertrand

Edwin Jaynes utilizó este principio para proporcionar una solución a la paradoja de Bertrand [2] al afirmar su ignorancia sobre la posición exacta del círculo.

Discusión

Este argumento depende fundamentalmente de que cambiar la información puede dar como resultado una asignación de probabilidad diferente. Es tan crucial como cambiar los axiomas en la lógica deductiva : pequeños cambios en la información pueden dar lugar a grandes cambios en las asignaciones de probabilidad permitidas por el "razonamiento consistente".

Para ilustrarlo, supongamos que el ejemplo de lanzar una moneda también indica como parte de la información que la moneda tiene una cara (S) (es decir, es una moneda real ). Denotemos esta nueva información por . El mismo argumento que utiliza "ignorancia total", o más precisamente la información realmente descrita, da

.

La intuición nos dice que deberíamos tener un valor muy cercano a cero. Esto se debe a que la intuición de la mayoría de las personas no ve "simetría" entre una moneda que cae de lado en comparación con una que cae de cara. Nuestra intuición dice que las "etiquetas" particulares en realidad contienen cierta información sobre el problema. Se podría utilizar un argumento simple para hacer esto matemáticamente más formal (por ejemplo, la física del problema hace que sea difícil que una moneda lanzada caiga de lado): hacemos una distinción entre monedas "gruesas" y monedas "delgadas" (aquí el grosor se mide en relación con el diámetro de la moneda). Se podría suponer razonablemente que:

Tenga en cuenta que esta nueva información probablemente no rompería la simetría entre "cara" y "cruz", de modo que la permutación aún se aplicaría para describir "problemas equivalentes", y requeriríamos:

Este es un buen ejemplo de cómo se puede utilizar el principio de los grupos de transformación para "dar cuerpo" a las opiniones personales. Toda la información utilizada en la derivación se indica explícitamente. Si una asignación de probabilidad previa no "parece correcta" según lo que te dice tu intuición, entonces debe haber alguna "información de fondo" que no se ha incluido en el problema. [3] La tarea consiste entonces en tratar de averiguar cuál es esa información. En cierto sentido, la combinación del método de los grupos de transformación con la propia intuición se puede utilizar para "eliminar" las suposiciones reales que uno tiene. Esto lo convierte en una herramienta muy poderosa para la obtención de hipótesis previas.

Introducir el grosor de la moneda como variable es permisible porque su existencia estaba implícita (al ser una moneda real) pero su valor no estaba especificado en el problema. Introducir un "parámetro molesto" y luego hacer que la respuesta sea invariable a este parámetro es una técnica muy útil para resolver problemas supuestamente "mal planteados" como la paradoja de Bertrand . Algunos la han llamado "la estrategia del buen planteamiento". [4]

Una de las ventajas de este principio es su aplicación a parámetros continuos, donde la noción de "ignorancia total" no está tan bien definida como en el caso discreto. Sin embargo, si se aplica con límites infinitos, a menudo da distribuciones previas impropias . Nótese que el caso discreto para un conjunto infinito numerable, como también produce una distribución previa discreta impropia. Para la mayoría de los casos donde la probabilidad es suficientemente "empinada", esto no presenta un problema. Sin embargo, para estar absolutamente seguros de evitar resultados incoherentes y paradojas, la distribución previa debe abordarse mediante un proceso de limitación bien definido y de buen comportamiento. Uno de estos procesos es el uso de una secuencia de distribuciones previas con rango creciente, como donde el límite se debe tomar al final del cálculo , es decir, después de la normalización de la distribución posterior. Lo que esto hace efectivamente es garantizar que uno está tomando el límite de razón y no la razón de dos límites. Vea Límite de una función#Propiedades para obtener detalles sobre los límites y por qué este orden de operaciones es importante.

Si el límite de la razón no existe o diverge, entonces esto da una posterior impropia (es decir, una posterior que no se integra en una). Esto indica que los datos son tan poco informativos acerca de los parámetros que la probabilidad previa de valores arbitrariamente grandes todavía importa en la respuesta final. En cierto sentido, una posterior impropia significa que la información contenida en los datos no ha "descartado" valores arbitrariamente grandes. Mirando las anteriores impropias de esta manera, parece tener cierto sentido que las anteriores de "ignorancia completa" deberían ser impropias porque la información utilizada para derivarlas es tan escasa que no puede descartar valores absurdos por sí sola. Desde un estado de ignorancia completa, solo los datos o alguna otra forma de información adicional pueden descartar tales absurdos.

Referencias

  1. ^ Jaynes, Edwin T. (1968). "Probabilidades previas" (PDF) . IEEE Transactions on Systems Science and Cybernetics . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117. Archivado (PDF) desde el original el 21 de junio de 2023 . Consultado el 30 de junio de 2023 .
  2. ^ Jaynes, Edwin T. (1973). "El problema bien planteado" (PDF) . Fundamentos de la física . 3 (4): 477–492. Código Bibliográfico :1973FoPh....3..477J. doi :10.1007/BF00709116. S2CID  2380040. Archivado (PDF) desde el original el 22 de junio de 2023 . Consultado el 30 de junio de 2023 .
  3. ^ Jaynes, ET (1984). "Monos, canguros y N" (PDF) . En Justice, James H. (ed.). Métodos bayesianos y de máxima entropía en estadística aplicada . Cuarto taller anual sobre métodos bayesianos/de máxima entropía. Cambridge University Press . Consultado el 13 de noviembre de 2023 .
  4. ^ Shackel, Nicholas (2007). "La paradoja de Bertrand y el principio de indiferencia" (PDF) . Filosofía de la ciencia . 74 (2): 150–175. doi :10.1086/519028. JSTOR  519028. S2CID  15760612. Archivado (PDF) desde el original el 28 de enero de 2022 . Consultado el 4 de noviembre de 2018 .

Lectura adicional