stringtranslate.com

Principio de los grupos de transformación.

El principio de grupos de transformación es una metodología para asignar probabilidades a priori en cuestiones de inferencia estadística , propuesta inicialmente por ET Jaynes . [1] Se considera una extensión del principio de indiferencia .

Las probabilidades previas determinadas por este principio son objetivas porque se basan únicamente en las características inherentes del problema, lo que garantiza que dos personas que apliquen el principio a la misma cuestión asignarán probabilidades previas idénticas. Por tanto, este principio es parte integral de la interpretación bayesiana objetiva de la probabilidad .

Motivación y descripción del método.

El principio está motivado por el siguiente principio normativo o desideratum:

En escenarios donde la información previa es idéntica, los individuos deben asignar las mismas probabilidades previas.

La implementación de esta regla implica identificar simetrías dentro de un problema que permitan convertirlo en uno equivalente, utilizando estas simetrías para calcular las probabilidades previas. Estas simetrías están definidas por grupos de transformación .

Para problemas con variables discretas (como dados, cartas o datos categóricos ), las simetrías se caracterizan por grupos de permutación y, en estos casos, el principio se simplifica al principio de indiferencia. En los casos que involucran variables continuas, las simetrías pueden representarse mediante otros tipos de grupos de transformación. Para determinar las probabilidades a priori en tales casos, a menudo es necesario resolver una ecuación diferencial, que puede no producir una solución única. Sin embargo, muchos problemas de variables continuas tienen probabilidades previas definidas únicamente por el principio de grupos de transformación, a los que Jaynes se refirió como problemas " bien planteados ".

Ejemplos

Caso discreto: lanzamiento de moneda

Considere una moneda con cara (H) y cruz (T). Denota esta información por I. Para un lanzamiento de moneda determinado, denota la probabilidad de que salga cara como . Denota la probabilidad de un resultado de cruz por .

Al aplicar el desiderátum, considere enmarcada la información contenida en el caso del lanzamiento de la moneda. No describe ninguna distinción entre cara y cruz. Sin otra información, los elementos "cabeza" y "cola" son intercambiables. La aplicación del desiderátum exige entonces que:

Las probabilidades deben sumar 1, así:

.

Este argumento se extiende a N categorías, para dar la probabilidad previa "plana" 1/N .

Esto proporciona un argumento basado en la coherencia para el principio de indiferencia: si alguien es verdaderamente ignorante acerca de un conjunto discreto o contable de resultados aparte de su existencia potencial, pero no le asigna probabilidades previas iguales, entonces le está asignando probabilidades diferentes cuando se le dan las mismas probabilidades. información .

Alternativamente, esto puede expresarse como: alguien que no utiliza el principio de indiferencia para asignar probabilidades previas a variables discretas, o no las ignora o razona de manera inconsistente .

Caso continuo: parámetro de ubicación

Este es el ejemplo más sencillo para variables continuas. Se obtiene al afirmar que uno "ignora" el parámetro de ubicación en un problema determinado. La afirmación de que un parámetro es un "parámetro de ubicación" es que la distribución muestral o la probabilidad de una observación X depende de un parámetro sólo a través de la diferencia.

para alguna distribución de probabilidad normalizada f(.) .

Tenga en cuenta que la información proporcionada de que f(.) es una distribución normalizada es un requisito previo importante para obtener la conclusión final de una distribución previa uniforme, porque las distribuciones de probabilidad uniformes solo pueden normalizarse dado un dominio de entrada finito. En otras palabras, la suposición de que f(.) está normalizada implícitamente también requiere que el parámetro de ubicación no se extienda hasta el infinito en ninguna de sus dimensiones. De lo contrario, el prior uniforme no sería normalizable.

Ejemplos de parámetros de ubicación incluyen el parámetro medio de una distribución normal con varianza conocida y el parámetro mediano de una distribución de Cauchy con un rango intercuartílico conocido.

Los dos "problemas equivalentes" en este caso, dado el conocimiento de la distribución muestral , pero ningún otro conocimiento sobre , están dados por un "desplazamiento" de igual magnitud en X y . Esto se debe a la relación:

"Desplazar" todas las cantidades hacia arriba en algún número by resolver en el "espacio desplazado" y luego "desplazar" nuevamente al original debería dar exactamente la misma respuesta que si solo trabajáramos en el espacio original. Hacer la transformación de a tiene un jacobiano de simplemente 1, mientras que la probabilidad previa debe satisfacer la ecuación funcional:

Y la única función que satisface esta ecuación es la "constante previa":

Por lo tanto, la distribución previa uniforme se justifica para expresar una ignorancia total de una distribución previa normalizada en un parámetro de ubicación continuo y finito.

Caso continuo: parámetro de escala

Como en el argumento anterior, una afirmación que es un parámetro de escala significa que la distribución muestral tiene la forma funcional:

Donde, como antes, es una función de densidad de probabilidad normalizada. El requisito de que las probabilidades sean finitas y positivas fuerza la condición . Los ejemplos incluyen la desviación estándar de una distribución normal con una media conocida o la distribución gamma . La "simetría" en este problema se encuentra observando eso.

y estableciendo y Pero, a diferencia del caso del parámetro de ubicación, el jacobiano de esta transformación en el espacio muestral y el espacio de parámetros es a , no 1. Entonces, la probabilidad de muestreo cambia a:

Que es invariante (es decir, tiene la misma forma antes y después de la transformación), y la probabilidad previa cambia a:

Que tiene solución única (hasta una constante de proporcionalidad):

Lo cual es bien conocido por Jeffreys anteriormente para los parámetros de escala, que es "plano" en la escala logarítmica, aunque se deriva usando un argumento diferente al de aquí, basado en la función de información de Fisher . El hecho de que estos dos métodos den los mismos resultados, en este caso, no lo implica en general.

Caso continuo: la paradoja de Bertrand

Edwin Jaynes utilizó este principio para resolver la paradoja de Bertrand [2] al afirmar su ignorancia sobre la posición exacta del círculo.

Discusión

Este argumento depende crucialmente de I ; cambiar la información puede dar como resultado una asignación de probabilidad diferente. Es tan crucial como cambiar los axiomas en la lógica deductiva : pequeños cambios en la información pueden conducir a grandes cambios en las asignaciones de probabilidad permitidas por el "razonamiento consistente".

Para ilustrar, supongamos que el ejemplo del lanzamiento de una moneda también indica, como parte de la información, que la moneda tiene una cara (S) (es decir, es una moneda real ). Denota esta nueva información por N . El mismo argumento, utilizando "completa ignorancia", o más precisamente, la información realmente descrita, da:

La intuición nos dice que deberíamos tener P(S) muy cerca de cero. Esto se debe a que la intuición de la mayoría de las personas no ve "simetría" entre una moneda que cae de lado y una moneda que cae de cara. Nuestra intuición dice que las "etiquetas" particulares en realidad contienen cierta información sobre el problema. Se podría utilizar un argumento simple para hacer esto más formal matemáticamente (por ejemplo, la física del problema dificulta que una moneda lanzada caiga de lado): hacemos una distinción entre monedas "gruesas" y monedas "delgadas" (aquí el espesor se mide en relación con el diámetro de la moneda). Se podría suponer razonablemente que:

Tenga en cuenta que esta nueva información probablemente no rompería la simetría entre "cara" y "cruz", por lo que la permutación aún se aplicaría al describir "problemas equivalentes", y requeriríamos:

Este es un buen ejemplo de cómo se puede utilizar el principio de los grupos de transformación para "dar cuerpo" a opiniones personales. Toda la información utilizada en la derivación se indica explícitamente. Si una asignación de probabilidad previa no "parece correcta" según lo que le dice su intuición, entonces debe haber alguna "información de fondo" que no se ha incluido en el problema. [3] Entonces la tarea es intentar descubrir cuál es esa información. En cierto sentido, combinar el método de transformación de grupos con la propia intuición puede utilizarse para "eliminar" las suposiciones reales que uno tiene. Esto lo convierte en una herramienta muy poderosa para la obtención previa.

Introducir el grosor de la moneda como variable está permitido porque su existencia estaba implícita (al ser una moneda real) pero su valor no estaba especificado en el problema. Introducir un "parámetro molesto" y luego hacer que la respuesta sea invariante para este parámetro es una técnica muy útil para resolver problemas supuestamente "mal planteados" como la paradoja de Bertrand . Algunos la han llamado "la estrategia de la buena postura". [4]

Una ventaja de este principio reside en su aplicación a parámetros continuos, donde la noción de "ignorancia total" no está tan bien definida como en el caso discreto. Sin embargo, si se aplica con límites infinitos, a menudo produce distribuciones previas inadecuadas . Tenga en cuenta que el caso discreto de un conjunto infinito numerable, como (0,1, 2...) también produce un anterior discreto inadecuado. En la mayoría de los casos en los que la probabilidad es suficientemente "profunda", esto no representa un problema. Sin embargo, para estar absolutamente seguro de evitar resultados incoherentes y paradojas, la distribución previa debe abordarse mediante un proceso limitante bien definido y bien comportado. Uno de esos procesos es el uso de una secuencia de prioridades con rango creciente, como cuando el límite debe tomarse al final del cálculo , es decir, después de la normalización de la distribución posterior. Lo que esto hace efectivamente es garantizar que se tome el límite de la proporción y no la proporción de dos límites. Consulte Límite de una función#Propiedades para obtener detalles sobre los límites y por qué este orden de operaciones es importante.

Si el límite de la relación no existe o diverge, entonces esto da un posterior inadecuado (es decir, un posterior que no se integra en uno). Esto indica que los datos son tan poco informativos sobre los parámetros que la probabilidad previa de valores arbitrariamente grandes todavía importa en la respuesta final. En cierto sentido, un posterior inadecuado significa que la información contenida en los datos no ha "descartado" valores arbitrariamente grandes. Al observar los antecedentes inadecuados de esta manera, parece tener cierto sentido que los antecedentes de "completa ignorancia" sean inadecuados porque la información utilizada para derivarlos es tan escasa que no puede descartar valores absurdos por sí solos. Desde un estado de completa ignorancia, sólo los datos o alguna otra forma de información adicional pueden descartar tales absurdos.

Referencias

  1. ^ Jaynes, Edwin T. (1968). "Probabilidades previas" (PDF) . Transacciones IEEE sobre ciencia de sistemas y cibernética . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117. Archivado (PDF) desde el original el 21 de junio de 2023 . Consultado el 30 de junio de 2023 .
  2. ^ Jaynes, Edwin T. (1973). "El problema bien planteado" (PDF) . Fundamentos de la Física . 3 (4): 477–492. Código bibliográfico : 1973FoPh....3..477J. doi :10.1007/BF00709116. S2CID  2380040. Archivado (PDF) desde el original el 22 de junio de 2023 . Consultado el 30 de junio de 2023 .
  3. ^ Jaynes, et (1984). "Monos, canguros y N" (PDF) . En Justicia, James H. (ed.). Máxima Entropía y Métodos Bayesianos en Estadística Aplicada . Cuarto taller anual sobre métodos bayesianos/de máxima entropía. Prensa de la Universidad de Cambridge . Consultado el 13 de noviembre de 2023 .
  4. ^ Shakel, Nicolás (2007). «La paradoja de Bertrand y el principio de indiferencia» (PDF) . Filosofía de la Ciencia . 74 (2): 150-175. doi :10.1086/519028. JSTOR  519028. S2CID  15760612. Archivado (PDF) desde el original el 28 de enero de 2022 . Consultado el 4 de noviembre de 2018 .

Otras lecturas