stringtranslate.com

Informante (estadísticas)

En estadística , la puntuación (o informante [1] ) es el gradiente de la función de probabilidad logarítmica con respecto al vector de parámetros . Evaluada en un punto particular del vector de parámetros, la puntuación indica la pendiente de la función de probabilidad logarítmica y, por tanto, la sensibilidad a cambios infinitesimales en los valores de los parámetros. Si la función de probabilidad logarítmica es continua en el espacio de parámetros , la puntuación desaparecerá en un máximo o mínimo local ; este hecho se utiliza en la estimación de máxima verosimilitud para encontrar los valores de los parámetros que maximizan la función de verosimilitud.

Dado que la puntuación es una función de las observaciones , que están sujetas a errores de muestreo , se presta a una estadística de prueba conocida como prueba de puntuación en la que el parámetro se mantiene en un valor particular. Además, la relación de dos funciones de probabilidad evaluadas en dos valores de parámetros distintos puede entenderse como una integral definida de la función de puntuación. [2]

Definición

La puntuación es el gradiente (el vector de derivadas parciales ) del logaritmo natural de la función de verosimilitud con respecto a un vector de parámetros de m dimensiones .

Esta diferenciación produce un vector fila en cada valor de y e indica la sensibilidad de la probabilidad (su derivada normalizada por su valor).

En la literatura más antigua, [ cita necesaria ] "puntuación lineal" puede referirse a la puntuación con respecto a la traducción infinitesimal de una densidad determinada. Esta convención surge de una época en la que el principal parámetro de interés era la media o mediana de una distribución. En este caso, la probabilidad de una observación viene dada por una densidad de la forma [ aclaración necesaria ] . La "puntuación lineal" se define entonces como

Propiedades

Significar

Si bien la puntuación es una función de , también depende de las observaciones en las que se evalúa la función de verosimilitud y, en vista del carácter aleatorio del muestreo, se puede tomar su valor esperado en el espacio muestral . Bajo ciertas condiciones de regularidad en las funciones de densidad de las variables aleatorias, [3] [4] el valor esperado de la puntuación, evaluado en el valor verdadero del parámetro , es cero. Para ver esto, reescribe la función de probabilidad como una función de densidad de probabilidad y denota el espacio muestral . Entonces:

Las condiciones de regularidad asumidas permiten el intercambio de derivada e integral (ver regla integral de Leibniz ), por lo tanto, la expresión anterior puede reescribirse como [ se necesita aclaración ]

Vale la pena reformular el resultado anterior en palabras: el valor esperado de la puntuación, con el valor verdadero del parámetro, es cero. Por lo tanto, si uno tomara muestras repetidamente de alguna distribución y calculara repetidamente la puntuación, entonces el valor medio de las puntuaciones tendería a cero asintóticamente .

Diferencia

La varianza de la puntuación, , se puede derivar de la expresión anterior para el valor esperado.

Por tanto, la varianza de la puntuación es igual al valor esperado negativo de la matriz de Hesse del log de verosimilitud. [5]

Esta última se conoce como información de Fisher y está escrita . Tenga en cuenta que la información de Fisher no es función de ninguna observación particular, ya que la variable aleatoria se ha promediado. Este concepto de información es útil cuando se comparan dos métodos de observación de algún proceso aleatorio .

Ejemplos

proceso de Bernoulli

Considere observar las primeras n pruebas de un proceso de Bernoulli y ver que A de ellas son éxitos y las B restantes son fracasos, donde la probabilidad de éxito es  θ .

Entonces la probabilidad es

entonces la puntuación s es

Ahora podemos verificar que la expectativa de puntuación es cero. Observando que la expectativa de A es y la expectativa de B es n (1 −  θ ) [recordemos que A y B son variables aleatorias], podemos ver que la expectativa de s es

También podemos comprobar la variación de . Sabemos que A + B = n (entonces Bn  −  A ) y la varianza de A es (1 −  θ ), por lo que la varianza de s es

Modelo de resultado binario

Para modelos con resultados binarios ( Y = 1 o 0), el modelo se puede calificar con el logaritmo de predicciones.

donde p es la probabilidad en el modelo a estimar y S es la puntuación. [6]

Aplicaciones

Algoritmo de puntuación

El algoritmo de puntuación es un método iterativo para determinar numéricamente el estimador de máxima verosimilitud .

prueba de puntuación

Tenga en cuenta que es una función de y de la observación , por lo que, en general, no es una estadística . Sin embargo, en determinadas aplicaciones, como la prueba de puntuación , la puntuación se evalúa en un valor específico de (como un valor de hipótesis nula), en cuyo caso el resultado es una estadística. Intuitivamente, si el estimador restringido está cerca del máximo de la función de verosimilitud, la puntuación no debería diferir de cero en más que un error de muestreo . En 1948, CR Rao demostró por primera vez que el cuadrado de la puntuación dividido por la matriz de información sigue una distribución asintótica χ 2 bajo la hipótesis nula. [7]

Tenga en cuenta además que la prueba de razón de verosimilitud está dada por

lo que significa que la prueba de razón de verosimilitud puede entenderse como el área bajo la función de puntuación entre y . [8]

Coincidencia de puntuaciones (aprendizaje automático)

La coincidencia de puntuaciones describe el proceso de aplicar algoritmos de aprendizaje automático (comúnmente redes neuronales ) para aproximar la función de puntuación de una distribución desconocida a partir de muestras finitas. La función aprendida luego se puede utilizar en el modelado generativo para extraer nuevas muestras . [9]

Puede parecer confuso que se haya utilizado la palabra puntuación , porque no es una función de verosimilitud ni tiene una derivada con respecto a los parámetros. Para obtener más información sobre esta definición, consulte el artículo al que se hace referencia. [10]

Historia

Inicialmente, el término "función de puntuación" puede parecer ajeno a su significado contemporáneo, que se centra en la derivada de la función de probabilidad logarítmica en los modelos estadísticos. Esta aparente discrepancia se remonta a los orígenes históricos del término. El concepto de "función de puntuación" fue introducido por primera vez por el estadístico británico Ronald Fisher en su artículo de 1935 titulado "La detección del vínculo con anomalías 'dominantes'". [11] Fisher empleó el término en el contexto del análisis genético, específicamente para familias donde uno de los padres tenía una anomalía genética dominante. Con el tiempo, la aplicación y el significado de la "función de puntuación" han evolucionado, divergiendo de su contexto original pero conservando sus principios fundamentales. [12] [13]

El uso inicial del término por parte de Fisher fue en el contexto del análisis de atributos genéticos en familias en las que uno de los padres poseía una anomalía genética. Clasificó a los hijos de esos padres en cuatro clases basándose en dos rasgos binarios: si habían heredado la anomalía o no, y su estado cigoso como homocigoto o heterocigoto. Fisher ideó un método para asignar a cada familia una "puntuación", calculada en función del número de niños que caen en cada una de las cuatro categorías. Esta puntuación se utilizó para estimar lo que él llamó el "parámetro de vinculación", que describía la probabilidad de que la anomalía genética se heredara. Fisher evaluó la eficacia de su regla de puntuación comparándola con una regla alternativa y con lo que denominó la "puntuación ideal". La puntuación ideal se definió como la derivada del logaritmo de la densidad de muestreo, como se menciona en la página 193 de su trabajo. [11]

El término "puntuación" evolucionó posteriormente a través de investigaciones posteriores, expandiéndose notablemente más allá de la aplicación específica en genética que Fisher había abordado inicialmente. Varios autores adaptaron la metodología original de Fisher a contextos estadísticos más generalizados. En estas aplicaciones más amplias, el término "puntuación" o "puntuación eficiente" comenzó a referirse más comúnmente a la derivada de la función de probabilidad logarítmica del modelo estadístico en cuestión. Esta expansión conceptual estuvo significativamente influenciada por un artículo de 1948 de CR Rao, que introdujo "pruebas de puntuación eficiente" que empleaban la derivada de la función de probabilidad logarítmica. [14]

Así, lo que comenzó como un término especializado en el ámbito de la estadística genética ha evolucionado hasta convertirse en un concepto fundamental en la teoría estadística más amplia, a menudo asociado con la derivada de la función de probabilidad logarítmica.


Ver también

Notas

  1. ^ Informante en Enciclopedia de Matemáticas
  2. ^ Encurtidos, Andrew (1985). Introducción al análisis de probabilidad. Norwich: WH Hutchins & Sons. págs. 24-29. ISBN 0-86094-190-6.
  3. ^ Serfling, Robert J. (1980). Teoremas de aproximación de la estadística matemática . Nueva York: John Wiley & Sons. pag. 145.ISBN 0-471-02403-1.
  4. ^ Greenberg, Eduardo; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente hacia la literatura. Nueva York: John Wiley & Sons. pag. 25.ISBN 0-471-09077-8.
  5. ^ Sargan, Denis (1988). Conferencias sobre Econometría Avanzada . Oxford: Albahaca Blackwell. págs. 16-18. ISBN 0-631-14956-2.
  6. ^ Steyerberg, EW; Vickers, AJ; Cocinero, NR; Gerds, T.; Gonen, M.; Obuchowski, N .; Pencina, MJ; Kattan, MW (2010). "Evaluación del rendimiento de los modelos de predicción. Un marco para medidas tradicionales y novedosas". Epidemiología . 21 (1): 128-138. doi :10.1097/EDE.0b013e3181c30fb2. PMC 3575184 . PMID  20010215. 
  7. ^ Rao, C. Radhakrishna (1948). "Pruebas de grandes muestras de hipótesis estadísticas sobre varios parámetros con aplicaciones a problemas de estimación". Actas matemáticas de la Sociedad Filosófica de Cambridge . 44 (1): 50–57. Código Bib : 1948PCPS...44...50R. doi :10.1017/S0305004100023987. S2CID  122382660.
  8. ^ Autobús, A. (1982). "Las pruebas del multiplicador de la relación de verosimilitud, Wald y Lagrange: una nota expositiva". El estadístico estadounidense . 36 (3a): 153-157. doi :10.1080/00031305.1982.10482817.
  9. ^ Canción Yang; Jascha Sohl-Dickstein; Diederik P. Kingma; Abhishek Kumar; Stefano Ermón; Ben Poole (2020). "Modelado generativo basado en puntuaciones mediante ecuaciones diferenciales estocásticas". arXiv : 2011.13456 [cs.LG].
  10. ^ https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf
  11. ^ ab Fisher, Ronald Aylmer. "La detección de vínculos con anomalías 'dominantes'". Anales de eugenesia 6.2 (1935): 187-201.
  12. ^ Ben (https://stats.stackexchange.com/users/173082/ben), Interpretación de "puntuación", URL (versión: 2019-04-17): https://stats.stackexchange.com/q/342374
  13. ^ Molinero, Jeff. "Primeros usos conocidos de algunas de las palabras de matemáticas (S)". Apuntes de historia de las matemáticas. Última revisión el 14 de abril de 2020. https://mathshistory.st-andrews.ac.uk/Miller/mathword/s/
  14. ^ Radhakrishna Rao, C. (1948). Pruebas de grandes muestras de hipótesis estadísticas sobre varios parámetros con aplicaciones a problemas de estimación. Actas matemáticas de la Sociedad Filosófica de Cambridge, 44(1), 50-57. doi:10.1017/S0305004100023987

Referencias