Estimación puntual

En estadística , la estimación puntual implica el uso de datos de muestra para calcular un valor único (conocido como estimación puntual , ya que identifica un punto en algún espacio de parámetros ) que debe servir como "mejor estimación" o "mejor suposición" de un parámetro poblacional desconocido (por ejemplo, la media poblacional ). De manera más formal, es la aplicación de un estimador puntual a los datos para obtener una estimación puntual.

La estimación puntual puede contrastarse con la estimación de intervalos : dichas estimaciones de intervalos suelen ser intervalos de confianza , en el caso de la inferencia frecuentista , o intervalos creíbles , en el caso de la inferencia bayesiana . De manera más general, un estimador puntual puede contrastarse con un estimador de conjuntos. Se dan ejemplos de conjuntos de confianza o conjuntos creíbles. Un estimador puntual también puede contrastarse con un estimador de distribución. Se dan ejemplos de distribuciones de confianza , estimadores aleatorios y posteriores bayesianos .

Propiedades de las estimaciones puntuales

Parcialidad

El “ sesgo ” se define como la diferencia entre el valor esperado del estimador y el valor verdadero del parámetro de la población que se está estimando. También se puede describir que cuanto más cercano sea el valor esperado de un parámetro al parámetro medido, menor será el sesgo. Cuando el número estimado y el valor verdadero son iguales, el estimador se considera insesgado. Esto se llama estimador insesgado. El estimador se convertirá en un mejor estimador insesgado si tiene una varianza mínima . Sin embargo, un estimador sesgado con una varianza pequeña puede ser más útil que un estimador insesgado con una varianza grande. ^[1] Lo más importante es que preferimos estimadores puntuales que tengan los errores cuadráticos medios más pequeños.

Si dejamos que T = h(X ₁ ,X ₂ , . . . , X _n ) sea un estimador basado en una muestra aleatoria X ₁ ,X ₂ , . . . , X _n , el estimador T se denomina estimador insesgado para el parámetro θ si E[T] = θ, independientemente del valor de θ. ^[1] Por ejemplo, de la misma muestra aleatoria tenemos E(x̄) = μ (media) y E(s ² ) = σ ² (varianza), entonces x̄ y s ² serían estimadores insesgados para μ y σ ² . La diferencia E[T ] − θ se denomina sesgo de T ; si esta diferencia es distinta de cero, entonces T se denomina sesgado.

Consistencia

La consistencia se refiere a si la estimación puntual se mantiene cerca del valor cuando el parámetro aumenta su tamaño. Cuanto mayor sea el tamaño de la muestra, más precisa será la estimación. Si un estimador puntual es consistente, su valor esperado y su varianza deben estar cerca del valor real del parámetro. Un estimador insesgado es consistente si el límite de la varianza del estimador T es igual a cero.

Eficiencia

Sean T ₁ y T ₂ dos estimadores insesgados para el mismo parámetro θ . El estimador T ₂ se consideraría más eficiente que el estimador T ₁ si Var( T ₂ ) < Var( T ₁ ), independientemente del valor de θ . ^[1] También podemos decir que los estimadores más eficientes son aquellos con la menor variabilidad de resultados. Por lo tanto, si el estimador tiene la menor varianza entre muestras, es a la vez más eficiente e insesgado. Extendemos la noción de eficiencia diciendo que el estimador T ₂ es más eficiente que el estimador T ₁ (para el mismo parámetro de interés), si el error cuadrático medio (EME ) de T ₂ es menor que el EME de T ₁ . ^[1]

En general, debemos tener en cuenta la distribución de la población al determinar la eficiencia de los estimadores. Por ejemplo, en una distribución normal , la media se considera más eficiente que la mediana, pero no ocurre lo mismo en distribuciones asimétricas o sesgadas .

Suficiencia

En estadística, el trabajo de un estadístico es interpretar los datos que ha recopilado y extraer conclusiones estadísticamente válidas sobre la población bajo investigación. Pero en muchos casos los datos brutos, que son demasiado numerosos y demasiado costosos de almacenar, no son adecuados para este propósito. Por lo tanto, al estadístico le gustaría condensar los datos calculando algunas estadísticas y basar su análisis en estas estadísticas para que no haya pérdida de información relevante al hacerlo, es decir, al estadístico le gustaría elegir aquellas estadísticas que agoten toda la información sobre el parámetro, que está contenido en la muestra. Definimos las estadísticas suficientes de la siguiente manera: Sea X = ( X ₁ , X ₂ , ... , X _n ) una muestra aleatoria. Se dice que una estadística T(X) es suficiente para θ (o para la familia de distribuciones) si la distribución condicional de X dado T está libre de θ. ^[2]

Tipos de estimación puntual

Estimación puntual bayesiana

La inferencia bayesiana se basa normalmente en la distribución posterior . Muchos estimadores puntuales bayesianos son las estadísticas de tendencia central de la distribución posterior , por ejemplo, su media, mediana o moda:

Media posterior , que minimiza el riesgo (posterior) (pérdida esperada) para una función de pérdida de error al cuadrado ; en la estimación bayesiana, el riesgo se define en términos de la distribución posterior, como lo observó Gauss . ^[3]
Mediana posterior , que minimiza el riesgo posterior de la función de pérdida de valor absoluto, como lo observó Laplace . ^[3]^[4]
máximo a posteriori ( MAP ), que encuentra un máximo de la distribución posterior; para una probabilidad previa uniforme, el estimador MAP coincide con el estimador de máxima verosimilitud;

El estimador MAP tiene buenas propiedades asintóticas, incluso para muchos problemas difíciles, en los que el estimador de máxima verosimilitud tiene dificultades. Para problemas regulares, donde el estimador de máxima verosimilitud es consistente, el estimador de máxima verosimilitud finalmente concuerda con el estimador MAP. ^[5]^[6]^[7] Los estimadores bayesianos son admisibles , según el teorema de Wald. ^[6]^[8]

El estimador puntual de longitud mínima del mensaje ( MML ) se basa en la teoría de la información bayesiana y no está tan directamente relacionado con la distribución posterior .

Los casos especiales de filtros bayesianos son importantes:

Varios métodos de estadística computacional tienen estrechas conexiones con el análisis bayesiano:

Métodos para encontrar estimaciones puntuales

A continuación se presentan algunos métodos de uso común para estimar parámetros desconocidos que se espera que proporcionen estimadores que tengan algunas de estas importantes propiedades. En general, dependiendo de la situación y el propósito de nuestro estudio, aplicamos cualquiera de los métodos que puedan ser adecuados entre los métodos de estimación puntual.

Método de máxima verosimilitud (MVE)

El método de máxima verosimilitud , de RA Fisher, es el método general de estimación más importante. Este método de estimación intenta adquirir parámetros desconocidos que maximicen la función de verosimilitud. Utiliza un modelo conocido (por ejemplo, la distribución normal) y utiliza los valores de los parámetros en el modelo que maximizan una función de verosimilitud para encontrar la coincidencia más adecuada para los datos. ^[9]

Sea X = (X ₁ , X ₂ , ... ,X _n ) una muestra aleatoria con función de densidad de probabilidad o función masa de probabilidad conjunta f(x, θ) (θ puede ser un vector). La función f(x, θ), considerada como una función de θ, se denomina función de verosimilitud. En este caso, se denota por L(θ). El principio de máxima verosimilitud consiste en elegir un estimador dentro del rango admisible de θ, que maximice la verosimilitud. Este estimador se denomina estimador de máxima verosimilitud (MLE) de θ. Para obtener el MLE de θ, utilizamos la ecuación

dlog L(θ)/ d θ _i = 0, i = 1, 2, …, k. Si θ es un vector, entonces se consideran derivadas parciales para obtener las ecuaciones de verosimilitud. ^[2]

Método de momentos (MOM)

El método de los momentos fue introducido por K. Pearson y P. Chebyshev en 1887, y es uno de los métodos de estimación más antiguos. Este método se basa en la ley de los grandes números , que utiliza todos los hechos conocidos sobre una población y aplica esos hechos a una muestra de la población derivando ecuaciones que relacionan los momentos de la población con los parámetros desconocidos. Luego podemos resolver con la media muestral de los momentos de la población. ^[10] Sin embargo, debido a la simplicidad, este método no siempre es preciso y puede estar sesgado fácilmente.

Sea (X ₁ , X ₂ ,…X _n ) una muestra aleatoria de una población que tiene función de densidad de probabilidad (o función de masa de probabilidad) f(x,θ), θ = (θ ₁ , θ ₂ , …, θ _k ). El objetivo es estimar los parámetros θ ₁ , θ ₂ , ..., θ _k . Además, sean los primeros k momentos de la población respecto a cero como función explícita de θ, es decir, μ _r = μ _r (θ ₁ , θ ₂ ,…, θ _k ), r = 1, 2, …, k. En el método de momentos, equiparamos k momentos de la muestra con los momentos de la población correspondientes. Generalmente, se toman los primeros k momentos porque los errores debidos al muestreo aumentan con el orden del momento. Así, obtenemos k ecuaciones μ _r (θ ₁ , θ ₂ ,…, θ _k ) = m _r , r = 1, 2, …, k. Resolviendo estas ecuaciones obtenemos el método de estimadores (o estimaciones) de momento como

m _r = 1/n ΣX _i^r . ^[2] Véase también el método generalizado de momentos .

Método de mínimos cuadrados

En el método de mínimos cuadrados, consideramos la estimación de parámetros utilizando alguna forma específica de la esperanza y el segundo momento de las observaciones.

Para ajustar una curva de la forma y = f( x, β ₀ , β ₁ , ,,,, β _p ) a los datos (x _i , y _i ), i = 1, 2,…n, podemos utilizar el método de mínimos cuadrados. Este método consiste en minimizar la

suma de cuadrados.

Cuando f(x, β ₀ , β ₁ , ,,,, β _p ) es una función lineal de los parámetros y se conocen los valores de x, los estimadores de mínimos cuadrados serán el mejor estimador lineal insesgado (BLUE). Nuevamente, si asumimos que las estimaciones de mínimos cuadrados se distribuyen de manera independiente e idéntica de manera normal, entonces un estimador lineal será el estimador insesgado de varianza mínima (MVUE) para toda la clase de estimadores insesgados. Véase también error cuadrático medio mínimo (MMSE). ^[2]

Estimador de media insesgada de mínima varianza (MVUE)

El método del estimador insesgado de mínima varianza minimiza el riesgo (pérdida esperada) de la función de pérdida del error al cuadrado .

Estimador imparcial mediano

El estimador medianamente insesgado minimiza el riesgo de la función de pérdida de error absoluto.

Mejor estimador lineal imparcial (BLUE)

El mejor estimador lineal imparcial , también conocido como teorema de Gauss-Markov, establece que el estimador de mínimos cuadrados ordinarios (MCO) tiene la varianza de muestreo más baja dentro de la clase de estimadores lineales imparciales, si los errores en el modelo de regresión lineal no están correlacionados, tienen varianzas iguales y un valor esperado de cero. ^[11]

Estimación puntual vs estimación de intervalo de confianza

Existen dos tipos principales de estimaciones: estimación puntual y estimación de intervalo de confianza . En la estimación puntual tratamos de elegir un punto único en el espacio de parámetros que pueda considerarse razonablemente como el valor verdadero del parámetro. Por otro lado, en lugar de una estimación única del parámetro, nos interesa construir una familia de conjuntos que contengan el valor verdadero (desconocido) del parámetro con una probabilidad especificada. En muchos problemas de inferencia estadística no nos interesa solo estimar el parámetro o probar alguna hipótesis sobre el parámetro, también queremos obtener un límite inferior o superior o ambos, para el parámetro de valor real. Para hacer esto, necesitamos construir un intervalo de confianza.

El intervalo de confianza describe qué tan confiable es una estimación. Podemos calcular los límites de confianza superior e inferior de los intervalos a partir de los datos observados. Supongamos que se proporciona un conjunto de datos x ₁ , . . . , x _n , modelado como la realización de las variables aleatorias X ₁ , . . . , X _n . Sea θ el parámetro de interés y γ un número entre 0 y 1. Si existen estadísticas muestrales L _n = g(X ₁ , . . . , X _n ) y U _n = h(X ₁ , . . . , X _n ) tales que P(L _n < θ < U _n ) = γ para cada valor de θ, entonces (l _n , u _n ), donde l _n = g(x ₁ , . . . , x _n ) y u _n = h(x ₁ , . . . , x _n ), se denomina intervalo de confianza del 100γ% para θ. El número γ se denomina nivel de confianza . ^[1] En general, con una media de muestra distribuida normalmente, Ẋ, y con un valor conocido para la desviación estándar, σ, se forma un intervalo de confianza del 100(1-α)% para el μ verdadero tomando Ẋ ± e, con e = z _1-α/2 (σ/n ^1/2 ), donde z _1-α/2 es el valor acumulado del 100(1-α/2)% de la curva normal estándar, y n es el número de valores de datos en esa columna. Por ejemplo, z _1-α/2 es igual a 1,96 para una confianza del 95%. ^[12]

Aquí se calculan dos límites a partir del conjunto de observaciones, digamos l _n y u _n y se afirma con un cierto grado de confianza (medido en términos probabilísticos) que el valor verdadero de γ se encuentra entre l _n y u _n . Por lo tanto, obtenemos un intervalo (l _n y u _n ) que esperamos que incluya el valor verdadero de γ(θ). Por lo tanto, este tipo de estimación se llama estimación de intervalo de confianza. ^[2] Esta estimación proporciona un rango de valores en los que se espera que se encuentre el parámetro. Generalmente da más información que las estimaciones puntuales y se prefieren al hacer inferencias. De alguna manera, podemos decir que la estimación puntual es lo opuesto a la estimación de intervalo.

Véase también

Referencias

^ abcde Una introducción moderna a la probabilidad y la estadística . FM Dekking, C. Kraaikamp, HP Lopuhaa, LE Meester. 2005.
^ Estimación abcde y estadística inferencial . Pradip Kumar Sahu, Santi Ranjan Pal, Ajit Kumar Das. 2015.
^ ab Dodge, Yadolah , ed. (1987). Análisis de datos estadísticos basado en la norma L1 y métodos relacionados: artículos de la Primera Conferencia Internacional celebrada en Neuchâtel, del 31 de agosto al 4 de septiembre de 1987 . North-Holland Publishing .
^ Jaynes, ET (2007). Teoría de la probabilidad: la lógica de la ciencia (5.ª edición impresa). Cambridge University Press . pág. 172. ISBN 978-0-521-59271-0.
^ Ferguson, Thomas S. (1996). Un curso sobre teoría de muestras grandes . Chapman & Hall . ISBN. 0-412-04371-8.
^ ab Le Cam, Lucien (1986). Métodos asintóticos en la teoría de decisiones estadísticas . Springer-Verlag . ISBN. 0-387-96307-3.
^ Ferguson, Thomas S. (1982). "Una estimación de máxima verosimilitud inconsistente". Revista de la Asociación Estadounidense de Estadística . 77 (380): 831–834. doi :10.1080/01621459.1982.10477894. JSTOR 2287314.
^ Lehmann, EL ; Casella, G. (1998). Teoría de la estimación puntual (2.ª ed.). Springer. ISBN 0-387-98502-6.
^ Análisis de datos categóricos . John Wiley and Sons, Nueva York: Agresti A. 1990.
^ La enciclopedia concisa de estadísticas . Springer: Dodge, Y. 2008.
^ Mejor estimación y predicción lineal imparcial . Nueva York: John Wiley & Sons: Theil Henri. 1971.
^ Diseño experimental: con aplicaciones en gestión, ingeniería y ciencias . Springer: Paul D. Berger, Robert E. Maurer, Giovana B. Celli. 2019.

Lectura adicional

Bickel, Peter J. y Doksum, Kjell A. (2001). Estadística matemática: temas básicos y selectos . Vol. I (segunda edición [actualizada en 2007]). Pearson Prentice-Hall.
Liese, Friedrich y Miescke, Klaus-J. (2008). Teoría de la decisión estadística: estimación, prueba y selección . Springer.