Teoría de la estimación

La teoría de la estimación es una rama de la estadística que se ocupa de estimar los valores de parámetros basándose en datos empíricos medidos que tienen un componente aleatorio. Los parámetros describen una configuración física subyacente de tal manera que su valor afecta la distribución de los datos medidos. Un estimador intenta aproximar los parámetros desconocidos utilizando las mediciones. En la teoría de la estimación, generalmente se consideran dos enfoques: ^[1]

El enfoque probabilístico (descrito en este artículo) supone que los datos medidos son aleatorios y que la distribución de probabilidad depende de los parámetros de interés.
El enfoque de pertenencia a conjuntos supone que el vector de datos medido pertenece a un conjunto que depende del vector de parámetros.

Ejemplos

Por ejemplo, se desea estimar la proporción de una población de votantes que votará por un candidato en particular. Esa proporción es el parámetro buscado; la estimación se basa en una pequeña muestra aleatoria de votantes. Alternativamente, se desea estimar la probabilidad de que un votante vote por un candidato en particular, basándose en algunas características demográficas, como la edad.

O, por ejemplo, en el radar el objetivo es encontrar la distancia de los objetos (aviones, barcos, etc.) analizando el tiempo de tránsito bidireccional de los ecos recibidos de los pulsos transmitidos. Dado que los impulsos reflejados están inevitablemente inmersos en ruido eléctrico, sus valores medidos están distribuidos aleatoriamente, por lo que es necesario estimar el tiempo de tránsito.

Como otro ejemplo, en la teoría de las comunicaciones eléctricas, las mediciones que contienen información sobre los parámetros de interés suelen estar asociadas con una señal ruidosa .

Lo esencial

Para un modelo determinado, se necesitan varios "ingredientes" estadísticos para que se pueda implementar el estimador. La primera es una muestra estadística : un conjunto de puntos de datos tomados de un vector aleatorio ( RV ) de tamaño N. Poner en un vector ,

\mathbf {x} ={\begin{bmatrix}x[0]\\x[1]\\\vdots \\x[N-1]\end{bmatrix}}.

{\boldsymbol {\theta }}={\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{M}\end{bmatrix}} ,

función de densidad de probabilidad función de masa de probabilidad

p(\mathbf {x} |{\boldsymbol {\theta }}).\,

estadística bayesiana probabilidad bayesiana.

\pi ({\boldsymbol {\theta }}).\,

{\sombrero {\boldsymbol {\theta }}}

Un estimador común es el estimador del error cuadrático medio mínimo (MMSE), que utiliza el error entre los parámetros estimados y el valor real de los parámetros.

\mathbf {e} ={\hat {\boldsymbol {\theta }}}-{\boldsymbol {\theta }}

valor esperado

Estimadores

Los estimadores (métodos de estimación) comúnmente utilizados y los temas relacionados con ellos incluyen:

Estimadores de máxima verosimilitud
Estimadores de Bayes
Método de estimadores de momentos.
Cramér-Rao con destino
mínimos cuadrados
Error cuadrático medio mínimo (MMSE), también conocido como error mínimo cuadrático de Bayes (BLSE)
Máximo a posteriori (MAP)
Estimador insesgado de varianza mínima (MVUE)
Identificación de sistemas no lineales.
Mejor estimador lineal insesgado (AZUL)
Estimadores insesgados: consulte sesgo del estimador .
Filtro de partículas
Cadena de Markov Montecarlo (MCMC)
Filtro de Kalman y sus diversos derivados.
Filtro de salchicha

Ejemplos

Constante desconocida en ruido blanco gaussiano aditivo

Considere una señal discreta recibida , de muestras independientes que consiste en una constante desconocida con ruido blanco gaussiano aditivo (AWGN) con media cero y varianza conocida ( es decir , ). Como se conoce la varianza, el único parámetro desconocido es . $x[n]$ $N$ $A$ $w[n]$ $\sigma ^{2}$ ${\mathcal {N}}(0,\sigma ^{2})$ $A$

El modelo de la señal es entonces

x[n]=A+w[n]\quad n=0,1,\dots ,N-1

Dos posibles (de muchos) estimadores para el parámetro son: $A$

${\hat {A}}_{1}=x[0]$
${\hat {A}}_{2}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ cual es la media muestral

Ambos estimadores tienen una media de , que se puede mostrar tomando el valor esperado de cada estimador. $A$

\mathrm {E} \left[{\hat {A}}_{1}\right]=\mathrm {E} \left[x[0]\right]=A

\mathrm {E} \left[{\hat {A}}_{2}\right]=\mathrm {E} \left[{\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathrm {E} \left[x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A

En este punto, estos dos estimadores parecerían realizar lo mismo. Sin embargo, la diferencia entre ellos se hace evidente al comparar las varianzas.

\mathrm {var} \left({\hat {A}}_{1}\right)=\mathrm {var} \left(x[0]\right)=\sigma ^{2}

\mathrm {var} \left({\hat {A}}_{2}\right)=\mathrm {var} \left({\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right){\overset {\text{independence}}{=}}{\frac {1}{N^{2}}}\left[\sum _{n=0}^{N-1}\mathrm {var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\right]={\frac {\sigma ^{2}}{N}}

Parecería que la media muestral es un mejor estimador ya que su varianza es menor para cada N > 1.

Máxima verosimilitud

Continuando con el ejemplo que utiliza el estimador de máxima verosimilitud , la función de densidad de probabilidad (pdf) del ruido para una muestra es $w[n]$

p(w[n])={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}w[n]^{2}\right)

x[n]

x[n]

{\mathcal {N}}(A,\sigma ^{2})

p(x[n];A)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}(x[n]-A)^{2}\right)

independencia

\mathbf {x}

p(\mathbf {x} ;A)=\prod _{n=0}^{N-1}p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}\right)

logaritmo natural

\ln p(\mathbf {x} ;A)=-N\ln \left(\sigma {\sqrt {2\pi }}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}

{\hat {A}}=\arg \max \ln p(\mathbf {x} ;A)

Tomando la primera derivada de la función de probabilidad logarítmica

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

0={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]=\sum _{n=0}^{N-1}x[n]-NA

Esto da como resultado el estimador de máxima verosimilitud.

{\hat {A}}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]

N

Límite inferior de Cramér-Rao

Para encontrar el límite inferior de Cramér-Rao (CRLB) del estimador de la media muestral, primero es necesario encontrar el número de información de Fisher

{\mathcal {I}}(A)=\mathrm {E} \left(\left[{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)\right]^{2}\right)=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

Tomando la segunda derivada

{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}(-N)={\frac {-N}{\sigma ^{2}}}

-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]={\frac {N}{\sigma ^{2}}}

Finalmente, poner la información de Fisher en

\mathrm {var} \left({\hat {A}}\right)\geq {\frac {1}{\mathcal {I}}}

\mathrm {var} \left({\hat {A}}\right)\geq {\frac {\sigma ^{2}}{N}}

Comparando esto con la varianza de la media muestral (determinada previamente) se muestra que la media muestral es igual al límite inferior de Cramér-Rao para todos los valores de y . En otras palabras, la media muestral es el estimador eficiente (necesariamente único) y, por tanto, también el estimador insesgado de varianza mínima (MVUE), además de ser el estimador de máxima verosimilitud . $N$ $A$

Máximo de una distribución uniforme

Uno de los ejemplos de estimación más simples y no triviales es la estimación del máximo de una distribución uniforme. Se utiliza como ejercicio práctico en el aula y para ilustrar los principios básicos de la teoría de la estimación. Además, en el caso de la estimación basada en una muestra única, demuestra cuestiones filosóficas y posibles malentendidos en el uso de estimadores de máxima verosimilitud y funciones de verosimilitud .

Dada una distribución uniforme discreta con máximo desconocido, el estimador UMVU para el máximo viene dado por $1,2,\dots ,N$

{\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1

mmáximo de muestraktamaño de muestra^[2]^[3]problema de los tanques alemanes la Segunda Guerra Mundial

La fórmula puede entenderse intuitivamente como;

"El máximo de la muestra más la brecha promedio entre observaciones en la muestra",

la brecha se agrega para compensar el sesgo negativo del máximo de muestra como estimador del máximo de población. ^{[nota 1]}

Esto tiene una variación de ^[2]

{\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N

estimación de espaciamiento máximo

N/k

{\frac {m}{k}}

El máximo muestral es el estimador de máxima verosimilitud para el máximo poblacional, pero, como se analizó anteriormente, está sesgado.

Aplicaciones

Numerosos campos requieren el uso de la teoría de la estimación. Algunos de estos campos incluyen:

Es probable que los datos medidos estén sujetos a ruido o incertidumbre y es a través de la probabilidad estadística que se buscan soluciones óptimas para extraer la mayor cantidad de información posible de los datos.

Ver también

Notas

^ El máximo de la muestra nunca es mayor que el máximo de la población, pero puede ser menor, por lo que es un estimador sesgado : tenderá a subestimar el máximo de la población.

Referencias

Citas

^ Walter, E.; Pronzato, L. (1997). Identificación de modelos paramétricos a partir de datos experimentales . Londres, Inglaterra: Springer-Verlag.
^ ab Johnson, Roger (1994), "Estimación del tamaño de una población", Enseñanza de estadística , 16 (2 (verano)): 50–52, doi :10.1111/j.1467-9639.1994.tb00688.x
^ Johnson, Roger (2006), "Estimación del tamaño de una población", Obtener lo mejor de la enseñanza de la estadística, archivado desde el original (PDF) el 20 de noviembre de 2008

Fuentes

EL Lehmann y G. Casella. Teoría de la estimación puntual . ISBN 0387985026.
Dale Shermon (2009). Ingeniería de Costos de Sistemas . Publicación de Gower. ISBN 978-0-566-08861-2.
John arroz (1995). Estadística Matemática y Análisis de Datos . Prensa de Duxbury. ISBN 0-534-209343.
Steven M. Kay. Fundamentos del procesamiento estadístico de señales: teoría de la estimación . ISBN 0-13-345711-7.
H. Vincent Poor (16 de marzo de 1998). Introducción a la detección y estimación de señales . Saltador. ISBN 0-387-94173-8.
Harry L. Van Árboles (2001). Teoría de detección, estimación y modulación, parte 1. Wiley. ISBN 0-471-09517-6. Archivado desde el original el 28 de abril de 2005.
Dan Simón. Estimación del estado óptimo: enfoques de Kalman, H-infinito y no lineal. Archivado desde el original el 30 de diciembre de 2010.
Filtros adaptativos . Nueva Jersey: Wiley. 2008.ISBN 978-0-470-25388-5.
Fundamentos del filtrado adaptativo . Nueva Jersey: Wiley. 2003.ISBN 0-471-46126-1.
Estimación lineal . Nueva Jersey: Prentice-Hall. 2000.ISBN 978-0-13-022464-4.
Estimación y control cuadráticos indefinidos: un enfoque unificado de las teorías H ² y H ^∞ . PA: Sociedad de Matemáticas Industriales y Aplicadas (SIAM). 1999.ISBN 978-0-89871-411-1.
VG Voinov y MS Nikulin (1993). Estimadores insesgados y sus aplicaciones. vol. 1: Caso univariado . Editores académicos de Kluwer. ISBN 0-7923-2382-3.
VG Voinov y MS Nikulin (1996). Estimadores insesgados y sus aplicaciones. vol. 2: Caso multivariado . Editores académicos de Kluwer. ISBN 0-7923-3939-8.

enlaces externos

Medios relacionados con la teoría de la estimación en Wikimedia Commons