Teoría de la estimación

La teoría de la estimación es una rama de la estadística que se ocupa de la estimación de los valores de los parámetros basándose en datos empíricos medidos que tienen un componente aleatorio. Los parámetros describen un entorno físico subyacente de tal manera que su valor afecta la distribución de los datos medidos. Un estimador intenta aproximar los parámetros desconocidos utilizando las mediciones. En la teoría de la estimación, generalmente se consideran dos enfoques: ^[1]

El enfoque probabilístico (descrito en este artículo) supone que los datos medidos son aleatorios y que la distribución de probabilidad depende de los parámetros de interés.
El enfoque de pertenencia a conjuntos supone que el vector de datos medido pertenece a un conjunto que depende del vector de parámetros.

Ejemplos

Por ejemplo, se desea estimar la proporción de una población de votantes que votará por un candidato en particular. Esa proporción es el parámetro buscado; la estimación se basa en una pequeña muestra aleatoria de votantes. Alternativamente, se desea estimar la probabilidad de que un votante vote por un candidato en particular, en función de algunas características demográficas, como la edad.

Por ejemplo, en el radar, el objetivo es determinar la distancia de los objetos (aviones, barcos, etc.) analizando el tiempo de tránsito bidireccional de los ecos recibidos de los pulsos transmitidos. Como los pulsos reflejados están inevitablemente incrustados en el ruido eléctrico, sus valores medidos se distribuyen aleatoriamente, de modo que es necesario estimar el tiempo de tránsito.

Como otro ejemplo, en la teoría de la comunicación eléctrica, las mediciones que contienen información sobre los parámetros de interés a menudo están asociadas con una señal ruidosa .

Lo esencial

Para un modelo dado, se necesitan varios "ingredientes" estadísticos para que se pueda implementar el estimador. El primero es una muestra estadística : un conjunto de puntos de datos tomados de un vector aleatorio (VR) de tamaño N . Puesto en un vector , En segundo lugar, hay M parámetros cuyos valores se van a estimar. En tercer lugar, la función de densidad de probabilidad continua (pdf) o su contraparte discreta, la función de masa de probabilidad (pmf), de la distribución subyacente que generó los datos debe establecerse condicional a los valores de los parámetros: También es posible que los propios parámetros tengan una distribución de probabilidad (por ejemplo, las estadísticas bayesianas ). Entonces es necesario definir la probabilidad bayesiana Una vez formado el modelo, el objetivo es estimar los parámetros, con las estimaciones comúnmente denotadas , donde el "sombrero" indica la estimación. $\mathbf {x} ={\begin{bmatrix}x[0]\\x[1]\\\vpuntos \\x[N-1]\end{bmatrix}}.$ ${\boldsymbol {\theta }}={\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{M}\end{bmatrix}},$ $p(\mathbf {x} |{\boldsymbol {\theta }}).\,$ $\pi ({\boldsymbol {\theta }}).\,$ ${\hat {\boldsymbol {\theta }}}$

Un estimador común es el estimador de error cuadrático medio mínimo (MMSE), que utiliza el error entre los parámetros estimados y el valor real de los parámetros como base para determinar la optimalidad. Luego, este término de error se eleva al cuadrado y el valor esperado de este valor elevado al cuadrado se minimiza para el estimador MMSE. $\mathbf {e} ={\hat {\boldsymbol {\theta }}}-{\boldsymbol {\theta }}$

Estimadores

Los estimadores (métodos de estimación) más utilizados y los temas relacionados con ellos incluyen:

Estimadores de máxima verosimilitud
Estimadores de Bayes
Método de estimadores de momentos
Límite Cramér–Rao
Mínimos cuadrados
Error cuadrático medio mínimo (MMSE), también conocido como error cuadrático mínimo de Bayes (BLSE)
Máximo a posteriori (MAP)
Estimador imparcial de varianza mínima (MVUE)
Identificación de sistemas no lineales
Mejor estimador lineal imparcial (BLUE)
Estimadores imparciales: consulte sesgo del estimador .
Filtro de partículas
Cadena de Markov Monte Carlo (MCMC)
Filtro de Kalman y sus diferentes derivados
Filtro de Viena

Ejemplos

Constante desconocida en el ruido blanco gaussiano aditivo

Considere una señal discreta recibida , , de muestras independientes que consta de una constante desconocida con ruido gaussiano blanco aditivo (AWGN) con media cero y varianza conocida ( es decir , ). Dado que se conoce la varianza, el único parámetro desconocido es . $x[n]$ ${\estilo de visualización N}$ ${\estilo de visualización A}$ $w[n]$ $\sigma ^{2}$ ${\mathcal {N}}(0,\sigma ^{2})$ ${\estilo de visualización A}$

El modelo para la señal es entonces $x[n]=A+w[n]\quad n=0,1,\puntos ,N-1$

Dos posibles (de muchos) estimadores para el parámetro son: ${\estilo de visualización A}$

${\hat {A}}_{1}=x[0]$
${\hat {A}}_{2}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ ¿Cuál es la media de la muestra?

Ambos estimadores tienen una media de , que se puede demostrar tomando el valor esperado de cada estimador y ${\estilo de visualización A}$ $\mathrm {E} \left[{\hat {A}}_{1}\right]=\mathrm {E} \left[x[0]\right]=A$ $\mathrm {E} \left[{\hat {A}}_{2}\right]=\mathrm {E} \left[{\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathrm {E} \left[x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A$

En este punto, estos dos estimadores parecen tener el mismo rendimiento. Sin embargo, la diferencia entre ellos se hace evidente al comparar las varianzas . $\mathrm {var} \left({\hat {A}}_{1}\right)=\mathrm {var} \left(x[0]\right)=\sigma ^{2}$ $\mathrm {var} \left({\hat {A}}_{2}\right)=\mathrm {var} \left({\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right){\overset {\text{independencia}}{=}}{\frac {1}{N^{2}}}\left[\sum _{n=0}^{N-1}\mathrm {var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\right]={\frac {\sigma ^{2}}{N}}$

Parecería que la media de la muestra es un mejor estimador ya que su varianza es menor para cada N > 1.

Máxima verosimilitud

Continuando con el ejemplo utilizando el estimador de máxima verosimilitud , la función de densidad de probabilidad (pdf) del ruido para una muestra es y la probabilidad de se convierte en ( puede considerarse como un ) Por independencia , la probabilidad de se convierte en Tomando el logaritmo natural de la pdf y el estimador de máxima verosimilitud es $w[n]$ $p(w[n])={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}w[n]^{2}\right)$ $x[n]$ $x[n]$ ${\mathcal {N}}(A,\sigma ^{2})$ $p(x[n];A)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}(x[n]-A)^{2}\right)$ $\mathbf {x}$ $p(\mathbf {x} ;A)=\prod _{n=0}^{N-1}p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}\right)$ $\ln p(\mathbf {x} ;A)=-N\ln \left(\sigma {\sqrt {2\pi }}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}$ ${\hat {A}}=\arg \max \ln p(\mathbf {x} ;A)$

Tomando la primera derivada de la función de log-verosimilitud y estableciéndola en cero ${\frac {\parcial }{\parcial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]$ $0={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]=\sum _{n=0}^{N-1}x[n]-NA$

Esto da como resultado el estimador de máxima verosimilitud, que es simplemente la media de la muestra. A partir de este ejemplo, se descubrió que la media de la muestra es el estimador de máxima verosimilitud para muestras de un parámetro fijo y desconocido corrompido por AWGN. ${\hat {A}}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ $N$

Límite inferior de Cramér-Rao

Para encontrar el límite inferior de Cramér-Rao (CRLB) del estimador de la media de la muestra, primero es necesario encontrar el número de información de Fisher y copiar de arriba ${\mathcal {I}}(A)=\mathrm {E} \left(\left[{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)\right]^{2}\right)=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]$ ${\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]$

Tomar la segunda derivada y encontrar el valor esperado negativo es trivial ya que ahora es una constante determinista. ${\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}(-N)={\frac {-N}{\sigma ^{2}}}$ $-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]={\frac {N}{\sigma ^{2}}}$

Finalmente, al introducir la información de Fisher en los resultados, $\mathrm {var} \left({\hat {A}}\right)\geq {\frac {1}{\mathcal {I}}}$ $\mathrm {var} \left({\hat {A}}\right)\geq {\frac {\sigma ^{2}}{N}}$

Comparando esto con la varianza de la media de la muestra (determinada previamente) se muestra que la media de la muestra es igual al límite inferior de Cramér-Rao para todos los valores de y . En otras palabras, la media de la muestra es el estimador eficiente (necesariamente único) , y por lo tanto también el estimador insesgado de varianza mínima (MVUE), además de ser el estimador de máxima verosimilitud . $N$ $A$

Máximo de una distribución uniforme

Uno de los ejemplos no triviales más simples de estimación es la estimación del máximo de una distribución uniforme. Se utiliza como ejercicio práctico en el aula y para ilustrar los principios básicos de la teoría de la estimación. Además, en el caso de la estimación basada en una sola muestra, demuestra cuestiones filosóficas y posibles malentendidos en el uso de estimadores de máxima verosimilitud y funciones de verosimilitud .

Dada una distribución uniforme discreta con un máximo desconocido, el estimador UMVU para el máximo está dado por donde m es el máximo de la muestra y k es el tamaño de la muestra , muestreo sin reemplazo. ^[2]^[3] Este problema se conoce comúnmente como el problema del tanque alemán , debido a la aplicación de la estimación máxima a las estimaciones de la producción de tanques alemanes durante la Segunda Guerra Mundial . $1,2,\dots ,N$ ${\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1$

La fórmula puede entenderse intuitivamente como:

"El máximo de la muestra más la brecha promedio entre las observaciones en la muestra",

La brecha que se agrega para compensar el sesgo negativo del máximo de la muestra como estimador del máximo de la población. ^{[nota 1]}

Esto tiene una varianza de ^[2], por lo que la desviación estándar es aproximadamente , el tamaño promedio (poblacional) de un espacio entre muestras; compárese con lo anterior. Esto puede verse como un caso muy simple de estimación de espaciado máximo . ${\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N$ $N/k$ ${\frac {m}{k}}$

El máximo de la muestra es el estimador de máxima verosimilitud para el máximo de la población, pero, como se explicó anteriormente, está sesgado.

Aplicaciones

Numerosos campos requieren el uso de la teoría de la estimación. Algunos de estos campos incluyen:

Es probable que los datos medidos estén sujetos a ruido o incertidumbre y es a través de la probabilidad estadística que se buscan soluciones óptimas para extraer la mayor cantidad de información posible de los datos.

Véase también

Notas

^ El máximo de la muestra nunca es mayor que el máximo de la población, pero puede ser menor, por lo tanto es un estimador sesgado : tenderá a subestimar el máximo de la población.

Referencias

Citas

^ Walter, E.; Pronzato, L. (1997). Identificación de modelos paramétricos a partir de datos experimentales . Londres, Inglaterra: Springer-Verlag.
^ ab Johnson, Roger (1994), "Estimación del tamaño de una población", Teaching Statistics , 16 (2 (verano)): 50–52, doi :10.1111/j.1467-9639.1994.tb00688.x
^ Johnson, Roger (2006), "Estimación del tamaño de una población", Cómo aprovechar al máximo la enseñanza de la estadística, archivado desde el original (PDF) el 20 de noviembre de 2008

Fuentes

EL Lehmann y G. Casella. Teoría de la estimación puntual . ISBN 0387985026.
Dale Shermon (2009). Ingeniería de costos de sistemas . Gower Publishing. ISBN 978-0-566-08861-2.
John Rice (1995). Estadística matemática y análisis de datos . Duxbury Press. ISBN 0-534-209343.
Steven M. Kay. Fundamentos del procesamiento estadístico de señales: teoría de la estimación . ISBN 0-13-345711-7.
H. Vincent Poor (16 de marzo de 1998). Introducción a la detección y estimación de señales . Springer. ISBN 0-387-94173-8.
Harry L. Van Trees (2001). Teoría de detección, estimación y modulación, parte 1. Wiley. ISBN 0-471-09517-6. Archivado desde el original el 28 de abril de 2005.
Dan Simon. Estimación del estado óptimo: Kalman, H-infinito y enfoques no lineales. Archivado desde el original el 30 de diciembre de 2010.
Filtros adaptativos . Nueva Jersey: Wiley. 2008. ISBN 978-0-470-25388-5.
Fundamentos del filtrado adaptativo . Nueva Jersey: Wiley. 2003. ISBN 0-471-46126-1.
Estimación lineal . Nueva Jersey: Prentice-Hall. 2000. ISBN 978-0-13-022464-4.
Estimación y control cuadráticos indefinidos: un enfoque unificado para las teorías H ² y H ^∞ . PA: Sociedad de Matemáticas Industriales y Aplicadas (SIAM). 1999. ISBN 978-0-89871-411-1.
VG Voinov y MS Nikulin (1993). Estimadores insesgados y sus aplicaciones. Vol. 1: Caso univariado . Kluwer Academic Publishers. ISBN 0-7923-2382-3.
VG Voinov y MS Nikulin (1996). Estimadores insesgados y sus aplicaciones. Vol. 2: Caso multivariado . Kluwer Academic Publishers. ISBN 0-7923-3939-8.

Enlaces externos

Medios relacionados con Teoría de la estimación en Wikimedia Commons