Proporción de población

En estadística, una proporción de población , generalmente denotada por o la letra griega , ^[1] es un parámetro que describe un valor porcentual asociado con una población . Por ejemplo, el censo de los Estados Unidos de 2010 mostró que el 83,7% de la población estadounidense fue identificada como no hispana o latina; el valor de .837 es una proporción de población. En general, la proporción de población y otros parámetros de población son desconocidos. Se puede realizar un censo para determinar el valor real de un parámetro de población, pero a menudo un censo no es práctico debido a sus costos y consumo de tiempo. ${\estilo de visualización P}$ ${\estilo de visualización \pi}$

Una proporción de población se estima generalmente a través de una estadística de muestra imparcial obtenida de un estudio o experimento observacional . Por ejemplo, la Conferencia Nacional de Alfabetización Tecnológica realizó una encuesta nacional de 2000 adultos para determinar el porcentaje de adultos que son analfabetos económicamente. El estudio mostró que el 72% de los 2000 adultos muestreados no entendían qué es un producto interno bruto. ^[2] El valor del 72% es una proporción de muestra. La proporción de muestra generalmente se denota por y en algunos libros de texto por . ^[3]^[4] ${\hat {p}}$ ${\estilo de visualización p}$

Definición matemática

Diagrama de Venn que ilustra un conjunto y su subconjunto . La proporción se puede calcular midiendo la cantidad de que hay en . ${\estilo de visualización R}$ ${\estilo de visualización S}$ ${\estilo de visualización S}$ ${\estilo de visualización R}$

Una proporción se define matemáticamente como la relación entre la cantidad de elementos (una cantidad contable ) de un subconjunto y el tamaño de un conjunto : ${\estilo de visualización S}$ ${\estilo de visualización R}$

P={\frac {X}{N}},

donde es el recuento de éxitos en la población, y es el tamaño de la población. ${\estilo de visualización X}$ ${\estilo de visualización N}$

Esta definición matemática se puede generalizar para proporcionar la definición de la proporción de muestra:

{\sombrero {p}}={\frac {x}{n}}

donde es el recuento de éxitos en la muestra, y es el tamaño de la muestra obtenida de la población. ^[5]^[3] ${\estilo de visualización x}$ ${\estilo de visualización n}$

Estimación

Uno de los principales objetivos de estudio de la estadística inferencial es determinar el valor "verdadero" de un parámetro. Por lo general, nunca se encontrará el valor real de un parámetro, a menos que se realice un censo de la población en estudio. Sin embargo, existen métodos estadísticos que se pueden utilizar para obtener una estimación razonable de un parámetro. Estos métodos incluyen los intervalos de confianza y las pruebas de hipótesis .

Estimar el valor de una proporción poblacional puede tener grandes implicaciones en las áreas de agricultura, negocios, economía, educación, ingeniería, estudios ambientales, medicina, derecho, ciencias políticas, psicología y sociología.

Una proporción poblacional se puede estimar mediante el uso de un intervalo de confianza conocido como proporción de una muestra en el intervalo Z cuya fórmula se da a continuación:

{\hat {p}}\pm z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}

donde es la proporción de la muestra, es el tamaño de la muestra y es el valor crítico superior de la distribución normal estándar para un nivel de confianza . ^[6] ${\hat {p}}$ ${\estilo de visualización n}$ $z^{*}$ ${\frac {1-C}{2}}$ ${\estilo de visualización C}$

Prueba

Para obtener la fórmula de la proporción de una muestra en el intervalo Z , se debe tener en cuenta una distribución de muestreo de proporciones de muestra. La media de la distribución de muestreo de proporciones de muestra se denota generalmente como y su desviación estándar se denota como: ^[3] $\mu _{\hat {p}}=P$

\sigma _{\hat {p}}={\sqrt {\frac {P(1-P)}{n}}}

Como se desconoce el valor de , se utilizará una estadística no sesgada para . La media y la desviación estándar se reescriben respectivamente como: ${\estilo de visualización P}$ ${\hat {p}}$ ${\estilo de visualización P}$

\mu _{\sombrero {p}}={\sombrero {p}}

\sigma _{\hat {p}}={\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}

Invocando el teorema del límite central , la distribución muestral de las proporciones muestrales es aproximadamente normal , siempre que la muestra sea razonablemente grande y no sesgada.

Supongamos que se calcula la siguiente probabilidad:

P(-z^{*}<{\frac {{\hat {p}}-P}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}} )}{n}}}}<z^{*})=C

donde y son los valores críticos estándar. ${\estilo de visualización 0<C<1}$ $\pm z^{*}$

La desigualdad

-z^{*}<{\frac {{\hat {p}}-P}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})} {n}}}}<z^{*}

puede reescribirse algebraicamente de la siguiente manera:

-z^{*}<{\frac {{\hat {p}}-P}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}}<z^{*}\Rightarrow -z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}<{\hat {p}}-P<z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}\Rightarrow -{\hat {p}}-z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}<-P<-{\hat {p}}+z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}\Rightarrow {\hat {p}}-z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}<P<{\hat {p}}+z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}

Del trabajo algebraico realizado anteriormente se desprende un nivel de certeza que podría estar entre los valores de: $C$ $P$

{\hat {p}}\pm z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}

Condiciones para la inferencia

En general, la fórmula utilizada para estimar una proporción de población requiere la sustitución de valores numéricos conocidos. Sin embargo, estos valores numéricos no se pueden sustituir "a ciegas" en la fórmula porque la inferencia estadística requiere que la estimación de un parámetro desconocido sea justificable. Para que la estimación de un parámetro sea justificable, hay tres condiciones que deben verificarse:

Las observaciones individuales de los datos deben obtenerse de una muestra aleatoria simple de la población de interés.
Las observaciones individuales de los datos deben mostrar normalidad . Esto se puede suponer matemáticamente con la siguiente definición:
- Sea el tamaño de muestra de una muestra aleatoria dada y sea su proporción muestral. Si y , entonces las observaciones individuales de los datos muestran normalidad. $n$ ${\hat {p}}$ $n{\hat {p}}\geq 10$ $n(1-{\hat {p}})\geq 10$
Las observaciones individuales de los datos deben ser independientes entre sí. Esto se puede suponer matemáticamente con la siguiente definición:
- Sea el tamaño de la población de interés y sea el tamaño de la muestra de una muestra aleatoria simple de la población. Si , entonces las observaciones individuales de los datos son independientes entre sí. $N$ $n$ $N\geq 10n$

En la mayoría de los libros de texto de estadística , las condiciones para la MAS, la normalidad y la independencia se denominan a veces condiciones para la caja de herramientas de inferencia . Para obtener una descripción más detallada de las regiones en las que no se utiliza esta simplificación, consulte (https://en.wikipedia.org/wiki/Population_proportion/Binomial_proportion_confidence_interval#Jeffreys_interval )

Ejemplo

Supongamos que se están celebrando elecciones presidenciales en una democracia. Una muestra aleatoria de 400 votantes elegibles de la población de votantes de la democracia muestra que 272 votantes apoyan al candidato B. Un politólogo quiere determinar qué porcentaje de la población de votantes apoya al candidato B.

Para responder a la pregunta del politólogo, se puede construir una proporción de una muestra en el intervalo Z con un nivel de confianza del 95% para determinar la proporción de la población de votantes elegibles en esta democracia que apoyan al candidato B.

Solución

Se sabe a partir de la muestra aleatoria que con un tamaño de muestra . Antes de construir un intervalo de confianza, se verificarán las condiciones para la inferencia. ${\hat {p}}={\frac {272}{400}}=0.68$ $n=400$

Dado que se obtuvo una muestra aleatoria de 400 votantes de la población votante, se cumple la condición de una muestra aleatoria simple.
Sea y , se comprobará si y $n=400$ ${\hat {p}}=0.68$ $n{\hat {p}}\geq 10$ $n(1-{\hat {p}})\geq 10$

(400)(0.68)\geq 10\Rightarrow 272\geq 10

(400)(1-0.68)\geq 10\Rightarrow 128\geq 10

La condición para la normalidad se ha cumplido.

Sea el tamaño de la población de votantes en esta democracia y sea . Si , entonces hay independencia. $N$ $n=400$ $N\geq 10n$

N\geq 10(400)\Rightarrow N\geq 4000

Se puede suponer que el número de votantes de esta democracia es de al menos 4.000 personas, por lo que se cumple la condición para la independencia.

N

Verificadas las condiciones de inferencia, es permisible construir un intervalo de confianza.

Dejar y ${\hat {p}}=0.68,n=400,$ $C=0.95$

Para resolver , se utiliza la expresión . $z^{*}$ ${\frac {1-C}{2}}$

${\frac {1-C}{2}}={\frac {1-0.95}{2}}={\frac {0.05}{2}}=0.0250$

Al examinar una curva de campana normal estándar, el valor de se puede determinar identificando qué puntuación estándar le otorga a la curva normal estándar un área de cola superior de 0,0250 o un área de 1 – 0,0250 = 0,9750. El valor de también se puede encontrar a través de una tabla de probabilidades normales estándar. $z^{*}$ $z^{*}$

De una tabla de probabilidades normales estándar, el valor de que da un área de 0,9750 es 1,96. Por lo tanto, el valor de es 1,96. $Z$ $z^{*}$

Los valores de , , ahora se pueden sustituir en la fórmula para la proporción de una muestra en el intervalo Z: ${\hat {p}}=0.68$ $n=400$ $z^{*}=1.96$

${\hat {p}}\pm z^{*}{\sqrt {\frac {{\hat {p}}(1-{\hat {p}})}{n}}}\Rightarrow (0.68)\pm (1.96){\sqrt {\frac {(0.68)(1-0.68)}{(400)}}}\Rightarrow 0.68\pm 1.96{\sqrt {0.000544}}$ $\Rightarrow {\bigl (}0.63429,0.72571{\bigr )}$

Con base en las condiciones de inferencia y la fórmula para la proporción de una muestra en el intervalo Z, se puede concluir con un nivel de confianza del 95% que el porcentaje de la población de votantes de esta democracia que apoya al candidato B está entre 63,429% y 72,571%.

Valor del parámetro en el rango del intervalo de confianza

Una pregunta que se plantea con frecuencia en la estadística inferencial es si el parámetro está incluido en un intervalo de confianza. La única forma de responder a esta pregunta es que se realice un censo. En relación con el ejemplo anterior, la probabilidad de que la proporción de la población esté dentro del intervalo de confianza es 1 o 0. Es decir, el parámetro está incluido en el intervalo o no. El objetivo principal de un intervalo de confianza es ilustrar mejor cuál podría ser el valor ideal de un parámetro.

Errores comunes y malas interpretaciones en la estimación

Un error muy común que surge de la construcción de un intervalo de confianza es la creencia de que el nivel de confianza, como , significa un 95% de probabilidad. Esto es incorrecto. El nivel de confianza se basa en una medida de certeza, no de probabilidad. Por lo tanto, los valores de se encuentran entre 0 y 1, exclusivamente. $C=95\%$ $C$

Estimación de P mediante muestreo de conjuntos clasificados

Se puede obtener una estimación más precisa de P eligiendo un muestreo de conjuntos clasificados en lugar de un muestreo aleatorio simple ^[7]^[8]

Véase también

Referencias

^ Introducción a las investigaciones estadísticas . Wiley. 18 de agosto de 2014. ISBN 978-1-118-95667-0.
^ Ott, R. Lyman (1993). Introducción a los métodos estadísticos y al análisis de datos . Duxbury Press. ISBN 0-534-93150-2.
^ abc Weisstein, Eric W. "Proporción muestral". mathworld.wolfram.com . Consultado el 22 de agosto de 2020 .
^ "6.3: La proporción muestral". Statistics LibreTexts . 2014-04-16 . Consultado el 2020-08-22 .
^ Weisstein, Eric (1998). Enciclopedia concisa de matemáticas de la CRC . Chapman & Hall/CRC. Bibcode :1998ccem.book.....W.
^ Hinders, Duane (2008). Edición comentada para profesores La práctica de la estadística . WH Freeman. ISBN 978-0-7167-7703-8.
^ Abbasi, Azhar Mehmood; Yousaf Shad, Muhammad (15 de mayo de 2021). "Estimación de la proporción de la población utilizando un muestreo de conjuntos clasificados basado en concomitantes". Comunicaciones en estadística: teoría y métodos . 51 (9): 2689–2709. doi :10.1080/03610926.2021.1916529. ISSN 0361-0926. S2CID 236554602.
^ Abbasi, Azhar Mehmood; Shad, Muhammad Yousaf (15 de mayo de 2021). "Estimación de la proporción de la población utilizando un muestreo de conjuntos clasificados basado en concomitantes". Comunicaciones en estadística: teoría y métodos . 51 (9): 2689–2709. doi :10.1080/03610926.2021.1916529. ISSN 0361-0926. S2CID 236554602.