stringtranslate.com

Proporción de población

En estadística, una proporción de población , generalmente denotada con o la letra griega , [1] es un parámetro que describe un valor porcentual asociado con una población . Por ejemplo, el censo de Estados Unidos de 2010 mostró que el 83,7% de la población estadounidense fue identificada como no hispana ni latina; el valor de .837 es una proporción poblacional. En general, se desconocen la proporción de la población y otros parámetros poblacionales. Se puede realizar un censo para determinar el valor real de un parámetro poblacional, pero a menudo un censo no es práctico debido a sus costos y consumo de tiempo.

Una proporción de la población generalmente se estima mediante una estadística de muestra insesgada obtenida de un estudio o experimento observacional . Por ejemplo, la Conferencia Nacional de Alfabetización Tecnológica llevó a cabo una encuesta nacional entre 2.000 adultos para determinar el porcentaje de adultos económicamente analfabetos. El estudio mostró que el 72% de los 2.000 adultos encuestados no entendían qué es el producto interno bruto. [2] El valor del 72% es una proporción muestral. La proporción muestral generalmente se denota por y en algunos libros de texto por . [3] [4]

Definición matemática

Una ilustración del diagrama de Venn de un conjunto y su subconjunto . La proporción se puede calcular midiendo cuánto de hay en .

Una proporción se define matemáticamente como la relación entre la cantidad de elementos (una cantidad contable ) en un subconjunto y el tamaño de un conjunto :

donde es el recuento de éxitos en la población y es el tamaño de la población.

Esta definición matemática se puede generalizar para proporcionar la definición de la proporción muestral:

donde es el recuento de éxitos en la muestra y es el tamaño de la muestra obtenida de la población. [5] [3]

Estimacion

Uno de los principales focos de estudio en estadística inferencial es determinar el valor "verdadero" de un parámetro. Generalmente nunca se encontrará el valor real de un parámetro, a menos que se realice un censo en la población de estudio. Sin embargo, existen métodos estadísticos que se pueden utilizar para obtener una estimación razonable de un parámetro. Estos métodos incluyen intervalos de confianza y pruebas de hipótesis .

Estimar el valor de una proporción de población puede ser de gran implicación en las áreas de agricultura, negocios, economía, educación, ingeniería, estudios ambientales, medicina, derecho, ciencias políticas, psicología y sociología.

Se puede estimar una proporción de población mediante el uso de un intervalo de confianza conocido como proporción de una muestra en el intervalo Z cuya fórmula se proporciona a continuación:

donde es la proporción de la muestra, es el tamaño de la muestra y es el valor crítico superior de la distribución normal estándar para un nivel de confianza . [6]

Prueba

Para derivar la fórmula para la proporción de una muestra en el intervalo Z , se debe tener en cuenta una distribución muestral de proporciones muestrales. La media de la distribución muestral de las proporciones muestrales generalmente se denota como y su desviación estándar se denota como: [3]

Como se desconoce el valor de , se utilizará una estadística imparcial para . La media y la desviación estándar se reescriben respectivamente como:

y

Invocando el teorema del límite central , la distribución muestral de las proporciones muestrales es aproximadamente normal , siempre que la muestra sea razonablemente grande y no esté sesgada.

Supongamos que se calcula la siguiente probabilidad:

,

donde y son los valores críticos estándar.

La distribución muestral de proporciones muestrales es aproximadamente normal cuando satisface los requisitos del teorema del límite central.

La desigualdad

se puede reescribir algebraicamente de la siguiente manera:

Del trabajo algebraico realizado anteriormente, se desprende un nivel de certeza que podría estar entre los valores de:

.

Condiciones para la inferencia

En general, la fórmula utilizada para estimar una proporción de población requiere sustituciones de valores numéricos conocidos. Sin embargo, estos valores numéricos no pueden sustituirse "a ciegas" en la fórmula porque la inferencia estadística requiere que la estimación de un parámetro desconocido sea justificable. Para que la estimación de un parámetro sea justificable, es necesario verificar tres condiciones:

  1. La observación individual de los datos debe obtenerse de una muestra aleatoria simple de la población de interés.
  2. Las observaciones individuales de los datos deben mostrar normalidad . Esto se puede asumir matemáticamente con la siguiente definición:
    • Sea el tamaño de la muestra de una muestra aleatoria dada y sea su proporción muestral. Si y , entonces las observaciones individuales de los datos muestran normalidad.
  3. Las observaciones individuales de los datos deben ser independientes entre sí. Esto se puede asumir matemáticamente con la siguiente definición:
    • Sea el tamaño de la población de interés y sea el tamaño de muestra de una muestra aleatoria simple de la población. Si , entonces las observaciones individuales de los datos son independientes entre sí.

En la mayoría de los libros de texto de estadística , a veces se hace referencia a las condiciones para SRS, normalidad e independencia como condiciones para la caja de herramientas de inferencia . Para obtener una visión más detallada de las regiones donde no se utiliza esta simplificación, consulte (https://en.wikipedia.org/wiki/Population_proportion/Binomial_proportion_confidence_interval#Jeffreys_interval)

Ejemplo

Supongamos que se están celebrando elecciones presidenciales en una democracia. Una muestra aleatoria de 400 votantes elegibles en la población de votantes de la democracia muestra que 272 votantes apoyan al candidato B. Un politólogo quiere determinar qué porcentaje de la población de votantes apoya al candidato B.

Para responder a la pregunta del politólogo, se puede construir una proporción de una muestra en el intervalo Z con un nivel de confianza del 95% para determinar la proporción poblacional de votantes elegibles en esta democracia que apoyan al candidato B.

Solución

Se sabe de la muestra aleatoria que con el tamaño de la muestra . Antes de construir un intervalo de confianza, se verificarán las condiciones para la inferencia.

y
Se ha cumplido la condición de normalidad.
Se puede suponer que el tamaño de la población de los votantes de esta democracia es de al menos 4.000 personas. Por tanto, se ha cumplido la condición para la independencia.

Una vez verificadas las condiciones para la inferencia, es permisible construir un intervalo de confianza.

dejar y

Para resolver , se utiliza la expresión .

La curva normal estándar que da un área de cola superior de 0,0250 y un área de 0,9750 para .
Una tabla con probabilidades normales estándar para .

Al examinar una curva de campana normal estándar, el valor de puede determinarse identificando qué puntuación estándar le da a la curva normal estándar un área de la cola superior de 0,0250 o un área de 1 – 0,0250 = 0,9750. El valor de también se puede encontrar mediante una tabla de probabilidades normales estándar.

De una tabla de probabilidades normales estándar, el valor de que da un área de 0,9750 es 1,96. Por tanto, el valor de es 1,96.

Los valores de , , ahora se pueden sustituir en la fórmula para la proporción de una muestra en el intervalo Z:

Con base en las condiciones de inferencia y la fórmula para la proporción de una muestra en el intervalo Z, se puede concluir con un nivel de confianza del 95% que el porcentaje de la población votante en esta democracia que apoya al candidato B está entre 63,429% y 72,571. %.

Valor del parámetro en el rango del intervalo de confianza.

Una pregunta común en estadística inferencial es si el parámetro está incluido dentro de un intervalo de confianza. La única manera de responder a esta pregunta es mediante la realización de un censo. Con referencia al ejemplo dado anteriormente, la probabilidad de que la proporción de la población esté en el rango del intervalo de confianza es 1 o 0. Es decir, el parámetro está incluido en el rango del intervalo o no. El objetivo principal de un intervalo de confianza es ilustrar mejor cuál podría ser el valor ideal de un parámetro.

Errores comunes y malas interpretaciones de la estimación.

Un error muy común que surge al construir un intervalo de confianza es la creencia de que el nivel de confianza, como por ejemplo , significa 95% de probabilidad. Esto es incorrecto. El nivel de confianza se basa en una medida de certeza, no de probabilidad. Por tanto, los valores de caen entre 0 y 1, exclusivamente.

Estimación de P utilizando muestreo de conjuntos clasificados

Se puede obtener una estimación más precisa de P eligiendo un muestreo de conjuntos clasificados en lugar de un muestreo aleatorio simple [7] [8]

Ver también

Referencias

  1. ^ Introducción a las investigaciones estadísticas . Wiley. 18 de agosto de 2014. ISBN 978-1-118-95667-0.
  2. ^ Ott, R. Lyman (1993). Introducción a los métodos estadísticos y al análisis de datos . ISBN 0-534-93150-2.
  3. ^ abc Weisstein, Eric W. "Proporción de muestra". mathworld.wolfram.com . Consultado el 22 de agosto de 2020 .
  4. ^ "6.3: La proporción de la muestra". Estadística LibreTexts . 2014-04-16 . Consultado el 22 de agosto de 2020 .
  5. ^ Weisstein, Eric (1998). Enciclopedia concisa de matemáticas CRC . Chapman y Hall/CRC. Código Bib : 1998ccem.book.....W.
  6. ^ Obstaculiza, Duane (2008). Edición comentada para profesores La práctica de la estadística . ISBN 978-0-7167-7703-8.
  7. ^ Abbasi, Azhar Mehmood; Yousaf Shad, Mahoma (15 de mayo de 2021). "Estimación de la proporción de la población mediante muestreo de conjuntos clasificados basado concomitante". Comunicaciones en estadística: teoría y métodos . 51 (9): 2689–2709. doi :10.1080/03610926.2021.1916529. ISSN  0361-0926. S2CID  236554602.
  8. ^ Abbasi, Azhar Mehmood; Shad, Muhammad Yousaf (15 de mayo de 2021). "Estimación de la proporción de la población mediante muestreo de conjuntos clasificados basado concomitante". Comunicaciones en estadística: teoría y métodos . 51 (9): 2689–2709. doi :10.1080/03610926.2021.1916529. ISSN  0361-0926. S2CID  236554602.