stringtranslate.com

Univariante (estadística)

Univariante es un término que se utiliza habitualmente en estadística para describir un tipo de datos que consisten en observaciones sobre una única característica o atributo. Un ejemplo sencillo de datos univariados serían los salarios de los trabajadores de la industria. [1] Al igual que todos los demás datos, los datos univariados se pueden visualizar mediante gráficos, imágenes u otras herramientas de análisis después de que se midan, recopilen, informen y analicen los datos. [2]

Tipos de datos

Algunos datos univariados están compuestos de números (como la altura de 65 pulgadas o el peso de 100 libras), mientras que otros no son numéricos (como el color de los ojos, marrón o azul). En general, se utilizan los términos datos univariados categóricos y datos univariados numéricos para distinguir entre estos tipos.

Datos univariados categóricos

Los datos univariados categóricos consisten en observaciones no numéricas que pueden colocarse en categorías. Incluyen etiquetas o nombres utilizados para identificar un atributo de cada elemento. Los datos univariados categóricos suelen utilizar una escala de medición nominal u ordinal . [3]

Datos numéricos univariados

Los datos univariados numéricos consisten en observaciones que son números. Se obtienen utilizando una escala de medición de intervalo o de razón . Este tipo de datos univariados se puede clasificar aún más en dos subcategorías: discretos y continuos . [2] Un dato univariado numérico es discreto si el conjunto de todos los valores posibles es finito o infinito contable . Los datos univariados discretos suelen estar asociados con el conteo (como el número de libros leídos por una persona). Un dato univariado numérico es continuo si el conjunto de todos los valores posibles es un intervalo de números. Los datos univariados continuos suelen estar asociados con la medición (como los pesos de las personas).

Análisis de datos y aplicaciones

El análisis univariado es la forma más simple de analizar datos. Uni significa "uno", por lo que los datos tienen solo una variable ( univariado ). [4] Los datos univariados requieren analizar cada variable por separado. Los datos se recopilan con el propósito de responder una pregunta, o más específicamente, una pregunta de investigación. Los datos univariados no responden preguntas de investigación sobre relaciones entre variables, sino que se utilizan para describir una característica o atributo que varía de una observación a otra. [5] Por lo general, hay dos propósitos que un investigador puede buscar. El primero es responder una pregunta de investigación con un estudio descriptivo y el segundo es obtener conocimiento sobre cómo varía el atributo con el efecto individual de una variable en el análisis de regresión . Hay algunas formas de describir patrones encontrados en datos univariados que incluyen métodos gráficos, medidas de tendencia central y medidas de variabilidad. [6]

Al igual que otras formas de estadística, puede ser inferencial o descriptiva . El hecho clave es que solo interviene una variable.

El análisis univariado puede producir resultados engañosos en casos en los que el análisis multivariado es más apropiado.

Medidas de tendencia central

La tendencia central es una de las medidas descriptivas numéricas más comunes. Se utiliza para estimar la ubicación central de los datos univariados mediante el cálculo de la media , la mediana y la moda . [7] Cada uno de estos cálculos tiene sus propias ventajas y limitaciones. La media tiene la ventaja de que su cálculo incluye cada valor del conjunto de datos, pero es particularmente susceptible a la influencia de los valores atípicos . La mediana es una mejor medida cuando el conjunto de datos contiene valores atípicos. La moda es sencilla de localizar.

No se está limitado a utilizar solo una de estas medidas de tendencia central. Si los datos que se analizan son categóricos, entonces la única medida de tendencia central que se puede utilizar es la moda. Sin embargo, si los datos son de naturaleza numérica ( ordinales o de intervalo / razón ), entonces se pueden utilizar la moda, la mediana o la media para describir los datos. El uso de más de una de estas medidas proporciona un resumen descriptivo más preciso de la tendencia central para la variable univariante. [8]

Medidas de variabilidad

Una medida de variabilidad o dispersión (desviación de la media) de un conjunto de datos univariados puede revelar la forma de una distribución de datos univariados de manera más suficiente. Proporcionará alguna información sobre la variación entre los valores de los datos. Las medidas de variabilidad junto con las medidas de tendencia central brindan una mejor imagen de los datos que las medidas de tendencia central solas. [9] Las tres medidas de variabilidad utilizadas con más frecuencia son rango , varianza y desviación estándar . [10] La idoneidad de cada medida dependería del tipo de datos, la forma de la distribución de los datos y qué medida de tendencia central se esté utilizando. Si los datos son categóricos, entonces no hay ninguna medida de variabilidad que informar. Para los datos que son numéricos, las tres medidas son posibles. Si la distribución de los datos es simétrica, entonces las medidas de variabilidad son generalmente la varianza y la desviación estándar. Sin embargo, si los datos están sesgados , entonces la medida de variabilidad que sería apropiada para ese conjunto de datos es el rango. [3]

Métodos descriptivos

Las estadísticas descriptivas describen una muestra o población. Pueden ser parte del análisis exploratorio de datos . [11]

La estadística apropiada depende del nivel de medición . Para las variables nominales, basta con una tabla de frecuencias y una lista de las modas . Para las variables ordinales, la mediana se puede calcular como una medida de tendencia central y el rango (y sus variaciones) como una medida de dispersión. Para las variables de nivel de intervalo, se agregan a la caja de herramientas la media aritmética (promedio) y la desviación estándar y, para las variables de nivel de razón, agregamos la media geométrica y la media armónica como medidas de tendencia central y el coeficiente de variación como medida de dispersión.

Para los datos de nivel de intervalo y de razón, otros descriptores incluyen la asimetría y la curtosis de la variable .

Métodos inferenciales

Los métodos inferenciales nos permiten inferir a partir de una muestra a una población. [11] Para una variable nominal, una prueba de chi-cuadrado unidireccional (bondad de ajuste) puede ayudar a determinar si nuestra muestra coincide con la de alguna población. [12] Para datos de nivel de intervalo y de razón, una prueba t de una muestra puede permitirnos inferir si la media en nuestra muestra coincide con algún número propuesto (normalmente 0). Otras pruebas de ubicación disponibles incluyen la prueba de signos de una muestra y la prueba de rangos con signo de Wilcoxon .

Métodos gráficos

Las ilustraciones gráficas más utilizadas para datos univariados son:

Tablas de distribución de frecuencias

La frecuencia es la cantidad de veces que aparece un número. La frecuencia de una observación en estadística nos indica la cantidad de veces que aparece la observación en los datos. Por ejemplo, en la siguiente lista de números { 1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9 }, la frecuencia del número 9 es 5 (porque aparece 5 veces en este conjunto de datos).

Gráficos de barras

Este es un ejemplo de diagrama de barras.

Un gráfico de barras es un gráfico que consta de barras rectangulares . Estas barras representan en realidad el número o el porcentaje de observaciones de categorías existentes en una variable. La longitud o altura de las barras proporciona una representación visual de las diferencias proporcionales entre categorías.

Histogramas

histograma

Los histogramas se utilizan para estimar la distribución de los datos, con la frecuencia de los valores asignados a un rango de valores llamado bin . [13]

Gráficos circulares

Un gráfico circular

El gráfico circular es un círculo dividido en porciones que representan las frecuencias relativas o porcentajes de una población o una muestra pertenecientes a diferentes categorías.

Distribuciones

La distribución univariante es un tipo de dispersión de una única variable aleatoria descrita con una función de masa de probabilidad (pmf) para una distribución de probabilidad discreta o una función de densidad de probabilidad (pdf) para una distribución de probabilidad continua . [14] No debe confundirse con la distribución multivariante .

Distribuciones discretas comunes

Distribuciones continuas comunes

Véase también

Referencias

  1. ^ Kachigan, Sam Kash (1986). Análisis estadístico: una introducción interdisciplinaria a los métodos univariados y multivariados . Nueva York: Radius Press. ISBN 0-942154-99-1.
  2. ^ ab Lacke, Prem S. Mann; con la ayuda de Christopher Jay (2010). Estadística introductoria (7.ª ed.). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  3. ^ ab Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. Estadísticas para empresas y economía (décima edición). Cengage Learning. pág. 1018. ISBN 978-0-324-80926-8.
  4. ^ "Análisis univariado". stathow .
  5. ^ "Datos univariados". study.com .
  6. ^ Trochim, William. "Estadística descriptiva". Web Center for Social Research Methods . Consultado el 15 de febrero de 2017 .
  7. ^ O'Rourke, Norm; Hatcher, Larry; Stepanski, Edward J. (2005). Un enfoque paso a paso para utilizar SAS para estadísticas univariadas y multivariadas (2.ª ed.). Nueva York: Wiley-Interscience. ISBN 1-59047-417-1.
  8. ^ Longnecker, R. Lyman Ott, Michael (2009). Introducción a los métodos estadísticos y al análisis de datos (6.ª ed., edición internacional). Pacific Grove, California: Brooks/Cole. ISBN 978-0-495-10914-3.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  9. ^ Meloun, Milán; Militky, Jirí (2011). Análisis de datos estadísticos: una guía práctica . Nueva Delhi: Woodhead Pub Ltd. ISBN 978-0-85709-109-3.
  10. ^ Purves, David Freedman; Roberto Pisani; Roger (2007). Estadísticas (4. ed.). Nueva York [ua]: Norton. ISBN 978-0-393-92972-0.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  11. ^ ab Everitt, Brian (1998). Diccionario de estadística de Cambridge . Cambridge, Reino Unido. Nueva York: Cambridge University Press. ISBN 0521593468.
  12. ^ "Chi-cuadrado unidireccional".
  13. ^ Díez, David M.; Barr, Christopher D.; Çetinkaya-Rundel, Mía (2015). Estadísticas de OpenIntro (3ª ed.). OpenIntro, Inc. pág. 30.ISBN 978-1-9434-5003-9.
  14. ^ Samaniego, Francisco J. (2014). Modelado estocástico y estadística matemática: un texto para estadísticos y científicos cuantitativos . Boca Raton: CRC Press. p. 167. ISBN 978-1-4665-6046-8.