En estadística , los datos pueden tener varios tipos de datos estadísticos , por ejemplo, datos categóricos (por ejemplo, país ), datos direccionales ( ángulos o direcciones, por ejemplo, mediciones del viento), datos de conteo (un número entero de eventos) o intervalo real (por ejemplo, medidas de temperatura ). El tipo de datos es un concepto fundamental en estadística y controla qué tipos de distribuciones de probabilidad se pueden usar lógicamente para describir la variable, las operaciones permisibles en la variable, el tipo de análisis de regresión utilizado para predecir la variable, etc. El concepto de tipo de datos es similar al concepto de nivel de medición , pero más específico. Por ejemplo, los datos de conteo requieren una distribución diferente (por ejemplo, una distribución de Poisson o una distribución binomial ) de la que requieren los datos de valores reales no negativos , pero ambos caen dentro del mismo nivel de medición (una escala de proporción).
Se han hecho varios intentos para producir una taxonomía de niveles de medición . El psicofísico Stanley Smith Stevens definió las escalas nominal, ordinal, de intervalo y de razón. Las mediciones nominales no tienen un orden de clasificación significativo entre los valores y permiten cualquier transformación uno a uno. Las mediciones ordinales tienen diferencias imprecisas entre valores consecutivos, pero tienen un orden significativo para esos valores y permiten cualquier transformación que preserve el orden. Las mediciones de intervalo tienen distancias significativas entre mediciones definidas, pero el valor cero es arbitrario (como en el caso de las mediciones de longitud y temperatura en grados Celsius o grados Fahrenheit ) y permiten cualquier transformación lineal. Las mediciones de razón tienen un valor cero significativo y las distancias entre diferentes mediciones definidas, y permiten cualquier transformación de reescalado.
Debido a que las variables que se ajustan únicamente a mediciones nominales u ordinales no se pueden medir razonablemente de forma numérica, a veces se agrupan como variables categóricas , mientras que las mediciones de razón e intervalo se agrupan como variables cuantitativas , que pueden ser discretas o continuas , debido a su naturaleza numérica. Tales distinciones a menudo se pueden correlacionar vagamente con el tipo de datos en informática, en el sentido de que las variables categóricas dicotómicas se pueden representar con el tipo de datos booleano , las variables categóricas politómicas con números enteros asignados arbitrariamente en el tipo de datos integral y las variables continuas con el tipo de datos real que implica el cálculo de punto flotante . Pero la asignación de los tipos de datos de informática a los tipos de datos estadísticos depende de qué categorización de estos últimos se esté implementando.
Se han propuesto otras categorizaciones. Por ejemplo, Mosteller y Tukey (1977) [1] distinguieron grados, rangos, fracciones contadas, conteos, cantidades y saldos. Nelder (1990) [2] describió conteos continuos, razones continuas, razones de conteo y modos categóricos de datos. Véase también Chrisman (1998), [3] van den Berg (1991). [4]
La cuestión de si es o no apropiado aplicar diferentes tipos de métodos estadísticos a datos obtenidos a partir de diferentes tipos de procedimientos de medición se complica por cuestiones relacionadas con la transformación de variables y la interpretación precisa de las preguntas de investigación. "La relación entre los datos y lo que describen simplemente refleja el hecho de que ciertos tipos de afirmaciones estadísticas pueden tener valores de verdad que no son invariables bajo ciertas transformaciones. Que sea o no sensato contemplar una transformación depende de la pregunta que uno esté tratando de responder" (Hand, 2004, p. 82). [5]
La siguiente tabla clasifica los distintos tipos de datos simples, distribuciones asociadas, operaciones permisibles, etc. Independientemente de los valores lógicos posibles, todos estos tipos de datos generalmente se codifican utilizando números reales , porque la teoría de variables aleatorias a menudo asume explícitamente que contienen números reales.
Los datos que no se pueden describir con un único número suelen incluirse en vectores aleatorios de variables aleatorias de valor real , aunque cada vez hay más tendencia a tratarlos por separado. Algunos ejemplos:
Estos conceptos tienen su origen en diversos campos científicos y con frecuencia se superponen en su uso, por lo que es muy frecuente que varios conceptos puedan aplicarse a un mismo problema.