Transformación de datos (estadísticas)

En estadística , la transformación de datos es la aplicación de una función matemática determinista a cada punto de un conjunto de datos ; es decir, cada punto de datos z _i se reemplaza con el valor transformado y _i = f ( z _i ), donde f es una función. Las transformaciones se aplican generalmente para que los datos parezcan cumplir más fielmente los supuestos de un procedimiento de inferencia estadística que se va a aplicar, o para mejorar la interpretabilidad o la apariencia de los gráficos .

Casi siempre, la función que se utiliza para transformar los datos es invertible y, por lo general, es continua . La transformación suele aplicarse a un conjunto de medidas comparables. Por ejemplo, si trabajamos con datos sobre los ingresos de las personas en alguna unidad monetaria , sería habitual transformar el valor de los ingresos de cada persona mediante la función logaritmo .

Motivación

La orientación sobre cómo se deben transformar los datos, o si se debe aplicar una transformación en absoluto, debe provenir del análisis estadístico particular que se va a realizar. Por ejemplo, una forma sencilla de construir un intervalo de confianza aproximado del 95% para la media de la población es tomar la media de la muestra más o menos dos unidades de error estándar . Sin embargo, el factor constante 2 utilizado aquí es particular de la distribución normal , y solo es aplicable si la media de la muestra varía aproximadamente normalmente. El teorema del límite central establece que en muchas situaciones, la media de la muestra varía normalmente si el tamaño de la muestra es razonablemente grande. Sin embargo, si la población está sustancialmente sesgada y el tamaño de la muestra es como máximo moderado, la aproximación proporcionada por el teorema del límite central puede ser deficiente, y el intervalo de confianza resultante probablemente tendrá la probabilidad de cobertura incorrecta . Por lo tanto, cuando hay evidencia de sesgo sustancial en los datos, es común transformar los datos a una distribución simétrica ^[1] antes de construir un intervalo de confianza. Si se desea, el intervalo de confianza de los cuantiles (como la mediana) se puede transformar nuevamente a la escala original utilizando la inversa de la transformación que se aplicó a los datos. ^[2]^[3]

Los datos también se pueden transformar para que resulte más fácil visualizarlos. Por ejemplo, supongamos que tenemos un diagrama de dispersión en el que los puntos son los países del mundo y los valores de los datos que se representan son la superficie terrestre y la población de cada país. Si el diagrama se realiza utilizando datos no transformados (por ejemplo, kilómetros cuadrados para la superficie y el número de personas para la población), la mayoría de los países se representarán en un grupo reducido de puntos en la esquina inferior izquierda del gráfico. Los pocos países con superficies y/o poblaciones muy grandes se distribuirán de forma muy uniforme en la mayor parte del área del gráfico. El simple cambio de escala de las unidades (por ejemplo, a miles de kilómetros cuadrados o a millones de personas) no cambiará esto. Sin embargo, tras las transformaciones logarítmicas tanto de la superficie como de la población, los puntos se distribuirán de forma más uniforme en el gráfico.

Otra razón para aplicar la transformación de datos es mejorar la interpretabilidad, incluso si no se va a realizar ningún análisis estadístico formal ni ninguna visualización. Por ejemplo, supongamos que estamos comparando coches en términos de su economía de combustible. Estos datos suelen presentarse como "kilómetros por litro" o "millas por galón". Sin embargo, si el objetivo es evaluar cuánto combustible adicional utilizaría una persona en un año al conducir un coche en comparación con otro, es más natural trabajar con los datos transformados aplicando la función recíproca , que da como resultado litros por kilómetro o galones por milla.

En regresión

La transformación de datos puede utilizarse como medida correctiva para hacer que los datos sean adecuados para el modelado con regresión lineal si los datos originales violan uno o más supuestos de la regresión lineal. ^[4] Por ejemplo, los modelos de regresión lineal más simples suponen una relación lineal entre el valor esperado de Y (la variable de respuesta que se va a predecir) y cada variable independiente (cuando las otras variables independientes se mantienen fijas). Si la linealidad no se cumple, incluso aproximadamente, a veces es posible transformar las variables independientes o dependientes en el modelo de regresión para mejorar la linealidad. ^[5] Por ejemplo, la adición de funciones cuadráticas de las variables independientes originales puede conducir a una relación lineal con el valor esperado de Y, lo que resulta en un modelo de regresión polinomial , un caso especial de regresión lineal.

Otro supuesto de la regresión lineal es la homocedasticidad , es decir, la varianza de los errores debe ser la misma independientemente de los valores de los predictores. Si se viola este supuesto (es decir, si los datos son heterocedásticos ), puede ser posible encontrar una transformación de Y solamente, o transformaciones de X (las variables predictoras ) e Y , de modo que el supuesto de homocedasticidad (además del supuesto de linealidad) sea cierto en las variables transformadas ^[5] y, por lo tanto, se pueda aplicar la regresión lineal en ellas.

Otra aplicación de la transformación de datos es abordar el problema de la falta de normalidad en términos de error. La normalidad univariante no es necesaria para que las estimaciones de mínimos cuadrados de los parámetros de regresión sean significativas (véase el teorema de Gauss-Markov ). Sin embargo, los intervalos de confianza y las pruebas de hipótesis tendrán mejores propiedades estadísticas si las variables exhiben normalidad multivariante . Las transformaciones que estabilizan la varianza de los términos de error (es decir, las que abordan la heterocedaticidad) a menudo también ayudan a que los términos de error sean aproximadamente normales. ^[5]^[6]

Ejemplos

Ecuación: $Y=a+bX$

Significado: Un aumento de una unidad en X está asociado con un aumento promedio de b unidades en Y.

Ecuación: $\log(Y)=a+bX$

(De exponenciar ambos lados de la ecuación: )

Y=e^{a}e^{bX}

Significado: Un aumento unitario en X está asociado con un aumento promedio de b unidades en , o equivalentemente, Y aumenta en promedio por un factor multiplicativo de . Para fines ilustrativos, si se usara el logaritmo de base 10 en lugar del logaritmo natural en la transformación anterior y se usaran los mismos símbolos ( a y b ) para denotar los coeficientes de regresión, entonces un aumento unitario en X conduciría a un aumento de Y en promedio. Si b fuera 1, entonces esto implica un aumento de 10 veces en Y por un aumento unitario en X

\log(Y)

e^{b}\!

10^{b}

Ecuación: $Y=a+b\log(X)$

Significado: Un aumento de k veces en X está asociado con un aumento promedio de unidades en Y. Para fines ilustrativos, si se usara el logaritmo de base 10 en lugar del logaritmo natural en la transformación anterior y se usaran los mismos símbolos ( a y b ) para denotar los coeficientes de regresión, entonces un aumento de diez veces en X daría como resultado un aumento promedio de unidades en Y.

b\times \log(k)

b\times \log _{10}(10)=b

Ecuación: $\log(Y)=a+b\log(X)$

(De exponenciar ambos lados de la ecuación: )

Y=e^{a}X^{b}

Significado: Un aumento de k veces en X está asociado con un aumento multiplicativo en Y en promedio. Por lo tanto, si X se duplica, esto resultaría en que Y cambiaría por un factor multiplicativo de . ^[7]

k^{b}

2^{b}\!

Alternativa

Los modelos lineales generalizados (GLM) proporcionan una generalización flexible de la regresión lineal ordinaria que permite que las variables de respuesta tengan modelos de distribución de error distintos de una distribución normal. Los GLM permiten que el modelo lineal se relacione con la variable de respuesta a través de una función de enlace y permiten que la magnitud de la varianza de cada medición sea una función de su valor previsto. ^[8]^[9]

Casos comunes

La transformación logarítmica y la transformación de raíz cuadrada se utilizan comúnmente para datos positivos, y la transformación inversa multiplicativa ( transformación recíproca ) se puede utilizar para datos distintos de cero. La transformación de potencia es una familia de transformaciones parametrizadas por un valor no negativo λ que incluye las transformaciones logarítmica, de raíz cuadrada e inversa multiplicativa como casos especiales. Para abordar la transformación de datos de manera sistemática, es posible utilizar técnicas de estimación estadística para estimar el parámetro λ en la transformación de potencia, identificando así la transformación que es aproximadamente la más apropiada en un entorno determinado. Dado que la familia de transformaciones de potencia también incluye la transformación de identidad, este enfoque también puede indicar si sería mejor analizar los datos sin una transformación. En el análisis de regresión, este enfoque se conoce como transformación de Box-Cox .

La transformación recíproca, algunas transformaciones de potencia como la transformación de Yeo-Johnson y ciertas otras transformaciones como la aplicación del seno hiperbólico inverso , se pueden aplicar de manera significativa a datos que incluyen valores tanto positivos como negativos ^[10] (la transformación de potencia es invertible sobre todos los números reales si λ es un entero impar). Sin embargo, cuando se observan valores tanto negativos como positivos, a veces es común comenzar agregando una constante a todos los valores, lo que produce un conjunto de datos no negativos a los que se puede aplicar cualquier transformación de potencia. ^[3]

Una situación habitual en la que se aplica una transformación de datos es cuando un valor de interés varía en varios órdenes de magnitud . Muchos fenómenos físicos y sociales muestran este comportamiento: ingresos, poblaciones de especies, tamaños de galaxias y volúmenes de lluvia, por nombrar algunos. Las transformaciones de potencia, y en particular el logaritmo, a menudo se pueden utilizar para inducir simetría en dichos datos. El logaritmo suele ser el método preferido porque es fácil interpretar su resultado en términos de "cambios de pliegue".

El logaritmo también tiene un efecto útil en las proporciones. Si estamos comparando cantidades positivas X e Y usando la proporción X / Y , entonces si X < Y , la proporción está en el intervalo (0,1), mientras que si X > Y , la proporción está en la semirrecta (1,∞), donde la proporción de 1 corresponde a la igualdad. En un análisis donde X e Y se tratan simétricamente, la proporción logarítmica log( X / Y ) es cero en el caso de igualdad, y tiene la propiedad de que si X es K veces mayor que Y , la proporción logarítmica es equidistante de cero como en la situación donde Y es K veces mayor que X (las proporciones logarítmicas son log( K ) y −log( K ) en estas dos situaciones).

Si los valores están naturalmente restringidos a estar en el rango de 0 a 1, sin incluir los puntos finales, entonces una transformación logit puede ser apropiada: esto produce valores en el rango (−∞,∞).

Transformación hacia la normalidad

1. No siempre es necesario ni deseable transformar un conjunto de datos para que se asemeje a una distribución normal. Sin embargo, si se desea simetría o normalidad, a menudo se pueden inducir mediante una de las transformaciones de potencia.

2. Una función de potencia lingüística se distribuye de acuerdo con la ley de Zipf-Mandelbrot . La distribución es extremadamente irregular y leptocúrtica , por lo que los investigadores tuvieron que recurrir a la estadística para resolver, por ejemplo , problemas de atribución de autoría . Sin embargo, el uso de la estadística gaussiana es perfectamente posible aplicando la transformación de datos. ^[11]

3. Para evaluar si se ha alcanzado la normalidad después de la transformación, se puede utilizar cualquiera de las pruebas de normalidad estándar. Un enfoque gráfico suele ser más informativo que una prueba estadística formal y, por lo tanto, se utiliza comúnmente un gráfico de cuantiles normales para evaluar el ajuste de un conjunto de datos a una población normal. Alternativamente, también se han propuesto reglas generales basadas en la asimetría y la curtosis de la muestra . ^[12]^[13]

Transformación a una distribución uniforme o una distribución arbitraria

Si observamos un conjunto de n valores X ₁ , ..., X _n sin vínculos (es decir, hay n valores distintos), podemos reemplazar X _i con el valor transformado Y _i = k , donde k se define de modo que X _i es el k ^ésimo más grande entre todos los valores X. Esto se llama transformación de rango , ^[14] y crea datos con un ajuste perfecto a una distribución uniforme . Este enfoque tiene un análogo poblacional .

Utilizando la transformada integral de probabilidad , si X es cualquier variable aleatoria y F es la función de distribución acumulativa de X , entonces, mientras F sea invertible, la variable aleatoria U = F ( X ) sigue una distribución uniforme en el intervalo unitario [0,1].

A partir de una distribución uniforme, podemos transformarla en cualquier distribución con una función de distribución acumulativa invertible. Si G es una función de distribución acumulativa invertible y U es una variable aleatoria distribuida uniformemente, entonces la variable aleatoria G ⁻¹ ( U ) tiene G como su función de distribución acumulativa.

Juntando las dos, si X es cualquier variable aleatoria, F es la función de distribución acumulativa invertible de X y G es una función de distribución acumulativa invertible, entonces la variable aleatoria G ⁻¹ ( F ( X )) tiene a G como su función de distribución acumulativa.

Transformaciones estabilizadoras de varianza

Muchos tipos de datos estadísticos presentan una " relación de varianza sobre la media", lo que significa que la variabilidad es diferente para valores de datos con diferentes valores esperados . Por ejemplo, al comparar diferentes poblaciones del mundo, la varianza de los ingresos tiende a aumentar con el ingreso medio. Si consideramos varias unidades de área pequeñas (por ejemplo, condados de los Estados Unidos) y obtenemos la media y la varianza de los ingresos dentro de cada condado, es común que los condados con ingresos medios más altos también tengan varianzas más altas.

Una transformación estabilizadora de varianza tiene como objetivo eliminar una relación de varianza con la media, de modo que la varianza se vuelva constante en relación con la media. Ejemplos de transformaciones estabilizadoras de varianza son la transformación de Fisher para el coeficiente de correlación de la muestra, la transformación de raíz cuadrada o transformada de Anscombe para datos de Poisson (datos de recuento), la transformación de Box-Cox para el análisis de regresión y la transformación de raíz cuadrada de arcoseno o transformación angular para proporciones ( datos binomiales ). Si bien se usa comúnmente para el análisis estadístico de datos proporcionales, la transformación de raíz cuadrada de arcoseno no se recomienda porque la regresión logística o una transformación logit son más apropiadas para proporciones binomiales o no binomiales, respectivamente, especialmente debido a la disminución del error de tipo II . ^[15]^[3]

Transformaciones para datos multivariados

Las funciones univariadas se pueden aplicar puntualmente a datos multivariados para modificar sus distribuciones marginales. También es posible modificar algunos atributos de una distribución multivariada utilizando una transformación construida apropiadamente. Por ejemplo, cuando se trabaja con series de tiempo y otros tipos de datos secuenciales, es común diferenciar los datos para mejorar la estacionariedad . Si los datos generados por un vector aleatorio X se observan como vectores X _i de observaciones con matriz de covarianza Σ, se puede utilizar una transformación lineal para descorrelacionar los datos. Para ello, se utiliza la descomposición de Cholesky para expresar Σ = A A' . Entonces el vector transformado Y _i = A ⁻¹X _i tiene la matriz identidad como su matriz de covarianza.

Véase también

Referencias

^ Kuhn, Max; Johnson, Kjell (2013). Modelado predictivo aplicado . Nueva York. doi :10.1007/978-1-4614-6849-3. ISBN 9781461468493. Código LCCN 2013933452. Código OCLC 844349710. Código S2CID 60246745.{{cite book}}: CS1 maint: location missing publisher (link)
^ Altman, Douglas G.; Bland, J. Martin (27 de abril de 1996). "Notas estadísticas: transformaciones, medias e intervalos de confianza". BMJ . 312 (7038): 1079. doi :10.1136/bmj.312.7038.1079. ISSN 0959-8138. PMC 2350916 . PMID 8616417.
^ abc "Transformaciones de datos - Manual de estadística biológica". www.biostathandbook.com . Consultado el 19 de marzo de 2019 .
^ "Lección 9: Transformaciones de datos | STAT 501". newonlinecourses.science.psu.edu . Consultado el 17 de marzo de 2019 .
^ abc Kutner, Michael H.; Nachtsheim, Christopher J.; Neter, John; Li, William (2005). Modelos estadísticos lineales aplicados (5.ª ed.). Boston: McGraw-Hill Irwin. págs. 129-133. ISBN 0072386886. OCLC 55502728 .
^ Altman, Douglas G.; Bland, J. Martin (23 de marzo de 1996). "Notas estadísticas: transformación de datos". BMJ . 312 (7033): 770. doi :10.1136/bmj.312.7033.770. ISSN 0959-8138. PMC 2350481 . PMID 8605469.
^ "9.3 - Transformación logarítmica del predictor y la respuesta | STAT 501". newonlinecourses.science.psu.edu . Consultado el 17 de marzo de 2019 .
^ Turner, Heather (2008). "Introducción a los modelos lineales generalizados" (PDF) .
^ Lo, Steson; Andrews, Sally (7 de agosto de 2015). "Transformarse o no transformarse: uso de modelos lineales mixtos generalizados para analizar datos de tiempo de reacción". Frontiers in Psychology . 6 : 1171. doi : 10.3389/fpsyg.2015.01171 . ISSN 1664-1078. PMC 4528092 . PMID 26300841.
^ "Transformaciones: una introducción". fmwww.bc.edu . Consultado el 19 de marzo de 2019 .
^ Van Droogenbroeck FJ, 'Una reformulación esencial de la ley de Zipf-Mandelbrot para resolver aplicaciones de atribución de autoría mediante estadísticas gaussianas' (2019) [1]
^ Kim, Hae-Young (1 de febrero de 2013). "Notas estadísticas para investigadores clínicos: evaluación de la distribución normal (2) mediante asimetría y curtosis". Odontología restauradora y endodoncia . 38 (1): 52–54. doi :10.5395/rde.2013.38.1.52. ISSN 2234-7658. PMC 3591587. PMID 23495371 .
^ "Prueba de normalidad, incluyendo asimetría y curtosis". imaging.mrc-cbu.cam.ac.uk . Consultado el 18 de marzo de 2019 .
^ "Nueva visión de las estadísticas: modelos no paramétricos: transformación de rangos". www.sportsci.org . Consultado el 23 de marzo de 2019 .
^ Warton, D.; Hui, F. (2011). "El arcoseno es estúpido: el análisis de proporciones en ecología". Ecología . 92 (1): 3–10. doi :10.1890/10-0340.1. hdl : 1885/152287 . PMID 21560670.

Enlaces externos

Transformaciones logarítmicas para distribuciones sesgadas y amplias: análisis de las transformaciones logarítmicas y de "logaritmo con signo" (un capítulo de "Ciencia de datos práctica con R").