Escalado de características

El escalado de características es un método utilizado para normalizar el rango de variables independientes o características de los datos. En el procesamiento de datos , también se conoce como normalización de datos y generalmente se realiza durante el paso de preprocesamiento de datos .

Motivación

Dado que el rango de valores de los datos sin procesar varía ampliamente, en algunos algoritmos de aprendizaje automático , las funciones objetivas no funcionarán correctamente sin una normalización . Por ejemplo, muchos clasificadores calculan la distancia entre dos puntos mediante la distancia euclidiana . Si una de las características tiene una amplia gama de valores, la distancia estará regida por esta característica en particular. Por lo tanto, el rango de todas las características debe normalizarse para que cada característica contribuya aproximadamente proporcionalmente a la distancia final.

Otra razón por la que se aplica el escalado de características es que el descenso del gradiente converge mucho más rápido con el escalado de características que sin él. ^[1]

También es importante aplicar el escalado de características si se utiliza la regularización como parte de la función de pérdida (para que los coeficientes se penalicen adecuadamente).

Métodos

Cambio de escala (normalización mín-máx)

También conocido como escalado min-max o normalización min-max, el reescalado es el método más simple y consiste en reescalar el rango de características para escalar el rango en [0, 1] o [−1, 1]. La selección del rango objetivo depende de la naturaleza de los datos. La fórmula general para un mínimo-máx de [0, 1] se da como: ^[2]

x'={\frac {x-{\text{min}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}

donde es un valor original, es el valor normalizado. Por ejemplo, supongamos que tenemos los datos de peso de los estudiantes y que los pesos de los estudiantes abarcan [160 libras, 200 libras]. Para reescalar estos datos, primero restamos 160 al peso de cada estudiante y dividimos el resultado por 40 (la diferencia entre los pesos máximo y mínimo). $x$ $x'$

Para cambiar la escala de un rango entre un conjunto arbitrario de valores [a, b], la fórmula se convierte en:

x'=a+{\frac {(x-{\text{min}}(x))(b-a)}{{\text{max}}(x)-{\text{min}}(x)}}

¿Dónde están los valores mínimo-máximo? $a,b$

Normalización media

x'={\frac {x-{\bar {x}}}{{\text{max}}(x)-{\text{min}}(x)}}

donde es un valor original, es el valor normalizado, es la media de ese vector de características. Existe otra forma de normalización de medias que divide por la desviación estándar y que también se llama estandarización. $x$ $x'$ ${\bar {x}}={\text{average}}(x)$

Estandarización (normalización de puntuación Z)

En el aprendizaje automático, podemos manejar varios tipos de datos, por ejemplo, señales de audio y valores de píxeles para datos de imágenes, y estos datos pueden incluir múltiples dimensiones . La estandarización de características hace que los valores de cada característica en los datos tengan media cero (al restar la media en el numerador) y varianza unitaria. Este método se usa ampliamente para la normalización en muchos algoritmos de aprendizaje automático (p. ej., máquinas de vectores de soporte , regresión logística y redes neuronales artificiales ). ^[3]^[4] El método general de cálculo es determinar la media de distribución y la desviación estándar para cada característica. A continuación restamos la media de cada característica. Luego dividimos los valores (la media ya está restada) de cada característica por su desviación estándar.

x'={\frac {x-{\bar {x}}}{\sigma }}

¿Dónde está el vector de características original, es la media de ese vector de características y es su desviación estándar? $x$ ${\bar {x}}={\text{average}}(x)$ $\sigma$

Escalado a unidad de longitud

Otra opción que se usa ampliamente en el aprendizaje automático es escalar los componentes de un vector de características de modo que el vector completo tenga una longitud uno. Normalmente, esto significa dividir cada componente por la longitud euclidiana del vector:

x'={\frac {x}{\left\|{x}\right\|}}

En algunas aplicaciones (por ejemplo, características de histograma) puede ser más práctico utilizar la norma L _{1 (es decir,}geometría de taxi ) del vector de características. Esto es especialmente importante si en los siguientes pasos de aprendizaje se utiliza la métrica escalar como medida de distancia. ^{[ ¿por qué? ]} Tenga en cuenta que esto sólo funciona para . $x\neq \mathbf {0}$

Solicitud

En el descenso de gradiente estocástico , el escalado de características a veces puede mejorar la velocidad de convergencia del algoritmo. ^[5] En máquinas de vectores de soporte, ^[6] puede reducir el tiempo para encontrar vectores de soporte.

Ver también

Normalización (estadísticas)
Puntuación estándar
fMLLR , espacio de características Regresión lineal de máxima probabilidad

Referencias

^ Ioffe, Sergey; Christian Szegedy (2015). "Normalización de lotes: acelerar el entrenamiento profundo de la red reduciendo el cambio de covariables interno". arXiv : 1502.03167 [cs.LG].
^ "Normalización mínima máxima". ml-concepts.com . Archivado desde el original el 5 de abril de 2023 . Consultado el 14 de diciembre de 2022 .
^ Grus, Joel (2015). Ciencia de datos desde cero . Sebastopol, CA: O'Reilly. págs.99, 100. ISBN 978-1-491-90142-7.
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Saltador. ISBN 978-0-387-84884-6.
^ "Descenso de gradiente, tasa de aprendizaje y la importancia de la escala de funciones". 15 de julio de 2020.
^ Juszczak, P.; Impuesto DMJ; RPW Dui (2002). "Escalado de funciones en descripciones de datos de vectores de soporte". Proc. Octavo año. Conf. Adv. Computación escolar. Imágenes : 25–30. CiteSeerX 10.1.1.100.2524 .

Otras lecturas

Han, Jiawei; Kamber, Micheline; Pei, Jian (2011). "Transformación de Datos y Discretización de Datos". Minería de datos: conceptos y técnicas . Elsevier. págs. 111-118. ISBN 9780123814807.

enlaces externos

Conferencia de Andrew Ng sobre escalado de funciones