Selección de variable

Es un algoritmo greedy que añade la mejor característica (o elimina la peor) en cada ronda.

En aprendizaje de máquina, esto es típicamente hecho por validación cruz.

Esto se debe al problema inherente de anidación.

Los algoritmos de selección del subconjunto pueden ser separados en Wrappers, Filtros y Embebidos.

Los wrappers utilizan un algoritmo de búsqueda para buscar a través del espacio de características posibles y evaluar cada subconjunto corriendo un modelo en el subconjunto.

Los wrappers pueden ser computacionalmente complejos y tener un riesgo de overfitting para el modelo.

Aun así, hay ciertas métricas que son simplemente una función de la información mutua; ve aquí.

Un método reciente llamado árbol regularizado puede ser utilizado para la selección del subconjunto de características.

Un metaheurística es una descripción general de un algoritmo dedicado a solucionar difíciles (típicamente problemas NP-duros) problemas de optimización para los que no hay soluciones clásicas.

Generalmente, un metaheurística es un algoritmo estocástico que tiende a encontrar un óptimo global.

Están basados sólo en características generales como la correlación con la variable a pronosticar.

Estos métodos son particularmente eficaces en y resistentes al overfitting.

Método de filtro para selección de característica
Método Wrapper para selección de Características
Métodos embebidos para selección de Característica