Selección de funciones

La selección de características es el proceso de selección de un subconjunto de características relevantes (variables, predictores) para su uso en la construcción de modelos. La estilometría y el análisis de microarrays de ADN son dos casos en los que se utiliza la selección de características. Debe distinguirse de la extracción de características . ^[1]

Las técnicas de selección de características se utilizan por varias razones:

simplificación de modelos para que sean más fáciles de interpretar por los investigadores/usuarios, ^[2]
tiempos de entrenamiento más cortos, ^[3]
Para evitar la maldición de la dimensionalidad , ^[4]
mejorar la compatibilidad de los datos con una clase de modelo de aprendizaje, ^[5]
codificar simetrías inherentes presentes en el espacio de entrada. ^[6]^[7]^[8]^[9]

La premisa central al utilizar una técnica de selección de características es que los datos contienen algunas características que son redundantes o irrelevantes y, por lo tanto, pueden eliminarse sin incurrir en una gran pérdida de información. ^[10] Redundante e irrelevante son dos nociones distintas, ya que una característica relevante puede ser redundante en presencia de otra característica relevante con la que está fuertemente correlacionada. ^[11]

La extracción de características crea nuevas características a partir de funciones de las características originales, mientras que la selección de características devuelve un subconjunto de las características. Las técnicas de selección de características se utilizan a menudo en dominios en los que hay muchas características y comparativamente pocas muestras (o puntos de datos).

Introducción

Un algoritmo de selección de características puede considerarse como la combinación de una técnica de búsqueda para proponer nuevos subconjuntos de características, junto con una medida de evaluación que puntúa los diferentes subconjuntos de características. El algoritmo más simple consiste en probar cada subconjunto posible de características para encontrar el que minimice la tasa de error. Se trata de una búsqueda exhaustiva del espacio y es computacionalmente intratable para todos los conjuntos de características, excepto los más pequeños. La elección de la métrica de evaluación influye en gran medida en el algoritmo, y son estas métricas de evaluación las que distinguen entre las tres categorías principales de algoritmos de selección de características: envoltorios, filtros y métodos integrados. ^[11]

Los métodos de envoltura utilizan un modelo predictivo para puntuar subconjuntos de características. Cada nuevo subconjunto se utiliza para entrenar un modelo, que se prueba en un conjunto de reserva. El recuento de la cantidad de errores cometidos en ese conjunto de reserva (la tasa de error del modelo) proporciona la puntuación para ese subconjunto. Como los métodos de envoltura entrenan un nuevo modelo para cada subconjunto, requieren un gran esfuerzo computacional, pero generalmente proporcionan el conjunto de características con mejor rendimiento para ese tipo particular de modelo o problema típico.
Los métodos de filtro utilizan una medida proxy en lugar de la tasa de error para puntuar un subconjunto de características. Esta medida se elige para que sea rápida de calcular, al mismo tiempo que captura la utilidad del conjunto de características. Las medidas comunes incluyen la información mutua , ^[11] la información mutua puntual , ^[12] el coeficiente de correlación producto-momento de Pearson , los algoritmos basados en relieve , ^[13] y la distancia entre clases/clases o las puntuaciones de las pruebas de significancia para cada combinación de clase/característica. ^[12]^[14] Los filtros suelen ser menos intensivos computacionalmente que los envoltorios, pero producen un conjunto de características que no está ajustado a un tipo específico de modelo predictivo. ^[15] Esta falta de ajuste significa que un conjunto de características de un filtro es más general que el conjunto de un envoltorio, por lo general dando un rendimiento de predicción menor que un envoltorio. Sin embargo, el conjunto de características no contiene los supuestos de un modelo de predicción, y por lo tanto es más útil para exponer las relaciones entre las características. Muchos filtros proporcionan una clasificación de características en lugar de un subconjunto explícito de las mejores características, y el punto de corte en la clasificación se elige mediante validación cruzada . Los métodos de filtro también se han utilizado como un paso de preprocesamiento para los métodos de envoltura, lo que permite utilizar una envoltura en problemas más grandes. Otro enfoque popular es el algoritmo de eliminación de características recursivas, ^[16] que se utiliza comúnmente con máquinas de vectores de soporte para construir repetidamente un modelo y eliminar características con pesos bajos.
Los métodos integrados son un grupo de técnicas que realizan la selección de características como parte del proceso de construcción del modelo. El ejemplo de este enfoque es el método LASSO para construir un modelo lineal, que penaliza los coeficientes de regresión con una penalización L1, reduciendo muchos de ellos a cero. Cualquier característica que tenga coeficientes de regresión distintos de cero es "seleccionada" por el algoritmo LASSO. Las mejoras al LASSO incluyen Bolasso, que realiza el arranque de muestras; ^[17] la regularización de red elástica , que combina la penalización L1 de LASSO con la penalización L2 de la regresión de cresta ; y FeaLect, que puntúa todas las características en función del análisis combinatorio de los coeficientes de regresión. ^[18] AEFS extiende aún más LASSO a un escenario no lineal con autocodificadores. ^[19] Estos enfoques tienden a estar entre los filtros y los envoltorios en términos de complejidad computacional.

En el análisis de regresión tradicional , la forma más popular de selección de características es la regresión por pasos , que es una técnica de envoltura. Es un algoritmo voraz que agrega la mejor característica (o elimina la peor característica) en cada ronda. El principal problema de control es decidir cuándo detener el algoritmo. En el aprendizaje automático, esto se hace típicamente mediante validación cruzada . En estadística, algunos criterios se optimizan. Esto conduce al problema inherente de anidamiento. Se han explorado métodos más robustos, como la ramificación y el límite y la red lineal por partes.

Selección de subconjunto

La selección de subconjuntos evalúa un subconjunto de características como un grupo para determinar su idoneidad. Los algoritmos de selección de subconjuntos se pueden dividir en envoltorios, filtros y métodos integrados. Los envoltorios utilizan un algoritmo de búsqueda para buscar en el espacio de características posibles y evaluar cada subconjunto ejecutando un modelo en el subconjunto. Los envoltorios pueden ser costosos desde el punto de vista computacional y tienen el riesgo de sobreajustarse al modelo. Los filtros son similares a los envoltorios en el enfoque de búsqueda, pero en lugar de evaluar en relación con un modelo, se evalúa un filtro más simple. Las técnicas integradas están integradas en un modelo y son específicas de este.

Muchos enfoques de búsqueda populares utilizan el método de escalada de colinas voraz , que evalúa iterativamente un subconjunto candidato de características, luego modifica el subconjunto y evalúa si el nuevo subconjunto es una mejora con respecto al anterior. La evaluación de los subconjuntos requiere una métrica de puntuación que califique un subconjunto de características. La búsqueda exhaustiva generalmente no es práctica, por lo que en algún punto de parada definido por el implementador (u operador), el subconjunto de características con la puntuación más alta descubierta hasta ese momento se selecciona como el subconjunto de características satisfactorio. El criterio de parada varía según el algoritmo; los criterios posibles incluyen: una puntuación de subconjunto excede un umbral, se ha superado el tiempo de ejecución máximo permitido de un programa, etc.

Las técnicas de búsqueda alternativas se basan en la búsqueda de proyecciones específicas que encuentran proyecciones de baja dimensión de los datos que obtienen una puntuación alta: luego se seleccionan las características que tienen las proyecciones más grandes en el espacio de menor dimensión.

Los enfoques de búsqueda incluyen:

Exhaustivo ^[20]
Lo mejor primero
Recocido simulado
Algoritmo genético ^[21]
Selección de delanteros codiciosos ^[22]^[23]^[24]
Eliminación hacia atrás codiciosa
Optimización de enjambre de partículas ^[25]
Persecución de proyecciones dirigidas
Búsqueda dispersa ^[26]^[27]
Búsqueda de vecindario variable ^[28]^[29]

Dos métricas de filtro populares para problemas de clasificación son la correlación y la información mutua , aunque ninguna de ellas es una métrica verdadera o "medida de distancia" en el sentido matemático, ya que no obedecen a la desigualdad triangular y, por lo tanto, no calculan ninguna "distancia" real; más bien, deberían considerarse como "puntuaciones". Estas puntuaciones se calculan entre una característica candidata (o un conjunto de características) y la categoría de salida deseada. Sin embargo, existen métricas verdaderas que son una función simple de la información mutua; ^[30] consulte aquí .

Otras métricas de filtro disponibles incluyen:

Separabilidad de clases
- Probabilidad de error
- Distancia entre clases
- Distancia probabilística
- Entropía
Selección de características basada en la consistencia
Selección de características basada en correlación

Criterios de optimalidad

La elección de criterios de optimalidad es difícil, ya que existen múltiples objetivos en una tarea de selección de características. Muchos criterios comunes incorporan una medida de precisión, penalizada por la cantidad de características seleccionadas. Algunos ejemplos incluyen el criterio de información de Akaike (AIC) y el C p de Mallows , que tienen una penalización de 2 por cada característica agregada. El AIC se basa en la teoría de la información y se deriva efectivamente a través del principio de máxima entropía . ^[31]^[32]

Otros criterios son el criterio de información bayesiano (BIC), que utiliza una penalización de por cada característica añadida, la longitud mínima de descripción (MDL) que utiliza asintóticamente , Bonferroni /RIC que utiliza , la selección de características de dependencia máxima y una variedad de criterios nuevos que están motivados por la tasa de falsos descubrimientos (FDR), que utilizan algo cercano a . También se puede utilizar un criterio de tasa de entropía máxima para seleccionar el subconjunto de características más relevante. ^[33] ${\sqrt {\log {n}}}$ ${\sqrt {\log {n}}}$ ${\sqrt {2\log {p}}}$ ${\sqrt {2\log {\frac {p}{q}}}}$

Aprendizaje estructurado

La selección de características de filtro es un caso específico de un paradigma más general llamado aprendizaje de estructura . La selección de características encuentra el conjunto de características relevantes para una variable objetivo específica, mientras que el aprendizaje de estructura encuentra las relaciones entre todas las variables, generalmente expresando estas relaciones como un gráfico. Los algoritmos de aprendizaje de estructura más comunes suponen que los datos son generados por una red bayesiana , por lo que la estructura es un modelo gráfico dirigido . La solución óptima para el problema de selección de características de filtro es la manta de Markov del nodo objetivo y, en una red bayesiana, hay una manta de Markov única para cada nodo. ^[34]

Mecanismos de selección de características basados en la teoría de la información

Existen distintos mecanismos de selección de características que utilizan información mutua para puntuar las distintas características. Normalmente, todos utilizan el mismo algoritmo:

Calcular la información mutua como puntuación entre todas las características ( ) y la clase objetivo ( $c$ ) $f_{i}\in F$
Seleccione la característica con la puntuación más alta (por ejemplo, ) y agréguela al conjunto de características seleccionadas ( $S$ ) ${\underset {f_{i}\in F}{\operatorname {argmax} }}(I(f_{i},c))$
Calcular la puntuación que podría derivarse de la información mutua
Seleccione la característica con la puntuación más alta y agréguela al conjunto de características seleccionadas (por ejemplo ) ${\underset {f_{i}\in F}{\operatorname {argmax} }}(I_{derived}(f_{i},c))$
Repita los pasos 3 y 4 hasta seleccionar una cierta cantidad de funciones (por ejemplo, ) $|S|=l$

El enfoque más simple utiliza la información mutua como puntuación "derivada". ^[35]

Sin embargo, existen diferentes enfoques que intentan reducir la redundancia entre características.

Selección de características de redundancia mínima y máxima relevancia (mRMR)

Peng et al. ^[36] propusieron un método de selección de características que puede utilizar información mutua, correlación o puntuaciones de distancia/similitud para seleccionar características. El objetivo es penalizar la relevancia de una característica por su redundancia en presencia de las otras características seleccionadas. La relevancia de un conjunto de características $S$ para la clase $c$ se define por el valor promedio de todos los valores de información mutua entre la característica individual $f i$ y la clase $c$ de la siguiente manera:

D(S,c)={\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c)

La redundancia de todas las características en el conjunto $S$ es el valor promedio de todos los valores de información mutua entre la característica $f i$ y la característica $f j$ :

R(S)={\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{j})

El criterio mRMR es una combinación de dos medidas dadas anteriormente y se define de la siguiente manera:

\mathrm {mRMR} =\max _{S}\left[{\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c)-{\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{j})\right].

Supongamos que existen $n$ características del conjunto completo. Sea $x i$ la función indicadora de pertenencia al conjunto para la característica $f i$ , de modo que $x i = 1$ indica presencia y $x i = 0$ indica ausencia de la característica $f i$ en el conjunto de características globalmente óptimo. Sea y . Lo anterior puede entonces escribirse como un problema de optimización: $c_{i}=I(f_{i};c)$ $a_{ij}=I(f_{i};f_{j})$

\mathrm {mRMR} =\max _{x\in \{0,1\}^{n}}\left[{\frac {\sum _{i=1}^{n}c_{i}x_{i}}{\sum _{i=1}^{n}x_{i}}}-{\frac {\sum _{i,j=1}^{n}a_{ij}x_{i}x_{j}}{(\sum _{i=1}^{n}x_{i})^{2}}}\right].

El algoritmo mRMR es una aproximación del algoritmo de selección de características de máxima dependencia teóricamente óptimo que maximiza la información mutua entre la distribución conjunta de las características seleccionadas y la variable de clasificación. Como mRMR aproxima el problema de estimación combinatoria con una serie de problemas mucho más pequeños, cada uno de los cuales solo involucra dos variables, utiliza probabilidades conjuntas por pares que son más robustas. En ciertas situaciones, el algoritmo puede subestimar la utilidad de las características, ya que no tiene forma de medir las interacciones entre características que pueden aumentar la relevancia. Esto puede conducir a un bajo rendimiento ^[35] cuando las características son inútiles individualmente, pero son útiles cuando se combinan (se encuentra un caso patológico cuando la clase es una función de paridad de las características). En general, el algoritmo es más eficiente (en términos de la cantidad de datos requeridos) que la selección de máxima dependencia teóricamente óptima, pero produce un conjunto de características con poca redundancia por pares.

mRMR es una instancia de una gran clase de métodos de filtro que equilibran la relevancia y la redundancia de diferentes maneras. ^[35]^[37]

Selección de funciones de programación cuadrática

mRMR es un ejemplo típico de una estrategia voraz incremental para la selección de características: una vez que se ha seleccionado una característica, no se puede deseleccionar en una etapa posterior. Si bien mRMR se podría optimizar utilizando la búsqueda flotante para reducir algunas características, también se podría reformular como un problema de optimización de programación cuadrática global de la siguiente manera: ^[38]

\mathrm {QPFS} :\min _{\mathbf {x} }\left\{\alpha \mathbf {x} ^{T}H\mathbf {x} -\mathbf {x} ^{T}F\right\}\quad {\mbox{s.t.}}\ \sum _{i=1}^{n}x_{i}=1,x_{i}\geq 0

donde es el vector de relevancia de las características suponiendo que hay $n$ características en total, es la matriz de redundancia por pares de características y representa los pesos relativos de las características. QPFS se resuelve mediante programación cuadrática. Recientemente se ha demostrado que QFPS está sesgado hacia características con menor entropía, ^[39] debido a su ubicación del término de autorredundancia de características en la diagonal de $H$ . $F_{n\times 1}=[I(f_{1};c),\ldots ,I(f_{n};c)]^{T}$ $H_{n\times n}=[I(f_{i};f_{j})]_{i,j=1\ldots n}$ $\mathbf {x} _{n\times 1}$ $I(f_{i};f_{i})$

Información mutua condicional

Otra puntuación derivada de la información mutua se basa en la relevancia condicional: ^[39]

\mathrm {SPEC_{CMI}} :\max _{\mathbf {x} }\left\{\mathbf {x} ^{T}Q\mathbf {x} \right\}\quad {\mbox{s.t.}}\ \|\mathbf {x} \|=1,x_{i}\geq 0

donde y . $Q_{ii}=I(f_{i};c)$ $Q_{ij}=(I(f_{i};c|f_{j})+I(f_{j};c|f_{i}))/2,i\neq j$

Una ventaja de $SPEC CMI$ es que se puede resolver simplemente encontrando el vector propio dominante de $Q$ , por lo que es muy escalable. $SPEC CMI$ también maneja la interacción de características de segundo orden.

Información mutua conjunta

En un estudio de diferentes puntuaciones, Brown et al. ^[35] recomendaron la información mutua conjunta ^[40] como una buena puntuación para la selección de características. La puntuación intenta encontrar la característica que agrega la mayor cantidad de información nueva a las características ya seleccionadas, para evitar la redundancia. La puntuación se formula de la siguiente manera:

{\begin{aligned}JMI(f_{i})&=\sum _{f_{j}\in S}(I(f_{i};c)+I(f_{i};c|f_{j}))\\&=\sum _{f_{j}\in S}{\bigl [}I(f_{j};c)+I(f_{i};c)-{\bigl (}I(f_{i};f_{j})-I(f_{i};f_{j}|c){\bigr )}{\bigr ]}\end{aligned}}

La puntuación utiliza la información mutua condicional y la información mutua para estimar la redundancia entre las características ya seleccionadas ( ) y la característica bajo investigación ( ). $f_{j}\in S$ $f_{i}$

Criterio de independencia de Hilbert-Schmidt Selección de características basada en lazo

Para datos de muestras pequeñas y de alta dimensión (por ejemplo, dimensionalidad > 10⁵ y el número de muestras < 10³ ), el lazo de criterio de independencia de Hilbert-Schmidt (Lazo HSIC) es útil.^[41] El problema de optimización del lazo HSIC se da como

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\sum _{k,l=1}^{n}x_{k}x_{l}{\mbox{HSIC}}(f_{k},f_{l})-\sum _{k=1}^{n}x_{k}{\mbox{HSIC}}(f_{k},c)+\lambda \|\mathbf {x} \|_{1},\quad {\mbox{s.t.}}\ x_{1},\ldots ,x_{n}\geq 0,

donde es una medida de independencia basada en kernel llamada criterio de independencia de Hilbert-Schmidt (empírico) (HSIC), denota la traza , es el parámetro de regularización, y son matrices de Gram centradas en la entrada y la salida , y son matrices de Gram, y son funciones kernel, es la matriz de centrado, es la matriz de identidad $m$ -dimensional ( $m$ : el número de muestras), es el vector $m$ -dimensional con todos unos, y es la -norma. HSIC siempre toma un valor no negativo, y es cero si y solo si dos variables aleatorias son estadísticamente independientes cuando se usa un kernel de reproducción universal como el kernel gaussiano. ${\mbox{HSIC}}(f_{k},c)={\mbox{tr}}({\bar {\mathbf {K} }}^{(k)}{\bar {\mathbf {L} }})$ ${\mbox{tr}}(\cdot )$ $\lambda$ ${\bar {\mathbf {K} }}^{(k)}=\mathbf {\Gamma } \mathbf {K} ^{(k)}\mathbf {\Gamma }$ ${\bar {\mathbf {L} }}=\mathbf {\Gamma } \mathbf {L} \mathbf {\Gamma }$ $K_{i,j}^{(k)}=K(u_{k,i},u_{k,j})$ $L_{i,j}=L(c_{i},c_{j})$ $K(u,u')$ $L(c,c')$ $\mathbf {\Gamma } =\mathbf {I} _{m}-{\frac {1}{m}}\mathbf {1} _{m}\mathbf {1} _{m}^{T}$ $\mathbf {I} _{m}$ $\mathbf {1} _{m}$ $\|\cdot \|_{1}$ $\ell _{1}$

El lazo HSIC se puede escribir como

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\left\|{\bar {\mathbf {L} }}-\sum _{k=1}^{n}x_{k}{\bar {\mathbf {K} }}^{(k)}\right\|_{F}^{2}+\lambda \|\mathbf {x} \|_{1},\quad {\mbox{s.t.}}\ x_{1},\ldots ,x_{n}\geq 0,

donde es la norma de Frobenius . El problema de optimización es un problema Lasso y, por lo tanto, se puede resolver de manera eficiente con un solucionador Lasso de última generación, como el método Lagrangiano aumentado dual . $\|\cdot \|_{F}$

Selección de características de correlación

La medida de selección de características de correlación (CFS) evalúa subconjuntos de características sobre la base de la siguiente hipótesis: "Los buenos subconjuntos de características contienen características altamente correlacionadas con la clasificación, pero no correlacionadas entre sí". ^[42]^[43] La siguiente ecuación proporciona el mérito de un subconjunto de características S que consta de k características:

\mathrm {Merit} _{S_{k}}={\frac {k{\overline {r_{cf}}}}{\sqrt {k+k(k-1){\overline {r_{ff}}}}}}.

Aquí, es el valor promedio de todas las correlaciones de clasificación de características, y es el valor promedio de todas las correlaciones de característica a característica. El criterio CFS se define de la siguiente manera: ${\overline {r_{cf}}}$ ${\overline {r_{ff}}}$

\mathrm {CFS} =\max _{S_{k}}\left[{\frac {r_{cf_{1}}+r_{cf_{2}}+\cdots +r_{cf_{k}}}{\sqrt {k+2(r_{f_{1}f_{2}}+\cdots +r_{f_{i}f_{j}}+\cdots +r_{f_{k}f_{k-1}})}}}\right].

Las variables y se denominan correlaciones, pero no son necesariamente el coeficiente de correlación de Pearson o el ρ de Spearman . La disertación de Hall no utiliza ninguno de estos, sino tres medidas diferentes de relación, longitud mínima de descripción (MDL), incertidumbre simétrica y alivio . $r_{cf_{i}}$ $r_{f_{i}f_{j}}$

Sea x _i la función indicadora de pertenencia al conjunto para la característica f _i ; entonces lo anterior se puede reescribir como un problema de optimización:

\mathrm {CFS} =\max _{x\in \{0,1\}^{n}}\left[{\frac {(\sum _{i=1}^{n}a_{i}x_{i})^{2}}{\sum _{i=1}^{n}x_{i}+\sum _{i\neq j}2b_{ij}x_{i}x_{j}}}\right].

Los problemas combinatorios anteriores son, de hecho, problemas de programación lineal mixtos 0-1 que pueden resolverse utilizando algoritmos de ramificación y acotación . ^[44]

Árboles regularizados

Se ha demostrado que las características de un árbol de decisión o de un conjunto de árboles son redundantes. Se puede utilizar un método reciente denominado árbol regularizado ^[45] para la selección de subconjuntos de características. Los árboles regularizados penalizan el uso de una variable similar a las variables seleccionadas en los nodos de árboles anteriores para dividir el nodo actual. Los árboles regularizados solo necesitan construir un modelo de árbol (o un modelo de conjunto de árboles) y, por lo tanto, son computacionalmente eficientes.

Los árboles regularizados manejan naturalmente características numéricas y categóricas, interacciones y no linealidades. Son invariantes a escalas de atributos (unidades) e insensibles a valores atípicos , y por lo tanto, requieren poco preprocesamiento de datos como la normalización . El bosque aleatorio regularizado (RRF) ^[46] es un tipo de árboles regularizados. El RRF guiado es un RRF mejorado que se guía por los puntajes de importancia de un bosque aleatorio ordinario.

Descripción general de los métodos metaheurísticos

Una metaheurística es una descripción general de un algoritmo dedicado a resolver problemas de optimización difíciles (normalmente problemas NP-hard ) para los que no existen métodos de solución clásicos. En general, una metaheurística es un algoritmo estocástico que tiende a alcanzar un óptimo global. Existen muchas metaheurísticas, desde una simple búsqueda local hasta un algoritmo complejo de búsqueda global.

Principios fundamentales

Los métodos de selección de características normalmente se presentan en tres clases según cómo combinan el algoritmo de selección y la construcción del modelo.

Método de filtrado

Método de filtrado para la selección de características

Los métodos de tipo filtro seleccionan variables independientemente del modelo. Se basan únicamente en características generales como la correlación con la variable a predecir. Los métodos de filtro suprimen las variables menos interesantes. Las demás variables formarán parte de una clasificación o un modelo de regresión utilizado para clasificar o predecir los datos. Estos métodos son especialmente eficaces en términos de tiempo de cálculo y resistentes al sobreajuste. ^[47]

Los métodos de filtrado tienden a seleccionar variables redundantes cuando no tienen en cuenta las relaciones entre variables. Sin embargo, funciones más elaboradas intentan minimizar este problema eliminando variables altamente correlacionadas entre sí, como el algoritmo de filtro basado en correlación rápida (FCBF). ^[48]

Método de envoltura

Los métodos wrapper evalúan subconjuntos de variables, lo que permite, a diferencia de los métodos de filtro, detectar las posibles interacciones entre variables. ^[49] Las dos principales desventajas de estos métodos son:

El creciente riesgo de sobreajuste cuando el número de observaciones es insuficiente.
El tiempo de cálculo significativo cuando el número de variables es grande.

Método integrado

Recientemente se han propuesto métodos embebidos que intentan combinar las ventajas de ambos métodos anteriores. Un algoritmo de aprendizaje aprovecha su propio proceso de selección de variables y realiza la selección y clasificación de características simultáneamente, como el algoritmo FRMT. ^[50]

Aplicación de metaheurísticas de selección de características

Se trata de un estudio de la aplicación de las metaheurísticas de selección de características que se han utilizado recientemente en la literatura. Este estudio fue realizado por J. Hammon en su tesis de 2013. ^[47]

Selección de características integrada en algoritmos de aprendizaje

Algunos algoritmos de aprendizaje realizan la selección de características como parte de su funcionamiento general. Entre ellos se incluyen:

-Técnicas de regularización $l_{1}$ , como regresión dispersa, LASSO y -SVM $l_{1}$
Árboles regularizados, ^[45] por ejemplo, bosque aleatorio regularizado implementado en el paquete RRF ^[46]
Árbol de decisión ^[72]
Algoritmo memético
Logit multinomial aleatorio (RMNL)
Redes de codificación automática con una capa de cuello de botella
Selección de características submodulares ^[73]^[74]^[75]
Selección de características basada en aprendizaje local. ^[76] En comparación con los métodos tradicionales, no implica ninguna búsqueda heurística, puede manejar fácilmente problemas de múltiples clases y funciona tanto para problemas lineales como no lineales. También está respaldado por una sólida base teórica. Los experimentos numéricos mostraron que el método puede lograr una solución cercana a la óptima incluso cuando los datos contienen >1 millón de características irrelevantes.
Sistema de recomendación basado en selección de características. ^[77] Los métodos de selección de características se introducen en la investigación del sistema de recomendación.

Véase también

Referencias

^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . doi :10.1016/j.dsp.2020.102795. S2CID 220665533.
^ Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). Introducción al aprendizaje estadístico. Springer. pág. 204.
^ Brank, Janez; Mladenić, Dunja; Grobelnik, Marko; Liu, Huan; Mladenić, Dunja; Flach, Peter A.; Garriga, Gemma C.; Toivonen, Hannu; Toivonen, Hannu (2011), "Selección de características", en Sammut, Claude; Webb, Geoffrey I. (eds.), Encyclopedia of Machine Learning , Boston, MA: Springer US, págs. 402–406, doi :10.1007/978-0-387-30164-8_306, ISBN 978-0-387-30768-8, consultado el 13 de julio de 2021
^ Kramer, Mark A. (1991). "Análisis de componentes principales no lineales utilizando redes neuronales autoasociativas". AIChE Journal . 37 (2): 233–243. doi :10.1002/aic.690370209. ISSN 1547-5905.
^ Kratsios, Anastasis; Hyndman, Cody (2021). "NEU: un metaalgoritmo para la representación universal de características invariantes frente a UAP". Revista de investigación en aprendizaje automático . 22 (92): 1–51. ISSN 1533-7928.
^ Persello, Claudio; Bruzzone, Lorenzo (julio de 2014). "Selección de características relevantes e invariantes de imágenes hiperespectrales para la generalización de dominios". Simposio IEEE sobre geociencia y teledetección de 2014 (PDF) . IEEE. págs. 3562–3565. doi :10.1109/igarss.2014.6947252. ISBN. 978-1-4799-5775-0.S2CID8368258 .
^ Hinkle, Jacob; Muralidharan, Prasanna; Fletcher, P. Thomas; Joshi, Sarang (2012). "Regresión polinómica en variedades de Riemann". En Fitzgibbon, Andrew; Lazebnik, Svetlana; Perona, Pietro; Sato, Yoichi; Schmid, Cordelia (eds.). Visión artificial – ECCV 2012. Apuntes de clase en informática. Vol. 7574. Berlín, Heidelberg: Springer. págs. 1–14. arXiv : 1201.2395 . doi :10.1007/978-3-642-33712-3_1. ISBN . 978-3-642-33712-3.S2CID8849753 .
^ Yarotsky, Dmitry (30 de abril de 2021). "Aproximaciones universales de mapas invariantes mediante redes neuronales". Aproximación constructiva . 55 : 407–474. arXiv : 1804.10306 . doi :10.1007/s00365-021-09546-1. ISSN 1432-0940. S2CID 13745401.
^ Hauberg, Søren; Lauze, François; Pedersen, Kim Steenstrup (1 de mayo de 2013). "Filtrado de Kalman sin perfume en colectores de Riemann". Revista de visión y imágenes matemáticas . 46 (1): 103–120. doi :10.1007/s10851-012-0372-9. ISSN 1573-7683. S2CID 8501814.
^ Kratsios, Anastasis; Hyndman, Cody (8 de junio de 2021). "NEU: un metaalgoritmo para la representación universal de características invariantes frente a UAP". Revista de investigación en aprendizaje automático . 22 : 10312. Bibcode :2015NatSR...510312B. doi :10.1038/srep10312. PMC 4437376 . PMID 25988841.
^ abc Guyon, Isabelle; Elisseeff, André (2003). "Introducción a la selección de variables y características". JMLR . 3 .
^ ab Yang, Yiming; Pedersen, Jan O. (1997). Un estudio comparativo sobre la selección de características en la categorización de texto (PDF) . ICML.
^ Urbanowicz, Ryan J.; Meeker, Melissa; LaCava, William; Olson, Randal S.; Moore, Jason H. (2018). "Selección de características basada en relieve: Introducción y revisión". Revista de informática biomédica . 85 : 189–203. arXiv : 1711.08421 . doi :10.1016/j.jbi.2018.07.014. PMC 6299836 . PMID 30031057.
^ Forman, George (2003). "Un estudio empírico extenso de métricas de selección de características para la clasificación de texto" (PDF) . Journal of Machine Learning Research . 3 : 1289–1305.
^ Yishi Zhang; Shujuan Li; Teng Wang; Zigang Zhang (2013). "Selección de características basada en divergencias para clases separadas". Neurocomputación . 101 (4): 32–42. doi :10.1016/j.neucom.2012.06.036.
^ Guyon I.; Weston J.; Barnhill S.; Vapnik V. (2002). "Selección de genes para la clasificación del cáncer utilizando máquinas de vectores de soporte". Aprendizaje automático . 46 (1–3): 389–422. doi : 10.1023/A:1012487302797 .
^ Bach, Francis R (2008). "Bolasso". Actas de la 25.ª conferencia internacional sobre aprendizaje automático - ICML '08 . págs. 33–40. doi :10.1145/1390156.1390161. ISBN 9781605582054.S2CID609778 .
^ Zare, Habil (2013). "Calificación de la relevancia de las características en función del análisis combinatorio de Lasso con aplicación al diagnóstico de linfoma". BMC Genomics . 14 (Supl 1): S14. doi : 10.1186/1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194.
^ Kai Han; Yunhe Wang; Chao Zhang; Chao Li; Chao Xu (2018). Selección de características no supervisada inspirada en un codificador automático . Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales (ICASSP).
^ Hazimeh, Hussein; Mazumder, Rahul; Saab, Ali (2020). "Regresión dispersa a escala: ramificación y acotación basada en optimización de primer orden". arXiv : 2004.06152 [stat.CO].
^ Soufan, Othman; Kleftogiannis, Dimitrios; Kalnis, Panos; Bajic, Vladimir B. (26 de febrero de 2015). "DWFS: una herramienta de selección de características de envoltura basada en un algoritmo genético paralelo". PLOS ONE . 10 (2): e0117988. Bibcode :2015PLoSO..1017988S. doi : 10.1371/journal.pone.0117988 . ISSN 1932-6203. PMC 4342225 . PMID 25719748.
^ Figueroa, Alejandro (2015). "Explorando características efectivas para reconocer la intención del usuario detrás de consultas web". Computers in Industry . 68 : 162–169. doi :10.1016/j.compind.2015.01.005.
^ Figueroa, Alejandro; Guenter Neumann (2013). Aprendiendo a clasificar paráfrasis efectivas a partir de registros de consultas para responder preguntas de la comunidad. AAAI.
^ Figueroa, Alejandro; Guenter Neumann (2014). "Modelos específicos de categorías para clasificar paráfrasis efectivas en la comunidad de respuestas a preguntas". Sistemas expertos con aplicaciones . 41 (10): 4730–4742. doi :10.1016/j.eswa.2014.02.004. hdl : 10533/196878 .
^ ab Zhang, Y.; Wang, S.; Phillips, P. (2014). "PSO binario con operador de mutación para selección de características utilizando árbol de decisión aplicado a detección de spam". Knowledge-Based Systems . 64 : 22–31. doi :10.1016/j.knosys.2014.03.015.
^ FC Garcia-Lopez, M. Garcia-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Solución del problema de selección de subconjuntos de características mediante una búsqueda de dispersión paralela, European Journal of Operational Research , vol. 169, núm. 2, págs. 477–489, 2006.
^ García-Torres, Miguel; Gómez-Vela, Francisco; Divina, Federico; Pinto-Roa, Diego P.; Noguera, José Luis Vázquez; Román, Julio C. Mello (2021). "Búsqueda dispersa para selección de características de alta dimensión mediante agrupación de características". Actas de la conferencia complementaria sobre computación genética y evolutiva . págs. 149-150. doi :10.1145/3449726.3459481. ISBN 9781450383516. Número de identificación del sujeto 235770316.
^ FC Garcia-Lopez, M. Garcia-Torres, B. Melian, JA Moreno-Perez, JM Moreno-Vega. Solución del problema de selección de subconjuntos de características mediante una metaheurística híbrida. En el Primer taller internacional sobre metaheurísticas híbridas , págs. 59-68, 2004.
^ M. Garcia-Torres, F. Gomez-Vela, B. Melian, JM Moreno-Vega. Selección de características de alta dimensión mediante agrupación de características: un enfoque de búsqueda de vecindad variable, Information Sciences , vol. 326, pp. 102-118, 2016.
^ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G; Grassberger, Peter (2003). "Agrupamiento jerárquico basado en información mutua". arXiv : q-bio/0311039 . Código Bibliográfico :2003q.bio....11039K. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Akaike, H. (1985), "Predicción y entropía", en Atkinson, AC; Fienberg, SE (eds.), A Celebration of Statistics (PDF) , Springer, pp. 1–24, archivado (PDF) desde el original el 30 de agosto de 2019.
^ Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico basado en la teoría de la información (2.ª ed.), Springer-Verlag , ISBN 9780387953649.
^ Einicke, GA (2018). "Selección de características según la tasa de entropía máxima para clasificar los cambios en la dinámica de la rodilla y el tobillo durante la carrera". IEEE Journal of Biomedical and Health Informatics . 28 (4): 1097–1103. doi :10.1109/JBHI.2017.2711487. PMID 29969403. S2CID 49555941.
^ Aliferis, Constantin (2010). "Inducción causal local y de manta de Markov para el descubrimiento causal y la selección de características para la clasificación, parte I: Algoritmos y evaluación empírica" (PDF) . Journal of Machine Learning Research . 11 : 171–234.
^ abcd Brown, Gavin; Pocock, Adam; Zhao, Ming-Jie; Luján, Mikel (2012). "Maximización de verosimilitud condicional: un marco unificador para la selección de características de la teoría de la información". Revista de investigación en aprendizaje automático . 13 : 27–66.[1]
^ Peng, HC; Long, F.; Ding, C. (2005). "Selección de características basada en información mutua: criterios de máxima dependencia, máxima relevancia y mínima redundancia". IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . doi :10.1109/TPAMI.2005.159. PMID 16119262. S2CID 206764015. Programa
^ Nguyen, H., Franke, K., Petrovic, S. (2010). "Hacia una medida genérica de selección de características para la detección de intrusiones", en Proc. Conferencia internacional sobre reconocimiento de patrones (ICPR), Estambul, Turquía. [2]
^ Rodríguez-Luján, I.; Huerta, R.; Elkan, C.; Santa Cruz, C. (2010). "Selección de características en programación cuadrática" (PDF) . JMLR . 11 : 1491–1516.
^ ab Nguyen X. Vinh, Jeffrey Chan, Simone Romano y James Bailey, "Enfoques globales efectivos para la selección de características basada en información mutua". Actas de la 20.ª Conferencia ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (KDD'14), 24 al 27 de agosto, Nueva York, 2014. "[3]"
^ Yang, Howard Hua; Moody, John (2000). "Visualización de datos y selección de características: nuevos algoritmos para datos no gaussianos" (PDF) . Avances en sistemas de procesamiento de información neuronal : 687–693.
^ Yamada, M.; Jitkrittum, W.; Sigal, L.; Xing, EP; Sugiyama, M. (2014). "Selección de características de alta dimensión mediante lazo no lineal basado en características". Neural Computation . 26 (1): 185–207. arXiv : 1202.0515 . doi :10.1162/NECO_a_00537. PMID 24102126. S2CID 2742785.
^ Hall, M. (1999). Selección de características basada en correlación para aprendizaje automático (PDF) (tesis doctoral). Universidad de Waikato.
^ Senliol, Baris; et al. (2008). "Filtro basado en correlación rápida (FCBF) con una estrategia de búsqueda diferente". 23.° Simposio internacional sobre informática y ciencias de la información de 2008. págs. 1–4. doi :10.1109/ISCIS.2008.4717949. ISBN 978-1-4244-2880-9.S2CID8398495 .
^ Nguyen, Hai; Franke, Katrin; Petrovic, Slobodan (diciembre de 2009). "Optimización de una clase de medidas de selección de características". Actas del taller NIPS 2009 sobre optimización discreta en aprendizaje automático: submodularidad, dispersión y poliedros (DISCML) . Vancouver, Canadá.
^ ab H. Deng, G. Runger, "Selección de características a través de árboles regularizados", Actas de la Conferencia conjunta internacional de 2012 sobre redes neuronales (IJCNN), IEEE, 2012
^ ab RRF: Bosque aleatorio regularizado, paquete R en CRAN
^ ab Hamon, Julie (noviembre de 2013). Optimización combinatoria para la selección de variables en régression en grande dimension: Aplicación en génétique animale (Tesis) (en francés). Universidad de Ciencia y Tecnología de Lille .
^ Yu, Lei; Liu, Huan (agosto de 2003). "Selección de características para datos de alta dimensión: una solución de filtro rápida basada en correlación" (PDF) . ICML'03: Actas de la Vigésima Conferencia Internacional sobre Aprendizaje Automático : 856–863.
^ ab TM Phuong, Z. Lin et RB Altman. Elección de SNP mediante selección de características. Archivado el 13 de septiembre de 2016 en las Actas de Wayback Machine / Conferencia de bioinformática de sistemas computacionales IEEE, CSB. Conferencia de bioinformática de sistemas computacionales IEEE, páginas 301-309, 2005. PMID 16447987.
^ Saghapour, E.; Kermani, S.; Sehhati, M. (2017). "Un nuevo método de clasificación de características para la predicción de estadios de cáncer utilizando datos proteómicos". PLOS ONE . 12 (9): e0184203. Bibcode :2017PLoSO..1284203S. doi : 10.1371/journal.pone.0184203 . PMC 5608217 . PMID 28934234.
^ Shah, SC; Kusiak, A. (2004). "Minería de datos y selección de genes/SNP basada en algoritmos genéticos". Inteligencia artificial en medicina . 31 (3): 183–196. doi :10.1016/j.artmed.2004.04.002. PMID 15302085.
^ Long, N.; Gianola, D.; Weigel, K. A (2011). "Reducción de dimensión y selección de variables para selección genómica: aplicación para predecir la producción de leche en vacas Holstein". Journal of Animal Breeding and Genetics . 128 (4): 247–257. doi :10.1111/j.1439-0388.2011.00917.x. PMID 21749471.
^ Üstünkar, Gürkan; Özöğür-Akyüz, Süreyya; Weber, Gerhard W.; Friedrich, Christoph M.; Aydın Son, Yeşim (2012). "Selección de conjuntos de SNP representativos para estudios de asociación de todo el genoma: un enfoque metaheurístico". Cartas de Optimización . 6 (6): 1207–1218. doi :10.1007/s11590-011-0419-7. S2CID 8075318.
^ Meiri, R.; Zahavi, J. (2006). "Uso de recocido simulado para optimizar el problema de selección de características en aplicaciones de marketing". Revista Europea de Investigación Operativa . 171 (3): 842–858. doi :10.1016/j.ejor.2004.09.010.
^ Kapetanios, G. (2007). "Selección de variables en modelos de regresión utilizando criterios de optimización de información no estándar". Computational Statistics & Data Analysis . 52 (1): 4–15. doi :10.1016/j.csda.2007.04.006.
^ Broadhurst, D.; Goodacre, R.; Jones, A.; Rowland, JJ; Kell, DB (1997). "Algoritmos genéticos como método para la selección de variables en regresión lineal múltiple y regresión de mínimos cuadrados parciales, con aplicaciones a la espectrometría de masas por pirólisis". Analytica Chimica Acta . 348 (1–3): 71–86. doi :10.1016/S0003-2670(97)00065-2.
^ Chuang, L.-Y.; Yang, C.-H. (2009). "Búsqueda tabú y optimización de enjambre de partículas binarias para la selección de características utilizando datos de microarrays". Journal of Computational Biology . 16 (12): 1689–1703. doi :10.1089/cmb.2007.0211. PMID 20047491.
^ E. Alba, J. Garia-Nieto, L. Jourdan y E.-G. Talbi. Selección de genes en la clasificación del cáncer utilizando algoritmos híbridos PSO-SVM y GA-SVM. Archivado el 18 de agosto de 2016 en el Wayback Machine Congress on Evolutionary Computation, Singapur: Singapur (2007), 2007
^ B. Duval, J.-K. Hao y JC Hernandez Hernandez. Un algoritmo memético para la selección de genes y la clasificación molecular de un cáncer. En Actas de la 11.ª conferencia anual sobre computación genética y evolutiva, GECCO '09, páginas 201-208, Nueva York, NY, EE. UU., 2009. ACM.
^ C. Hans, A. Dobra y M. West. Búsqueda estocástica de escopeta para regresión con "p grande". Revista de la Asociación Estadounidense de Estadística, 2007.
^ Aitken, S. (2005). "Selección y clasificación de características para el análisis de datos de microarrays: métodos evolutivos para la identificación de genes predictivos". BMC Bioinformatics . 6 (1): 148. doi : 10.1186/1471-2105-6-148 . PMC 1181625 . PMID 15958165.
^ Oh, IS; Moon, BR (2004). "Algoritmos genéticos híbridos para la selección de características". IEEE Transactions on Pattern Analysis and Machine Intelligence . 26 (11): 1424–1437. CiteSeerX 10.1.1.467.4179 . doi :10.1109/tpami.2004.105. PMID 15521491.
^ Xuan, P.; Guo, MZ; Wang, J.; Liu, XY; Liu, Y. (2011). "Selección de características eficiente basada en algoritmos genéticos para la clasificación de pre-miRNAs". Genética e investigación molecular . 10 (2): 588–603. doi : 10.4238/vol10-2gmr969 . PMID 21491369.
^ Peng, S. (2003). "Clasificación molecular de tipos de cáncer a partir de datos de microarrays utilizando la combinación de algoritmos genéticos y máquinas de vectores de soporte". FEBS Letters . 555 (2): 358–362. doi : 10.1016/s0014-5793(03)01275-4 . PMID 14644442.
^ Hernandez, JCH; Duval, B.; Hao, J.-K. (2007). "Un enfoque genético integrado para la selección de genes y la clasificación de datos de microarrays". Computación evolutiva, aprendizaje automático y minería de datos en bioinformática. EvoBIO 2007. Lecture Notes in Computer Science. Vol. 4447. Berlín: Springer Verlag. págs. 90–101. doi :10.1007/978-3-540-71783-6_9. ISBN 978-3-540-71782-9.
^ Huerta, EB; Duval, B.; Hao, J.-K. (2006). "Un enfoque híbrido GA/SVM para la selección de genes y la clasificación de datos de microarrays". Aplicaciones de la computación evolutiva. EvoWorkshops 2006. Lecture Notes in Computer Science. Vol. 3907. págs. 34–44. doi :10.1007/11732242_4. ISBN 978-3-540-33237-4.
^ Muni, DP; Pal, NR; Das, J. (2006). "Programación genética para la selección simultánea de características y el diseño de clasificadores". IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 36 (1): 106–117. doi :10.1109/TSMCB.2005.854499. PMID 16468570. S2CID 2073035.
^ Jourdan, L.; Dhaenens, C.; Talbi, E.-G. (2005). "Estudio del desequilibrio de ligamiento con un AG adaptativo paralelo". Revista internacional de fundamentos de la ciencia informática . 16 (2): 241–260. doi :10.1142/S0129054105002978.
^ Zhang, Y.; Dong, Z.; Phillips, P.; Wang, S. (2015). "Detección de sujetos y regiones cerebrales relacionadas con la enfermedad de Alzheimer mediante exploraciones de resonancia magnética 3D basadas en cerebro propio y aprendizaje automático". Frontiers in Computational Neuroscience . 9 : 66. doi : 10.3389/fncom.2015.00066 . PMC 4451357 . PMID 26082713.
^ Roffo, G.; Melzi, S.; Cristani, M. (1 de diciembre de 2015). "Selección de características infinitas". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2015. págs. 4202–4210. doi :10.1109/ICCV.2015.478. ISBN 978-1-4673-8391-2. Número de identificación del sujeto 3223980.
^ Roffo, Giorgio; Melzi, Simone (septiembre de 2016). "Selección de características mediante centralidad de vectores propios" (PDF) . NFmcp2016 . Consultado el 12 de noviembre de 2016 .
^ R. Kohavi y G. John, "Envoltorios para la selección de subconjuntos de características", Inteligencia artificial 97.1-2 (1997): 273-324
^ Das, Abhimanyu; Kempe, David (2011). "Lo submodular se encuentra con lo espectral: algoritmos voraces para la selección de subconjuntos, aproximación dispersa y selección de diccionarios". arXiv : 1102.3975 [stat.ML].
^ Liu et al., Selección de características submodulares para espacios de partituras acústicas de alta dimensión Archivado el 17 de octubre de 2015 en Wayback Machine.
^ Zheng et al., Selección de atributos submodulares para el reconocimiento de acciones en video Archivado el 18 de noviembre de 2015 en Wayback Machine.
^ Sun, Y.; Todorovic, S.; Goodison, S. (2010). "Selección de características basada en aprendizaje local para análisis de datos de alta dimensión". IEEE Transactions on Pattern Analysis and Machine Intelligence . 32 (9): 1610–1626. doi :10.1109/tpami.2009.190. PMC 3445441 . PMID 20634556.
^ DH Wang, YC Liang, D. Xu, XY Feng, RC Guan (2018), "Un sistema de recomendación basado en contenido para publicaciones de informática", Knowledge-Based Systems , 157: 1-9

Lectura adicional

Guyon, Isabelle; Elisseeff, Andre (2003). "Introducción a la selección de variables y características". Revista de investigación en aprendizaje automático . 3 : 1157–1182.
Harrell, F. (2001). Estrategias de modelado de regresión . Springer. ISBN 0-387-95232-2.
Liu, Huan; Motoda, Hiroshi (1998). Selección de características para el descubrimiento de conocimientos y la minería de datos. Springer. ISBN 0-7923-8198-X.
Liu, Huan; Yu, Lei (2005). "Hacia la integración de algoritmos de selección de características para clasificación y agrupamiento". IEEE Transactions on Knowledge and Data Engineering . 17 (4): 491–502. doi :10.1109/TKDE.2005.66. S2CID 1607600.

Enlaces externos

Paquete de selección de funciones, Universidad Estatal de Arizona (código Matlab)
Desafío NIPS 2003 (ver también NIPS )
Implementación de Naive Bayes con selección de características en Visual Basic Archivado el 14 de febrero de 2009 en Wayback Machine (incluye código fuente y ejecutable)
Programa de selección de características de mínima redundancia y máxima relevancia (mRMR)
FEAST (algoritmos de selección de características de código abierto en C y MATLAB)