Característica (aprendizaje automático)

En el aprendizaje automático y el reconocimiento de patrones , una característica es una propiedad o característica individual mensurable de un fenómeno. ^[1] La elección de características informativas, discriminatorias e independientes es un elemento crucial de algoritmos efectivos en el reconocimiento , clasificación y regresión de patrones . Las características suelen ser numéricas, pero en el reconocimiento de patrones sintácticos se utilizan características estructurales como cadenas y gráficos . El concepto de "característica" está relacionado con el de variable explicativa utilizado en técnicas estadísticas como la regresión lineal .

Tipos de funciones

En ingeniería de características, se utilizan comúnmente dos tipos de características: numéricas y categóricas.

Las características numéricas son valores continuos que se pueden medir en una escala. Ejemplos de características numéricas incluyen edad, altura, peso e ingresos. Las funciones numéricas se pueden utilizar directamente en algoritmos de aprendizaje automático. ^[2]

Las características categóricas son valores discretos que se pueden agrupar en categorías. Ejemplos de características categóricas incluyen género, color y código postal. Por lo general, las características categóricas deben convertirse en características numéricas antes de que puedan usarse en algoritmos de aprendizaje automático. Esto se puede hacer utilizando una variedad de técnicas, como codificación one-hot, codificación de etiquetas y codificación ordinal.

El tipo de característica que se utiliza en la ingeniería de características depende del algoritmo de aprendizaje automático específico que se esté utilizando. Algunos algoritmos de aprendizaje automático, como los árboles de decisión, pueden manejar características tanto numéricas como categóricas. Otros algoritmos de aprendizaje automático, como la regresión lineal, solo pueden manejar características numéricas.

Clasificación

Una característica numérica se puede describir convenientemente mediante un vector de características. Una forma de lograr la clasificación binaria es utilizar una función predictora lineal (relacionada con el perceptrón ) con un vector de características como entrada. El método consiste en calcular el producto escalar entre el vector de características y un vector de pesos, calificando aquellas observaciones cuyo resultado supere un umbral.

Los algoritmos para la clasificación a partir de un vector de características incluyen la clasificación del vecino más cercano , redes neuronales y técnicas estadísticas como los enfoques bayesianos .

Ejemplos

En el reconocimiento de caracteres , las funciones pueden incluir histogramas que cuentan la cantidad de píxeles negros en direcciones horizontales y verticales, la cantidad de agujeros internos, detección de trazos y muchas otras.

En el reconocimiento de voz , las funciones para reconocer fonemas pueden incluir proporciones de ruido, duración de los sonidos, potencia relativa, coincidencias de filtros y muchas otras.

En los algoritmos de detección de spam , las características pueden incluir la presencia o ausencia de ciertos encabezados de correo electrónico, la estructura del correo electrónico, el idioma, la frecuencia de términos específicos y la corrección gramatical del texto.

En la visión por computadora , existe una gran cantidad de características posibles , como bordes y objetos.

Vectores de características

En reconocimiento de patrones y aprendizaje automático , un vector de características es un vector n-dimensional de características numéricas que representan algún objeto. Muchos algoritmos de aprendizaje automático requieren una representación numérica de los objetos, ya que dichas representaciones facilitan el procesamiento y el análisis estadístico. Al representar imágenes, los valores de las características pueden corresponder a los píxeles de una imagen, mientras que al representar textos las características pueden ser las frecuencias de aparición de términos textuales. Los vectores de características son equivalentes a los vectores de variables explicativas utilizados en procedimientos estadísticos como la regresión lineal . Los vectores de características a menudo se combinan con pesos usando un producto escalar para construir una función predictora lineal que se usa para determinar una puntuación para hacer una predicción.

El espacio vectorial asociado con estos vectores a menudo se denomina espacio de características . Para reducir la dimensionalidad del espacio de características, se pueden emplear varias técnicas de reducción de dimensionalidad .

Se pueden obtener características de nivel superior a partir de características ya disponibles y agregarlas al vector de características; por ejemplo, para el estudio de enfermedades la característica 'Edad' es útil y se define como Edad = 'Año de muerte' menos 'Año de nacimiento' . Este proceso se conoce como construcción de características . ^[3]^[4] La construcción de características es la aplicación de un conjunto de operadores constructivos a un conjunto de características existentes que resultan en la construcción de nuevas características. Ejemplos de tales operadores constructivos incluyen la verificación de las condiciones de igualdad {=, ≠}, los operadores aritméticos {+,−,×, /}, los operadores de matriz {max(S), min(S), promedio(S)} como así como otros operadores más sofisticados, por ejemplo count(S,C) ^[5] que cuenta el número de características en el vector de características S que satisfacen alguna condición C o, por ejemplo, distancias a otras clases de reconocimiento generalizadas por algún dispositivo de aceptación. La construcción de características se ha considerado durante mucho tiempo una herramienta poderosa para aumentar tanto la precisión como la comprensión de la estructura, particularmente en problemas de alta dimensión. ^[6] Las aplicaciones incluyen estudios de enfermedades y reconocimiento de emociones a partir del habla. ^[7]

Selección y extracción

El conjunto inicial de características sin procesar puede ser redundante y lo suficientemente grande como para que la estimación y optimización resulten difíciles o ineficaces. Por lo tanto, un paso preliminar en muchas aplicaciones de aprendizaje automático y reconocimiento de patrones consiste en seleccionar un subconjunto de características o construir un conjunto nuevo y reducido de características para facilitar el aprendizaje y mejorar la generalización y la interpretabilidad. ^[8]

Extraer o seleccionar características es una combinación de arte y ciencia; desarrollar sistemas para hacerlo se conoce como ingeniería de características . Requiere la experimentación de múltiples posibilidades y la combinación de técnicas automatizadas con la intuición y el conocimiento del experto en el dominio . Automatizar este proceso es el aprendizaje de funciones , donde una máquina no solo utiliza funciones para aprender, sino que también aprende las funciones por sí misma.

Ver también

Referencias

^ Obispo, Christopher (2006). Reconocimiento de patrones y aprendizaje automático . Berlín: Springer. ISBN 0-387-31073-8.
^ Andrés Engel (2022). "Variables categóricas para algoritmos de aprendizaje automático". Hacia la ciencia de datos.
^ Liu, H., Motoda H. (1998) Selección de funciones para el descubrimiento de conocimientos y la extracción de datos. , Editores académicos de Kluwer. Norwell, MA, Estados Unidos. 1998.
^ Piramuthu, S., Sikora RT Construcción de funciones iterativas para mejorar los algoritmos de aprendizaje inductivo. En Revista de sistemas expertos con aplicaciones. vol. 36, edición. 2 (marzo de 2009), págs. 3401-3406, 2009
^ Bloedorn, E., Michalski, R. Inducción constructiva basada en datos: una metodología y sus aplicaciones. IEEE Intelligent Systems, número especial sobre transformación de características y selección de subconjuntos, págs. 30-37, marzo/abril de 1998
^ Breiman, L. Friedman, T., Olshen, R., Stone, C. (1984) Árboles de clasificación y regresión , Wadsworth
^ Sidorova, J., Badia T. Aprendizaje sintáctico para ESEDA.1, herramienta para mejorar la detección y el análisis de las emociones del habla. Conferencia sobre tecnología de Internet y transacciones seguras de 2009 (ICITST-2009), Londres, 9 al 12 de noviembre. IEEE
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Saltador. ISBN 978-0-387-84884-6.