Aprendizaje de características

Esto reemplaza la ingeniería de característica manual y permite que una máquina aprenda características y las use para realizar una tarea específica.Aun así, datos del mundo real como imágenes, vídeos, y datos de sensor no permiten definir algorítmicamente características específicas.La etiqueta de datos permite que el sistema calcule un término de error, el grado en que el sistema no puede producir la etiqueta, que luego puede usarse como retroalimentación para corregir el proceso de aprendizaje (reducir / minimizar el error).El aprendizaje de diccionario supervisado explota tanto la estructura subyacente a los datos de entrada como las etiquetas para optimizar los elementos del diccionario.Una función de red asociada a una red neuronal caracteriza la relación entre las capas de entrada y salida, que se parametriza mediante los pesos.Las redes neuronales multicapa se pueden utilizar para llevar a cabo el aprendizaje de características, ya que aprenden una representación de su entrada en la(s) capa(s) oculta(s) que posteriormente se usa para la clasificación o regresión en la capa de salida.En particular, dado un conjunto de n vectores, k-means clustering los agrupa en k clusters (es decir, subconjuntos) de tal manera que cada vector pertenece al cluster con la media (mean, en inglés) más cercana.El problema es computacionalmente NP-hard, aunque se han desarrollado algoritmos codiciosos subóptimos.Lo más simple es agregar k características binarias a cada muestra, donde cada característica j tiene valor uno si y solo si el j-ésimo centroide aprendido por k-means es el más cercano a la muestra bajo consideración.Los vectores singulares se pueden generar a través de un algoritmo simple con iteraciones.Esta es la razón por la que se usan los mismos pesos en el segundo paso de LLE.propone el algoritmo K-SVD para aprender un diccionario de elementos que permite una representación dispersa.[9]​ Estas arquitecturas a menudo se diseñan con base en la suposición de representación distribuida: los datos observados se generan por las interacciones de muchos factores diferentes en múltiples niveles.La entrada en la capa inferior es datos en bruto, y la salida de la capa final es la característica o representación final de baja dimensión.[10]​ Un RBM se puede representar mediante un gráfico bipartito no dirigido que consiste en un grupo de variables ocultas binarias, un grupo de variables visibles y bordes que conectan los nodos ocultos y visibles.Tal independencia condicional facilita los cálculos Un RBM se puede ver como una arquitectura de capa única para el aprendizaje de funciones no supervisadas.El entrenamiento puede repetirse hasta que se satisfagan algunos criterios de parada.