stringtranslate.com

Reconocimiento de patrones

El reconocimiento de patrones es la tarea de asignar una clase a una observación en función de patrones extraídos de los datos. Si bien son similares, el reconocimiento de patrones (PR) no debe confundirse con las máquinas de patrones (PM) que pueden poseer capacidades (PR) pero su función principal es distinguir y crear patrones emergentes. El PR tiene aplicaciones en análisis de datos estadísticos , procesamiento de señales , análisis de imágenes , recuperación de información , bioinformática , compresión de datos , gráficos de computadora y aprendizaje automático . El reconocimiento de patrones tiene sus orígenes en las estadísticas y la ingeniería; algunos enfoques modernos para el reconocimiento de patrones incluyen el uso del aprendizaje automático , debido a la mayor disponibilidad de big data y una nueva abundancia de poder de procesamiento .

Los sistemas de reconocimiento de patrones se entrenan comúnmente a partir de datos de "entrenamiento" etiquetados. Cuando no hay datos etiquetados disponibles, se pueden utilizar otros algoritmos para descubrir patrones previamente desconocidos. KDD y la minería de datos tienen un mayor enfoque en métodos no supervisados ​​y una conexión más fuerte con el uso comercial. El reconocimiento de patrones se centra más en la señal y también tiene en cuenta la adquisición y el procesamiento de señales . Se originó en la ingeniería y el término es popular en el contexto de la visión artificial : una conferencia líder sobre visión artificial se llama Conferencia sobre visión artificial y reconocimiento de patrones .

En el aprendizaje automático , el reconocimiento de patrones es la asignación de una etiqueta a un valor de entrada dado. En estadística, el análisis discriminante se introdujo con este mismo propósito en 1936. Un ejemplo de reconocimiento de patrones es la clasificación , que intenta asignar cada valor de entrada a una de un conjunto dado de clases (por ejemplo, determinar si un correo electrónico determinado es "spam"). El reconocimiento de patrones es un problema más general que también abarca otros tipos de salida. Otros ejemplos son la regresión , que asigna una salida de valor real a cada entrada; [1] el etiquetado de secuencias , que asigna una clase a cada miembro de una secuencia de valores [2] (por ejemplo, el etiquetado de partes del discurso , que asigna una parte del discurso a cada palabra en una oración de entrada); y el análisis sintáctico , que asigna un árbol de análisis sintáctico a una oración de entrada, describiendo la estructura sintáctica de la oración. [3]

Los algoritmos de reconocimiento de patrones generalmente tienen como objetivo proporcionar una respuesta razonable para todas las entradas posibles y realizar la comparación "más probable" de las entradas, teniendo en cuenta su variación estadística. Esto se opone a los algoritmos de comparación de patrones , que buscan coincidencias exactas en la entrada con patrones preexistentes. Un ejemplo común de un algoritmo de comparación de patrones es la comparación de expresiones regulares , que busca patrones de un tipo determinado en datos textuales y está incluida en las capacidades de búsqueda de muchos editores de texto y procesadores de texto .

Descripción general

Una definición moderna de reconocimiento de patrones es:

El campo del reconocimiento de patrones se ocupa del descubrimiento automático de regularidades en los datos mediante el uso de algoritmos informáticos y del uso de estas regularidades para tomar acciones como la clasificación de los datos en diferentes categorías. [4]

El reconocimiento de patrones generalmente se clasifica según el tipo de procedimiento de aprendizaje utilizado para generar el valor de salida. El aprendizaje supervisado supone que se ha proporcionado un conjunto de datos de entrenamiento (el conjunto de entrenamiento ), que consiste en un conjunto de instancias que se han etiquetado correctamente a mano con la salida correcta. Luego, un procedimiento de aprendizaje genera un modelo que intenta cumplir dos objetivos a veces contradictorios: funcionar lo mejor posible con los datos de entrenamiento y generalizar lo mejor posible a nuevos datos (generalmente, esto significa ser lo más simple posible, para alguna definición técnica de "simple", de acuerdo con la navaja de Occam , que se analiza a continuación). El aprendizaje no supervisado , por otro lado, supone datos de entrenamiento que no se han etiquetado a mano e intenta encontrar patrones inherentes en los datos que luego se puedan usar para determinar el valor de salida correcto para nuevas instancias de datos. [5] Una combinación de los dos que se ha explorado es el aprendizaje semisupervisado , que utiliza una combinación de datos etiquetados y no etiquetados (normalmente un pequeño conjunto de datos etiquetados combinado con una gran cantidad de datos no etiquetados). En los casos de aprendizaje no supervisado, es posible que no haya datos de entrenamiento en absoluto.

A veces se utilizan términos diferentes para describir los procedimientos de aprendizaje supervisado y no supervisado correspondientes para el mismo tipo de resultado. El equivalente no supervisado de la clasificación normalmente se conoce como agrupamiento , basado en la percepción común de que la tarea no implica datos de entrenamiento de los que hablar, y de agrupar los datos de entrada en grupos basados ​​en alguna medida de similitud inherente (por ejemplo, la distancia entre instancias, consideradas como vectores en un espacio vectorial multidimensional ), en lugar de asignar cada instancia de entrada a una de un conjunto de clases predefinidas. En algunos campos, la terminología es diferente. En ecología de comunidades , el término clasificación se utiliza para referirse a lo que comúnmente se conoce como "agrupamiento".

El fragmento de datos de entrada para el que se genera un valor de salida se denomina formalmente una instancia . La instancia se describe formalmente mediante un vector de características, que en conjunto constituyen una descripción de todas las características conocidas de la instancia. Estos vectores de características pueden considerarse puntos definitorios en un espacio multidimensional apropiado , y se les pueden aplicar métodos para manipular vectores en espacios vectoriales de manera correspondiente, como calcular el producto escalar o el ángulo entre dos vectores. Las características normalmente son categóricas (también conocidas como nominales , es decir, que consisten en uno de un conjunto de elementos no ordenados, como un género de "masculino" o "femenino", o un tipo de sangre de "A", "B", "AB" u "O"), ordinales (que consisten en uno de un conjunto de elementos ordenados, por ejemplo, "grande", "mediano" o "pequeño"), de valor entero (por ejemplo, un recuento del número de ocurrencias de una palabra particular en un correo electrónico) o de valor real (por ejemplo, una medición de la presión arterial). A menudo, los datos categóricos y ordinales se agrupan, y esto también sucede con los datos de valor entero y de valor real. Muchos algoritmos funcionan solo en términos de datos categóricos y requieren que los datos de valor real o de valor entero se discreticen en grupos (por ejemplo, menores que 5, entre 5 y 10 o mayores que 10).

Clasificadores probabilísticos

Muchos algoritmos de reconocimiento de patrones comunes son de naturaleza probabilística , en el sentido de que utilizan inferencia estadística para encontrar la mejor etiqueta para una instancia dada. A diferencia de otros algoritmos, que simplemente generan una etiqueta "mejor", a menudo los algoritmos probabilísticos también generan una probabilidad de que la instancia sea descrita por la etiqueta dada. Además, muchos algoritmos probabilísticos generan una lista de las N mejores etiquetas con probabilidades asociadas, para algún valor de N , en lugar de simplemente una única mejor etiqueta. Cuando el número de etiquetas posibles es bastante pequeño (por ejemplo, en el caso de la clasificación ), N puede establecerse de modo que se genere la probabilidad de todas las etiquetas posibles. Los algoritmos probabilísticos tienen muchas ventajas sobre los algoritmos no probabilísticos:

Número de variables de características importantes

Los algoritmos de selección de características intentan eliminar directamente las características redundantes o irrelevantes. Se ha presentado una introducción general a la selección de características que resume los enfoques y los desafíos. [6] La complejidad de la selección de características es, debido a su carácter no monótono, un problema de optimización en el que, dado un total de características, es necesario explorar el conjunto de potencias que consiste en todos los subconjuntos de características. El algoritmo Branch-and-Bound [7] reduce esta complejidad, pero es intratable para valores medianos a grandes del número de características disponibles.

En ocasiones, se utilizan técnicas para transformar los vectores de características en bruto ( extracción de características ) antes de aplicar el algoritmo de comparación de patrones. Los algoritmos de extracción de características intentan reducir un vector de características de gran dimensionalidad a un vector de dimensionalidad más pequeña con el que sea más fácil trabajar y que codifique menos redundancia, utilizando técnicas matemáticas como el análisis de componentes principales (PCA). La distinción entre la selección de características y la extracción de características es que las características resultantes después de que se ha realizado la extracción de características son de un tipo diferente a las características originales y pueden no ser fácilmente interpretables, mientras que las características que quedan después de la selección de características son simplemente un subconjunto de las características originales.

Planteamiento del problema

El problema del reconocimiento de patrones se puede plantear de la siguiente manera: dada una función desconocida (la verdad fundamental ) que asigna instancias de entrada a etiquetas de salida , junto con datos de entrenamiento que se supone que representan ejemplos precisos de la asignación, se produce una función que se aproxima lo más posible a la asignación correcta . (Por ejemplo, si el problema es filtrar spam, entonces es alguna representación de un correo electrónico y es "spam" o "no spam"). Para que este sea un problema bien definido, "se aproxima lo más posible" debe definirse rigurosamente. En la teoría de decisiones , esto se define especificando una función de pérdida o función de costo que asigna un valor específico a la "pérdida" resultante de producir una etiqueta incorrecta. El objetivo entonces es minimizar la pérdida esperada , con la expectativa asumida sobre la distribución de probabilidad de . En la práctica, ni la distribución de ni la función de verdad fundamental se conocen con exactitud, sino que solo se pueden calcular empíricamente recopilando una gran cantidad de muestras de y etiquetándolas manualmente utilizando el valor correcto de (un proceso que consume mucho tiempo, que normalmente es el factor limitante en la cantidad de datos de este tipo que se pueden recopilar). La función de pérdida particular depende del tipo de etiqueta que se predice. Por ejemplo, en el caso de la clasificación , la simple función de pérdida cero-uno suele ser suficiente. Esto corresponde simplemente a asignar una pérdida de 1 a cualquier etiquetado incorrecto e implica que el clasificador óptimo minimiza la tasa de error en datos de prueba independientes (es decir, contando la fracción de instancias que la función aprendida etiqueta incorrectamente, lo que equivale a maximizar la cantidad de instancias clasificadas correctamente). El objetivo del procedimiento de aprendizaje es entonces minimizar la tasa de error (maximizar la exactitud ) en un conjunto de prueba "típico".

Para un reconocedor de patrones probabilístico, el problema es, en cambio, estimar la probabilidad de cada etiqueta de salida posible dada una instancia de entrada particular, es decir, estimar una función de la forma

donde la entrada del vector de características es , y la función f normalmente está parametrizada por algunos parámetros . [8] En un enfoque discriminativo del problema, f se estima directamente. Sin embargo, en un enfoque generativo , la probabilidad inversa se estima y se combina con la probabilidad previa utilizando la regla de Bayes , de la siguiente manera:

Cuando las etiquetas se distribuyen de forma continua (por ejemplo, en el análisis de regresión ), el denominador implica integración en lugar de suma:

El valor de se aprende típicamente usando la estimación máxima a posteriori (MAP). Esto encuentra el mejor valor que satisface simultáneamente dos objetivos en conflicto: tener el mejor rendimiento posible en los datos de entrenamiento ( índice de error más bajo ) y encontrar el modelo más simple posible. Básicamente, esto combina la estimación de máxima verosimilitud con un procedimiento de regularización que favorece los modelos más simples sobre los modelos más complejos. En un contexto bayesiano , el procedimiento de regularización puede verse como la colocación de una probabilidad previa en diferentes valores de . Matemáticamente:

donde es el valor utilizado para en el procedimiento de evaluación posterior, y , la probabilidad posterior de , viene dada por

En el enfoque bayesiano de este problema, en lugar de elegir un único vector de parámetros , la probabilidad de una etiqueta dada para una nueva instancia se calcula integrando todos los valores posibles de , ponderados según la probabilidad posterior:

Enfoque frecuentista o bayesiano para el reconocimiento de patrones

El primer clasificador de patrones, el discriminante lineal presentado por Fisher , se desarrolló siguiendo la tradición frecuentista . El enfoque frecuentista implica que los parámetros del modelo se consideran desconocidos, pero objetivos. Luego, los parámetros se calculan (estiman) a partir de los datos recopilados. Para el discriminante lineal, estos parámetros son precisamente los vectores de media y la matriz de covarianza . Además, la probabilidad de cada clase se estima a partir del conjunto de datos recopilados. Tenga en cuenta que el uso de la " regla de Bayes " en un clasificador de patrones no hace que el enfoque de clasificación sea bayesiano.

La estadística bayesiana tiene su origen en la filosofía griega, donde ya se hacía una distinción entre el conocimiento " a priori " y el " a posteriori ". Más tarde, Kant definió su distinción entre lo que se conoce a priori (antes de la observación) y el conocimiento empírico obtenido a partir de las observaciones. En un clasificador de patrones bayesianos, el usuario puede elegir las probabilidades de clase, que luego son a priori. Además, la experiencia cuantificada como valores de parámetros a priori se puede ponderar con observaciones empíricas, utilizando, por ejemplo, las distribuciones Beta ( conjugada a priori ) y Dirichlet . El enfoque bayesiano facilita una mezcla perfecta entre el conocimiento experto en forma de probabilidades subjetivas y observaciones objetivas.

Los clasificadores de patrones probabilísticos se pueden utilizar según un enfoque frecuentista o bayesiano.

Usos

El rostro fue detectado automáticamente por un software especial.

En el ámbito de la medicina, el reconocimiento de patrones es la base de los sistemas de diagnóstico asistido por ordenador (CAD). El CAD describe un procedimiento que respalda las interpretaciones y los hallazgos del médico. Otras aplicaciones típicas de las técnicas de reconocimiento de patrones son el reconocimiento automático del habla , la identificación del hablante , la clasificación de texto en varias categorías (por ejemplo, mensajes de correo electrónico spam o no spam), el reconocimiento automático de la escritura a mano en sobres postales, el reconocimiento automático de imágenes de rostros humanos o la extracción de imágenes de escritura a mano de formularios médicos. [9] [10] Los dos últimos ejemplos forman el subtema análisis de imágenes del reconocimiento de patrones que trata de las imágenes digitales como entrada a los sistemas de reconocimiento de patrones. [11] [12]

El reconocimiento óptico de caracteres es un ejemplo de la aplicación de un clasificador de patrones. El método de firmar con el nombre de una persona se capturó con un lápiz y una superposición a partir de 1990. [ cita requerida ] Los trazos, la velocidad, el mínimo relativo, el máximo relativo, la aceleración y la presión se utilizan para identificar y confirmar la identidad de forma única. Los primeros en ofrecer esta tecnología a los bancos fueron los primeros en hacerlo, pero se contentaron con cobrarle a la FDIC por cualquier fraude bancario y no querían incomodar a los clientes. [ cita requerida ]

El reconocimiento de patrones tiene muchas aplicaciones reales en el procesamiento de imágenes. Algunos ejemplos incluyen:

En psicología, el reconocimiento de patrones se utiliza para dar sentido a los objetos e identificarlos, y está estrechamente relacionado con la percepción. Esto explica cómo se hacen significativos los estímulos sensoriales que recibimos los humanos. El reconocimiento de patrones se puede considerar de dos maneras diferentes. La primera se refiere a la comparación de plantillas y la segunda a la detección de características. Una plantilla es un patrón utilizado para producir elementos de las mismas proporciones. La hipótesis de la comparación de plantillas sugiere que los estímulos entrantes se comparan con plantillas en la memoria a largo plazo. Si hay una coincidencia, se identifica el estímulo. Los modelos de detección de características, como el sistema Pandemonium para clasificar letras (Selfridge, 1959), sugieren que los estímulos se descomponen en sus partes componentes para su identificación. Una observación es una E mayúscula que tiene tres líneas horizontales y una vertical. [22]

Algoritmos

Los algoritmos de reconocimiento de patrones dependen del tipo de etiqueta de salida, de si el aprendizaje es supervisado o no supervisado y de si el algoritmo es de naturaleza estadística o no estadística. Los algoritmos estadísticos pueden clasificarse además como generativos o discriminativos .

Métodos de clasificación (métodos que predicen etiquetas categóricas)

Paramétrico: [23]

No paramétrico: [24]

Métodos de agrupamiento (métodos para clasificar y predecir etiquetas categóricas)

Algoritmos de aprendizaje conjunto (metalgoritmos supervisados ​​para combinar varios algoritmos de aprendizaje)

Métodos generales para predecir etiquetas (conjuntos de etiquetas) estructuradas arbitrariamente

Algoritmos de aprendizaje de subespacios multilineales (predicción de etiquetas de datos multidimensionales utilizando representaciones tensoriales)

Sin supervisión:

Métodos de etiquetado de secuencias de valores reales (predicción de secuencias de etiquetas de valores reales)

Métodos de regresión (predicción de etiquetas con valores reales)

Métodos de etiquetado de secuencias (predicción de secuencias de etiquetas categóricas)


Véase también

Referencias

  1. ^ Howard, WR (20 de febrero de 2007). "Reconocimiento de patrones y aprendizaje automático". Kybernetes . 36 (2): 275. doi :10.1108/03684920710743466. ISSN  0368-492X.
  2. ^ "Etiquetado de secuencias" (PDF) . utah.edu . Archivado (PDF) desde el original el 2018-11-06 . Consultado el 2018-11-06 .
  3. ^ Ian., Chiswell (2007). Lógica matemática, pág. 34. Oxford University Press. ISBN 9780199215621.OCLC 799802313  .
  4. ^ Bishop, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Springer.
  5. ^ Carvalko, JR, Preston K. (1972). "Sobre la determinación de transformadas de marcado Golay simples óptimas para el procesamiento de imágenes binarias". IEEE Transactions on Computers . 21 (12): 1430–33. doi :10.1109/TC.1972.223519. S2CID  21050445.{{cite journal}}: CS1 maint: multiple names: authors list (link).
  6. ^ Isabelle Guyon Clopinet, André Elisseeff (2003). Introducción a la selección de variables y características . The Journal of Machine Learning Research, vol. 3, 1157-1182. Enlace archivado el 4 de marzo de 2016 en Wayback Machine.
  7. ^ Iman Foroutan; Jack Sklansky (1987). "Selección de características para la clasificación automática de datos no gaussianos". IEEE Transactions on Systems, Man, and Cybernetics . 17 (2): 187–198. doi :10.1109/TSMC.1987.4309029. S2CID  9871395..
  8. ^ Para el análisis discriminante lineal, el vector de parámetros consta de los dos vectores de media y y la matriz de covarianza común .
  9. ^ Milewski, Robert; Govindaraju, Venu (31 de marzo de 2008). "Binarización y limpieza de texto manuscrito a partir de imágenes de formularios médicos en papel carbón". Reconocimiento de patrones . 41 (4): 1308–1315. Código Bibliográfico :2008PatRe..41.1308M. doi :10.1016/j.patcog.2007.08.018. Archivado desde el original el 10 de septiembre de 2020 . Consultado el 26 de octubre de 2011 .
  10. ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática de hablantes". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . Código Bibliográfico :2020DSP...10402795S. doi :10.1016/j.dsp.2020.102795. S2CID  220665533.
  11. ^ Richard O. Duda , Peter E. Hart , David G. Stork (2001). Clasificación de patrones (2.ª ed.). Wiley, Nueva York. ISBN 978-0-471-05669-0Archivado desde el original el 19 de agosto de 2020. Consultado el 26 de noviembre de 2019 .{{cite book}}: CS1 maint: multiple names: authors list (link)
  12. ^ R. Brunelli, Técnicas de comparación de plantillas en visión artificial: teoría y práctica , Wiley, ISBN 978-0-470-51706-2 , 2009 
  13. ^ Tutorial de reconocimiento automático de matrículas Archivado el 20 de agosto de 2006 en Wayback Machine http://anpr-tutorial.com/
  14. ^ Redes neuronales para reconocimiento facial Archivado el 4 de marzo de 2016 en Wayback Machine Complemento del Capítulo 4 del libro de texto Aprendizaje automático.
  15. ^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (marzo de 2018). "Verificación del hablante con enunciados breves: una revisión de los desafíos, las tendencias y las oportunidades". IET Biometrics . 7 (2): 91–101. doi :10.1049/iet-bmt.2017.0065. Archivado desde el original el 2019-09-03 . Consultado el 2019-08-27 .
  16. ^ PAPNET para la detección del cáncer de cuello uterino Archivado el 8 de julio de 2012 en archive.today
  17. ^ "Desarrollo de una estrategia de control de vehículos autónomos utilizando una sola cámara y redes neuronales profundas (documento técnico 2018-01-0035) - SAE Mobilus". saemobilus.sae.org . 3 de abril de 2018. doi :10.4271/2018-01-0035. Archivado desde el original el 2019-09-06 . Consultado el 2019-09-06 .
  18. ^ Gerdes, J. Christian; Kegelman, John C.; Kapania, Nitin R.; Brown, Matthew; Spielberg, Nathan A. (27 de marzo de 2019). "Modelos de vehículos de redes neuronales para conducción automatizada de alto rendimiento". Science Robotics . 4 (28): eaaw1975. doi : 10.1126/scirobotics.aaw1975 . ISSN  2470-9476. PMID  33137751. S2CID  89616974.
  19. ^ Pickering, Chris (15 de agosto de 2017). «Cómo la IA está allanando el camino para los coches totalmente autónomos». The Engineer . Archivado desde el original el 6 de septiembre de 2019. Consultado el 6 de septiembre de 2019 .
  20. ^ Ray, Baishakhi; Jana, Suman; Pei, Kexin; Tian, ​​Yuchi (28 de agosto de 2017). "DeepTest: pruebas automatizadas de automóviles autónomos impulsados ​​por redes neuronales profundas". arXiv : 1708.08559 . Código Bibliográfico :2017arXiv170808559T. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  21. ^ Sinha, PK; Hadjiiski, LM; Mutib, K. (1993-04-01). "Redes neuronales en el control de vehículos autónomos". IFAC Proceedings Volumes . 1er Taller internacional de la IFAC sobre vehículos autónomos inteligentes, Hampshire, Reino Unido, 18-21 de abril. 26 (1): 335-340. doi :10.1016/S1474-6670(17)49322-0. ISSN  1474-6670.
  22. ^ "Revisión de la atención en psicología de nivel avanzado: reconocimiento de patrones | S-cool, el sitio web de revisión". S-cool.co.uk. Archivado desde el original el 22 de junio de 2013. Consultado el 17 de septiembre de 2012 .
  23. ^ Suponiendo que se conoce la forma distributiva de las distribuciones de características por clase, como la forma gaussiana .
  24. ^ No hay suposiciones distribucionales respecto de la forma de las distribuciones de características por clase.

Lectura adicional

Enlaces externos