stringtranslate.com

Coincidencia óptima

El emparejamiento óptimo es un método de análisis de secuencias utilizado en las ciencias sociales para evaluar la disimilitud de matrices ordenadas de tokens que generalmente representan una secuencia ordenada en el tiempo de estados socioeconómicos que han experimentado dos individuos. Una vez que se han calculado dichas distancias para un conjunto de observaciones (por ejemplo, individuos en una cohorte ), se pueden utilizar herramientas clásicas (como el análisis de conglomerados ). El método se adaptó a las ciencias sociales [1] a partir de una técnica introducida originalmente para estudiar secuencias de biología molecular (proteínas o genéticas) (ver alineamiento de secuencias ). El emparejamiento óptimo utiliza el algoritmo Needleman-Wunsch .

Algoritmo

Sea una sucesión de estados pertenecientes a un conjunto finito de estados posibles. Denotemos el espacio de sucesiones, es decir, el conjunto de todas las sucesiones posibles de estados.

Los algoritmos de emparejamiento óptimo funcionan definiendo álgebras de operadores simples que manipulan secuencias, es decir, un conjunto de operadores . En el enfoque más simple, se utiliza un conjunto compuesto únicamente por tres operaciones básicas para transformar secuencias:

Imaginemos ahora que a cada operador se le asocia un coste . Dadas dos secuencias y , la idea es medir el coste de obtener de usando operadores del álgebra. Sea una secuencia de operadores tal que la aplicación de todos los operadores de esta secuencia a la primera secuencia dé la segunda secuencia : donde denota el operador compuesto. A este conjunto asociamos el coste , que representa el coste total de la transformación. En este punto hay que tener en cuenta que podrían existir diferentes secuencias de este tipo que se transformen en ; una elección razonable es seleccionar la más barata de dichas secuencias. Por tanto, llamamos distancia , es decir, el coste del conjunto menos caro de transformaciones que se convierten en . Nótese que es por definición no negativo ya que es la suma de los costes positivos, y trivialmente si y solo si , es decir, no hay coste. La función distancia es simétrica si los costes de inserción y deleción son iguales ; el término coste de indel suele referirse al coste común de inserción y deleción.

Considerando un conjunto compuesto únicamente por las tres operaciones básicas descritas anteriormente, esta medida de proximidad satisface la desigualdad triangular. Sin embargo, la transitividad depende de la definición del conjunto de operaciones elementales.

Crítica

Aunque las técnicas de emparejamiento óptimo se utilizan ampliamente en sociología y demografía, dichas técnicas también tienen sus defectos. Como lo señalaron varios autores (por ejemplo, LL Wu [2] ), el principal problema en la aplicación del emparejamiento óptimo es definir adecuadamente los costos .

Software

Referencias y notas

  1. ^ A. Abbott y A. Tsay, (2000) Análisis de secuencias y métodos de emparejamiento óptimo en sociología: revisión y perspectiva [ Métodos sociológicos e investigación], vol. 29, 3-33. doi :10.1177/0049124100029001001
  2. ^ LL Wu. (2000) Algunos comentarios sobre "Análisis de secuencias y métodos de emparejamiento óptimo en sociología: revisión y perspectiva" Archivado el 24 de octubre de 2006 en Wayback Machine . Sociological Methods & Research, 29 41-64. doi :10.1177/0049124100029001003