Coincidencia óptima

El emparejamiento óptimo es un método de análisis de secuencias utilizado en las ciencias sociales para evaluar la disimilitud de matrices ordenadas de tokens que generalmente representan una secuencia ordenada en el tiempo de estados socioeconómicos que han experimentado dos individuos. Una vez que se han calculado dichas distancias para un conjunto de observaciones (por ejemplo, individuos en una cohorte ), se pueden utilizar herramientas clásicas (como el análisis de conglomerados ). El método se adaptó a las ciencias sociales ^[1] a partir de una técnica introducida originalmente para estudiar secuencias de biología molecular (proteínas o genéticas) (ver alineamiento de secuencias ). El emparejamiento óptimo utiliza el algoritmo Needleman-Wunsch .

Algoritmo

Sea una sucesión de estados pertenecientes a un conjunto finito de estados posibles. Denotemos el espacio de sucesiones, es decir, el conjunto de todas las sucesiones posibles de estados. $S=(s_{1},s_{2},s_{3},\ldots s_{T})$ $estilo de visualización s_{i}}$ ${\mathbf {S}}$

Los algoritmos de emparejamiento óptimo funcionan definiendo álgebras de operadores simples que manipulan secuencias, es decir, un conjunto de operadores . En el enfoque más simple, se utiliza un conjunto compuesto únicamente por tres operaciones básicas para transformar secuencias: $a_{i}:{\mathbf {S} }\rightarrow {\mathbf {S} }$

Se inserta un estado en la secuencia. ${\estilo de visualización s}$ $a_{s'}^{\rm {Ins}}(s_{1},s_{2},s_{3},\ldots s_{T})=(s_{1},s_{2},s_{3},\ldots ,s',\ldots s_{T})$
Se elimina un estado de la secuencia y $a_{s_{2}}^{\rm {Del}}(s_{1},s_{2},s_{3},\ldots s_{T})=(s_{1},s_{3},\ldots s_{T})$
un estado es reemplazado (sustituido) por el estado , . $estilo de visualización s_{1}$ $s'_{1}$ $a_{s_{1},s'_{1}}^{\rm {Sub}}(s_{1},s_{2},s_{3},\ldots s_{T})=(s'_{1},s_{2},s_{3},\ldots s_{T})$

Imaginemos ahora que a cada operador se le asocia un coste . Dadas dos secuencias y , la idea es medir el coste de obtener de usando operadores del álgebra. Sea una secuencia de operadores tal que la aplicación de todos los operadores de esta secuencia a la primera secuencia dé la segunda secuencia : donde denota el operador compuesto. A este conjunto asociamos el coste , que representa el coste total de la transformación. En este punto hay que tener en cuenta que podrían existir diferentes secuencias de este tipo que se transformen en ; una elección razonable es seleccionar la más barata de dichas secuencias. Por tanto, llamamos distancia que es el coste del conjunto menos caro de transformaciones que se convierten en . Nótese que es por definición no negativo ya que es la suma de los costes positivos, y trivialmente si y solo si , es decir no hay coste. La función distancia es simétrica si los costes de inserción y deleción son iguales ; el término coste de indel suele referirse al coste común de inserción y deleción. $c(a_{i})\in {\mathbf {R}}_{0}^{+}$ $Estilo de visualización S_{1}$ $Estilo de visualización S_{2}$ $Estilo de visualización S_{2}$ $Estilo de visualización S_{1}$ $A={a_{1},a_{2},\ldots a_{n}}$ ${\estilo de visualización A}$ $Estilo de visualización S_{1}$ $Estilo de visualización S_{2}$ $S_{2}=a_{1}\circ a_{2}\circ \ldots \circ a_{n}(S_{1})$ $Estilo de visualización a_{1}\circ a_{2}}$ $c(A)=\sum _{i=1}^{n}c(a_{i})$ ${\estilo de visualización A}$ $Estilo de visualización S_{1}$ $Estilo de visualización S_{2}$
$d(S_{1},S_{2})=\min _{A}\left\{c(A)~{\rm {tal~que}}~S_{2}=A(S_{1})\right\}$
$Estilo de visualización S_{1}$ $Estilo de visualización S_{2}$ $d(S_{1},S_{2})$ $d(S_{1},S_{2})=0$ $Estilo de visualización S_{1}=S_{2}}$ $c(a^{\rm {Ins}})=c(a^{\rm {Del}})$

Considerando un conjunto compuesto únicamente por las tres operaciones básicas descritas anteriormente, esta medida de proximidad satisface la desigualdad triangular. Sin embargo, la transitividad depende de la definición del conjunto de operaciones elementales.

Crítica

Aunque las técnicas de emparejamiento óptimo se utilizan ampliamente en sociología y demografía, dichas técnicas también tienen sus defectos. Como lo señalaron varios autores (por ejemplo, LL Wu ^[2] ), el principal problema en la aplicación del emparejamiento óptimo es definir adecuadamente los costos . $estilo de visualización c(a_{i})}$

Software

TDA es un programa poderoso que ofrece acceso a algunos de los últimos avances en análisis de datos de transición.
STATA ha implementado un paquete para ejecutar un análisis de coincidencia óptimo.
TraMineR es un paquete R de código abierto para analizar y visualizar secuencias de estados y eventos, incluido el análisis de coincidencia óptima.

Referencias y notas

^ A. Abbott y A. Tsay, (2000) Análisis de secuencias y métodos de emparejamiento óptimo en sociología: revisión y perspectiva [ Métodos sociológicos e investigación], vol. 29, 3-33. doi :10.1177/0049124100029001001
^ LL Wu. (2000) Algunos comentarios sobre "Análisis de secuencias y métodos de emparejamiento óptimo en sociología: revisión y perspectiva" Archivado el 24 de octubre de 2006 en Wayback Machine . Sociological Methods & Research, 29 41-64. doi :10.1177/0049124100029001003