La asignación filogenética de linajes de brotes globales nombrados ( PANGOLIN ) es una herramienta de software desarrollada por la Dra. Áine O'Toole [2] y miembros del laboratorio Andrew Rambaut , con una aplicación web asociada desarrollada por el Centro de Vigilancia de Patógenos Genómicos en el sur de Cambridgeshire . [3] Su propósito es implementar una nomenclatura dinámica (conocida como la nomenclatura Pango) para clasificar los linajes genéticos del SARS-CoV-2 , el virus que causa la COVID-19 . [4] Un usuario con una secuencia completa del genoma de una muestra del SARS-CoV-2 puede usar la herramienta para enviar esa secuencia, que luego se compara con otras secuencias del genoma y se le asigna el linaje más probable (linaje Pango). [5] Son posibles ejecuciones simples o múltiples, y la herramienta puede devolver más información sobre el historial conocido del linaje asignado. [5] Además, interactúa con Microreact para mostrar una secuencia temporal de la ubicación de los informes de muestras secuenciadas del mismo linaje. [5] Esta última característica se basa en genomas disponibles públicamente obtenidos del Consorcio de Genómica COVID-19 del Reino Unido y de aquellos enviados a GISAID . [5] Su nombre deriva del pangolín .
PANGOLIN es un componente clave que sustenta el sistema de nomenclatura Pango. [6]
Como se describe en Andrew Rambaut et al. (2020), [4] un linaje de Pango se describe como un conjunto de secuencias asociadas con un evento epidemiológico, por ejemplo, una introducción del virus en un área geográfica específica con evidencia de propagación posterior. Los linajes están diseñados para capturar el borde emergente de la pandemia y tienen una resolución de grano fino adecuada para la vigilancia epidemiológica genómica y la investigación de brotes. [ cita requerida ]
Tanto la herramienta como el sistema de nomenclatura PANGOLIN se han utilizado ampliamente durante la pandemia de COVID-19 . [4] [7] [8]
A diferencia de la herramienta PANGOLIN, los linajes de Pango se seleccionan de forma manual y regular en función de la diversidad actual que circula a nivel mundial. Se construye un gran árbol filogenético a partir de una alineación que contiene genomas de SARS-CoV-2 disponibles públicamente, y los subgrupos de secuencias de este árbol se examinan manualmente y se contrastan con información epidemiológica para designar nuevos linajes; estos pueden ser designados por los productores de datos, y las sugerencias de linajes se pueden enviar al equipo de Pango a través de una solicitud de problemas en GitHub . [9] [10] [ se necesita más explicación ]
Estas designaciones de linaje seleccionadas manualmente y las secuencias genómicas asociadas son la entrada al modelo de entrenamiento de aprendizaje automático. Este modelo, tanto el de entrenamiento como el de asignación, se ha denominado "pangoLEARN". La versión actual de pangoLEARN utiliza un árbol de clasificación basado en la implementación de scikit-learn [11] de un clasificador de árbol de decisión.
Originalmente, PANGOLIN utilizaba un algoritmo de asignación basado en la máxima verosimilitud para asignar a la consulta SARS-CoV-2 la secuencia de linaje más probable. Sin embargo, desde el lanzamiento de la versión 2.0 en julio de 2020, ha utilizado el algoritmo de asignación basado en aprendizaje automático 'pangoLEARN' para asignar linajes a nuevos genomas de SARS-CoV-2. [12] Este enfoque es rápido y puede asignar grandes cantidades de genomas de SARS-CoV-2 en un tiempo relativamente corto. [13]
PANGOLIN está disponible como una herramienta basada en línea de comandos , descargable desde Conda y desde un repositorio de GitHub [12] , y como una aplicación web [14] con una interfaz gráfica de usuario de arrastrar y soltar. La aplicación web PANGOLIN ha asignado más de 512.000 secuencias únicas de SARS-CoV-2 a enero de 2021. [ cita requerida ]
PANGOLIN fue creado por Áine O'Toole y el laboratorio Rambaut y lanzado el 5 de abril de 2020. Los principales desarrolladores de PANGOLIN son Áine O'Toole y Emily Scher; muchos otros han contribuido a varios aspectos de la herramienta, incluidos Ben Jackson, JT McCrone, Verity Hill y Rachel Colquhoun del laboratorio Rambaut. [5]
La aplicación web PANGOLIN fue desarrollada por el Centro de Vigilancia de Patógenos Genómicos, [14] es decir, Anthony Underwood, Ben Taylor, Corin Yeats, Khali Abu-Dahab y David Aanensen. [5]
La herramienta de asignación filogenética de linajes de brotes globales con nombre (PANGOLIN) ha sido la herramienta más utilizada para la asignación de linaje a las variantes emergentes.
El modelo se entrenó utilizando ~60 000 secuencias de SARS-CoV-2 de GISAID... entrenar este modelo lleva aproximadamente 30 minutos en nuestro hardware