Análisis de secuencias

En bioinformática , el análisis de secuencias es el proceso de someter una secuencia de ADN , ARN o péptidos a cualquiera de una amplia gama de métodos analíticos para comprender sus características, función, estructura o evolución. Se puede realizar en todo el genoma, transcriptoma o proteoma de un organismo, y también puede involucrar solo segmentos o regiones seleccionados, como repeticiones en tándem y elementos transponibles. Las metodologías utilizadas incluyen alineamiento de secuencias , búsquedas en bases de datos biológicas y otras. ^[1]

Desde que se desarrollaron métodos de producción de alto rendimiento de secuencias de genes y proteínas, la tasa de adición de nuevas secuencias a las bases de datos aumentó muy rápidamente. Tal recopilación de secuencias, por sí sola, no aumenta la comprensión científica de la biología de los organismos. Sin embargo, comparar estas nuevas secuencias con aquellas con funciones conocidas es una forma clave de comprender la biología de un organismo del que proviene la nueva secuencia. Por lo tanto, el análisis de secuencias se puede utilizar para asignar funciones a regiones codificantes y no codificantes en una secuencia biológica, generalmente comparando secuencias y estudiando similitudes y diferencias. Hoy en día, existen muchas herramientas y técnicas que proporcionan las comparaciones de secuencias (alineamiento de secuencias) y analizan el producto del alineamiento para comprender su biología.

El análisis de secuencias en biología molecular incluye una amplia gama de procesos:

La comparación de secuencias para encontrar similitudes, a menudo para inferir si están relacionadas ( homólogas ).
Identificación de características intrínsecas de la secuencia, como sitios activos , sitios de modificación postraduccional , estructuras genéticas , marcos de lectura , distribuciones de intrones y exones y elementos reguladores.
Identificación de diferencias y variaciones de secuencia como mutaciones puntuales y polimorfismos de un solo nucleótido (SNP) para obtener el marcador genético .
Revelando la evolución y diversidad genética de secuencias y organismos
Identificación de la estructura molecular sólo a partir de la secuencia.

Historia

Desde que Fred Sanger caracterizó las primeras secuencias de la proteína insulina en 1951, los biólogos han intentado utilizar este conocimiento para comprender la función de las moléculas. ^[2]^[3] Los descubrimientos de él y sus colegas contribuyeron a la secuenciación exitosa del primer genoma basado en ADN. ^[4] El método utilizado en este estudio, que se denomina "método Sanger" o secuenciación Sanger , fue un hito en la secuenciación de moléculas de cadena larga como el ADN. Este método se utilizó finalmente en el proyecto del genoma humano . ^[5] Según Michael Levitt , el análisis de secuencias nació en el período de 1969 a 1977. ^[6] En 1969, el análisis de secuencias de ARN de transferencia se utilizó para inferir interacciones de residuos a partir de cambios correlacionados en las secuencias de nucleótidos, dando lugar a un modelo de la estructura secundaria del ARNt . ^[7] En 1970, Saul B. Needleman y Christian D. Wunsch publicaron el primer algoritmo informático para alinear dos secuencias. ^[8] Durante este tiempo, los avances en la obtención de secuencias de nucleótidos mejoraron enormemente, lo que llevó a la publicación del primer genoma completo de un bacteriófago en 1977. ^[9] Se cree que Robert Holley y su equipo en la Universidad de Cornell fueron los primeros en secuenciar una molécula de ARN. ^[10]

Descripción general del análisis de secuencias de nucleótidos (ADN y ARN)

Los análisis de secuencias de nucleótidos identifican elementos funcionales como sitios de unión de proteínas, descubren variaciones genéticas como SNP, estudian patrones de expresión génica y comprenden la base genética de los rasgos. Ayudan a comprender los mecanismos que contribuyen a procesos como la replicación y la transcripción. Algunas de las tareas involucradas se describen a continuación.

Control de calidad y preprocesamiento

El control de calidad evalúa la calidad de las lecturas de secuenciación obtenidas a partir de la tecnología de secuenciación (por ejemplo, Illumina ). Es el primer paso en el análisis de secuencias para limitar las conclusiones erróneas debido a datos de mala calidad. Las herramientas utilizadas en esta etapa dependen de la plataforma de secuenciación. Por ejemplo, FastQC verifica la calidad de lecturas cortas (incluidas las secuencias de ARN), Nanoplot o PycoQC se utilizan para secuencias de lecturas largas (por ejemplo, lecturas de secuencias de Nanopore) y MultiQC agrega el resultado de FastQC en un formato de página web. ^[11]^[12]^[13]

El control de calidad proporciona información como longitudes de lectura, contenido de GC , presencia de secuencias adaptadoras (para lecturas cortas) y una puntuación de calidad, que a menudo se expresa en una escala PHRED . ^[14] Si hay adaptadores u otros artefactos de la amplificación por PCR en las lecturas (particularmente lecturas cortas), se eliminan utilizando software como Trimmomatic ^[15] o Cutadapt. ^[16]

Leer alineación

En este paso, las lecturas de secuenciación cuya calidad se ha mejorado se asignan a un genoma de referencia utilizando herramientas de alineamiento como BWA ^[17] para lecturas de secuencias de ADN cortas, minimap ^[18] para secuencias de ADN de lecturas largas y STAR ^[19] para lecturas de secuencias de ARN. El propósito del mapeo es encontrar el origen de cualquier lectura dada en función de la secuencia de referencia. También es importante para detectar variaciones o estudios filogenéticos . El resultado de este paso, es decir, las lecturas alineadas, se almacenan en formatos de archivo compatibles conocidos como SAM, que contienen información sobre el genoma de referencia, así como lecturas individuales. Alternativamente, se prefieren los formatos de archivo BAM , ya que utilizan mucho menos espacio de escritorio o de almacenamiento. ^[14]

Nota : Esto es diferente de la alineación de secuencias, que compara dos o más secuencias completas (o regiones de secuencia) para cuantificar la similitud o las diferencias o para identificar una secuencia desconocida (como se analiza a continuación).

Los siguientes pasos de análisis son propios de las secuencias de ADN:

Llamada de variantes

La identificación de variantes es un aspecto popular del análisis de secuencias, ya que las variantes a menudo contienen información de importancia biológica, como explicar el mecanismo de resistencia a los fármacos en una enfermedad infecciosa. Estas variantes pueden ser variantes de un solo nucleótido (SNV), pequeñas inserciones/deleciones (indel) y grandes variantes estructurales . Las alineaciones de lectura se ordenan utilizando SAMtools , después de lo cual se utilizan los llamadores de variantes como GATK ^{[20] para identificar diferencias en comparación con la secuencia de referencia.}

La elección de la herramienta de llamada de variantes depende en gran medida de la tecnología de secuenciación utilizada, por lo que GATK se utiliza a menudo cuando se trabaja con lecturas cortas, mientras que las secuencias de lecturas largas requieren herramientas como DeepVariant ^[21] y Sniffles. ^[22] Las herramientas también pueden diferir según el organismo (procariotas o eucariotas), la fuente de datos de secuencia (cáncer vs metagenómico ) y el tipo de variante de interés (SNV o variantes estructurales). El resultado de la llamada de variantes suele estar en formato vcf y se puede filtrar utilizando frecuencias de alelos, puntuaciones de calidad u otros factores en función de la pregunta de investigación en cuestión. ^[14]

Anotación de variantes

Este paso agrega contexto a los datos de las variantes utilizando información seleccionada de artículos revisados por pares y bases de datos disponibles públicamente como gnomAD y Ensembl . Las variantes se pueden anotar con información sobre características genómicas, consecuencias funcionales, elementos reguladores y frecuencias poblacionales utilizando herramientas como ANNOVAR o SnpEff, ^[23] o scripts y pipelines personalizados. El resultado de este paso es un archivo de anotación en formato bed o txt. ^[14]

Visualización e interpretación

Los datos genómicos, como alineaciones de lecturas, gráficos de cobertura y llamadas de variantes, se pueden visualizar utilizando navegadores genómicos como IGV (Integrative Genomics Viewer) o UCSC Genome Browser. La interpretación de los resultados se realiza en el contexto de la pregunta biológica o hipótesis bajo investigación. El resultado puede ser una representación gráfica de los datos en forma de gráficos de Circos, gráficos de volcanes, etc., u otras formas de informe que describan las observaciones. ^[14]

El análisis de la secuencia de ADN también podría implicar modelos estadísticos para inferir relaciones y análisis epigenéticos, como la identificación de regiones de metilación diferencial utilizando una herramienta como DSS.

Los siguientes pasos son propios de las secuencias de ARN:

Análisis de la expresión genética

Las secuencias de ARN mapeadas se analizan para estimar los niveles de expresión génica utilizando herramientas de cuantificación como HTSeq, ^[24] e identificar genes expresados diferencialmente (DEG) entre condiciones experimentales utilizando métodos estadísticos como DESeq2 . ^[25] Esto se lleva a cabo para comparar los niveles de expresión de genes o isoformas entre o a través de diferentes muestras, e inferir relevancia biológica. ^[14] El resultado del análisis de expresión génica es típicamente una tabla con valores que representan los niveles de expresión de los identificadores o nombres de genes en filas y muestras en las columnas, así como errores estándar y valores p. Los resultados en la tabla se pueden visualizar aún más utilizando gráficos de volcanes y mapas de calor, donde los colores representan el nivel de expresión estimado. Paquetes como ggplot2 en R y Matplotlib en Python se utilizan a menudo para crear las imágenes. La tabla también se puede anotar utilizando un archivo de anotación de referencia, generalmente en formato GTF o GFF para proporcionar más contexto sobre los genes, como el nombre del cromosoma, la cadena y el inicio y las posiciones, y ayudar a la interpretación de los resultados. ^[14]^[12]^[13]^[26]

Análisis de enriquecimiento funcional

El análisis de enriquecimiento funcional identifica los procesos biológicos, las vías y los impactos funcionales asociados con los genes expresados de forma diferencial obtenidos en el paso anterior. Utiliza herramientas como GOSeq ^[27] y Pathview ^[28] . Esto crea una tabla con información sobre qué vías y procesos moleculares están asociados con los genes expresados de forma diferencial, qué genes están regulados de forma negativa o positiva y qué términos de ontología génica son recurrentes o están sobrerrepresentados. ^[14]^[12]^[13]^[26]

El análisis de secuencias de ARN permite explorar la dinámica de la expresión génica y los mecanismos reguladores que subyacen a los procesos biológicos y las enfermedades. La interpretación de imágenes y tablas se lleva a cabo en el contexto de las hipótesis investigadas.

Ver también: Tecnologías transcriptómicas .

Análisis de secuencias de proteínas

El análisis de la secuencia del proteoma estudia el conjunto completo de proteínas expresadas por un organismo o una célula en condiciones específicas. Describe la estructura, la función, las modificaciones postraduccionales y las interacciones de las proteínas dentro de los sistemas biológicos. Suele comenzar con datos de espectrometría de masas (MS) sin procesar de experimentos de proteómica, normalmente en formatos de archivo mzML, mzXML o RAW. ^[14]

Además del preprocesamiento de los datos de MS sin procesar para eliminar el ruido, normalizar las intensidades y detectar picos, y convertir formatos de archivo propietarios (por ejemplo, RAW) a formatos de código abierto (mzML, mzXML) para la compatibilidad con herramientas de análisis posteriores, otros pasos analíticos incluyen la identificación de péptidos , la cuantificación de péptidos, la inferencia y cuantificación de proteínas, la generación de informes de control de calidad y la normalización, imputación y prueba de significancia. La elección y el orden de los pasos analíticos dependen del método de MS utilizado, que puede ser adquisición dependiente de datos (DDA) o adquisición independiente (DIA). ^[14]^[29]

Navegadores genómicos en el análisis de secuencias

Los navegadores genómicos ofrecen una interfaz fácil de usar y sin código para visualizar genomas y segmentos genómicos, identificar características genómicas y analizar la relación entre numerosos elementos genómicos. Los tres navegadores genómicos principales (el navegador genómico Ensembl, el navegador genómico UCSC y el Centro Nacional de Información Biotecnológica [NCBI]) admiten diferentes procedimientos de análisis de secuencias, incluido el ensamblaje del genoma, la anotación del genoma y la genómica comparativa, como la exploración de patrones de expresión diferencial y la identificación de regiones conservadas. Todos los navegadores admiten múltiples formatos de datos para cargar y descargar y proporcionan enlaces a herramientas y recursos externos para análisis de secuencias, lo que contribuye a su versatilidad. ^[30]^[31]

Alineación de secuencias

Ejemplo de alineación de secuencias múltiples

Se conocen millones de secuencias de proteínas y nucleótidos . Estas secuencias se dividen en muchos grupos de secuencias relacionadas conocidas como familias de proteínas o familias de genes. Las relaciones entre estas secuencias se descubren normalmente alineándolas entre sí y asignándoles una puntuación. Hay dos tipos principales de alineación de secuencias. La alineación de secuencias por pares solo compara dos secuencias a la vez y la alineación de secuencias múltiples compara muchas secuencias. Dos algoritmos importantes para alinear pares de secuencias son el algoritmo Needleman-Wunsch y el algoritmo Smith-Waterman . Las herramientas populares para la alineación de secuencias incluyen:

Alineación por pares - BLAST , diagramas de puntos
Alineación múltiple: ClustalW , PROBCONS , MUSCLE , MAFFT y T-Coffee .

Un uso común de la alineación de secuencias por pares es tomar una secuencia de interés y compararla con todas las secuencias conocidas en una base de datos para identificar secuencias homólogas . En general, las coincidencias en la base de datos se ordenan para mostrar primero las secuencias más relacionadas, seguidas de las secuencias con similitud decreciente. Estas coincidencias generalmente se informan con una medida de significancia estadística, como un valor de expectativa .

Comparación de perfiles

En 1987, Michael Gribskov, Andrew McLachlan y David Eisenberg introdujeron el método de comparación de perfiles para identificar similitudes distantes entre proteínas. ^[32] En lugar de utilizar una sola secuencia, los métodos de perfil utilizan una alineación de secuencias múltiples para codificar un perfil que contiene información sobre el nivel de conservación de cada residuo. Estos perfiles pueden usarse para buscar colecciones de secuencias para encontrar secuencias que estén relacionadas. Los perfiles también se conocen como matrices de puntuación de posición específica (PSSM). En 1993, Anders Krogh y sus colegas introdujeron una interpretación probabilística de los perfiles utilizando modelos ocultos de Markov . ^[33]^[34] Estos modelos se conocen como perfiles-HMM.

^{En los últimos} años se han desarrollado ^{métodos que permiten comparar perfiles directamente entre}^sí , conocidos como métodos de comparación perfil-perfil. ^[35]

Ensamblaje de secuencias

El ensamblaje de secuencias se refiere a la reconstrucción de una secuencia de ADN mediante la alineación y fusión de pequeños fragmentos de ADN. Es una parte integral de la secuenciación de ADN moderna . Dado que las tecnologías de secuenciación de ADN disponibles en la actualidad no son adecuadas para leer secuencias largas, los fragmentos grandes de ADN (como los genomas) a menudo se secuencian (1) cortando el ADN en trozos pequeños, (2) leyendo los fragmentos pequeños y (3) reconstituyendo el ADN original fusionando la información de varios fragmentos.

Recientemente, la secuenciación de múltiples especies a la vez es uno de los principales objetivos de investigación. La metagenómica es el estudio de las comunidades microbianas obtenidas directamente del medio ambiente. A diferencia de los microorganismos cultivados en el laboratorio, la muestra silvestre suele contener docenas, a veces incluso miles, de tipos de microorganismos de sus hábitats originales. ^[36] Recuperar los genomas originales puede resultar muy complicado.

Predicción genética

La predicción genética o hallazgo de genes se refiere al proceso de identificación de las regiones del ADN genómico que codifican genes . Esto incluye genes codificadores de proteínas , así como genes de ARN , pero también puede incluir la predicción de otros elementos funcionales como regiones reguladoras . Geri es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez que se ha secuenciado . En general, la predicción de genes bacterianos es significativamente más simple y precisa que la predicción de genes en especies eucariotas que suelen tener patrones intrones / exones complejos . Identificar genes en secuencias largas sigue siendo un problema, especialmente cuando se desconoce el número de genes. Los modelos ocultos de Markov pueden ser parte de la solución. ^[37] El aprendizaje automático ha desempeñado un papel importante en la predicción de la secuencia de factores de transcripción. ^[38] El análisis de secuenciación tradicional se centró en los parámetros estadísticos de la propia secuencia de nucleótidos (los programas más comunes utilizados se enumeran en la Tabla 4.1). Otro método es identificar secuencias homólogas basándose en otras secuencias de genes conocidas (Herramientas, consulte la Tabla 4.3). ^[39] Los dos métodos descritos aquí se centran en la secuencia. Sin embargo, también se han estudiado las características de forma de estas moléculas, como el ADN y las proteínas, y se ha propuesto que tienen una influencia equivalente, si no mayor, en el comportamiento de estas moléculas. ^[40]

Predicción de la estructura de las proteínas

Las estructuras tridimensionales de las moléculas son de suma importancia para sus funciones en la naturaleza. Dado que la predicción estructural de moléculas grandes a nivel atómico es un problema en gran medida insoluble, algunos biólogos introdujeron métodos para predecir la estructura tridimensional a nivel de secuencia primaria. Esto incluye el análisis bioquímico o estadístico de los residuos de aminoácidos en regiones locales y la inferencia estructural a partir de homólogos (u otras proteínas potencialmente relacionadas) con estructuras tridimensionales conocidas.

Se han utilizado numerosos enfoques diferentes para resolver el problema de la predicción de estructuras. Para determinar qué métodos eran los más eficaces, se creó una competición de predicción de estructuras denominada CASP (Critical Assessment of Structure Prediction). ^[41]

Enfoques y técnicas computacionales

Las tareas de análisis de secuencias suelen ser complejas de resolver y requieren el uso de métodos relativamente complejos, muchos de los cuales son la base de muchas herramientas de análisis de secuencias existentes. De los muchos métodos que se utilizan en la práctica, los más populares incluyen los siguientes:

Véase también

Referencias

^ Durbin, Richard M. ; Eddy, Sean R. ; Krogh, Anders ; Mitchison, Graeme (1998), Análisis de secuencias biológicas: modelos probabilísticos de proteínas y ácidos nucleicos (1.ª ed.), Cambridge, Nueva York: Cambridge University Press , ISBN 0-521-62971-3, OCLC 593254083
^ Sanger F; Tuppy H (septiembre de 1951). "La secuencia de aminoácidos en la cadena fenilalanilo de la insulina. I. La identificación de péptidos inferiores a partir de hidrolizados parciales". Biochem. J . 49 (4): 463–81. doi :10.1042/bj0490463. PMC 1197535 . PMID 14886310.
^ SANGER F; TUPPY H (septiembre de 1951). "La secuencia de aminoácidos en la cadena fenilalanilo de la insulina. 2. La investigación de péptidos a partir de hidrolizados enzimáticos". Biochem. J . 49 (4): 481–90. doi :10.1042/bj0490481. PMC 1197536 . PMID 14886311.
^ Sanger, F; Nicklen, S; Coulson, AR (diciembre de 1977). "Secuenciación de ADN con inhibidores de terminación de cadena". Proc Natl Acad Sci USA . 74 (12): 441–448. Bibcode :1977PNAS...74.5463S. doi : 10.1073/pnas.74.12.5463 . PMC 431765 . PMID 271968.
^ Sanger, F; Air, GM; Barrell, BG; Brown, NL; Coulson, AR; Fiddes, CA; Hutchison, CA; Slocombe, PM; Smith, M (febrero de 1977). "Secuencia de nucleótidos del ADN del bacteriófago phi X174". Nature . 265 (5596): 687–695. Bibcode :1977Natur.265..687S. doi :10.1038/265687a0. PMID 870828. S2CID 4206886.
^ Levitt M (mayo de 2001). "El nacimiento de la biología estructural computacional". Nature Structural & Molecular Biology . 8 (5): 392–3. doi :10.1038/87545. PMID 11323711. S2CID 6519868.
^ Levitt M (noviembre de 1969). "Modelo molecular detallado para el ácido ribonucleico de transferencia". Nature . 224 (5221): 759–63. Bibcode :1969Natur.224..759L. doi :10.1038/224759a0. PMID 5361649. S2CID 983981.
^ Needleman SB; Wunsch CD (marzo de 1970). "Un método general aplicable a la búsqueda de similitudes en la secuencia de aminoácidos de dos proteínas". J. Mol. Biol . 48 (3): 443–53. doi :10.1016/0022-2836(70)90057-4. PMID 5420325.
^ Sanger F, Air GM, Barrell BG, et al. (febrero de 1977). "Secuencia de nucleótidos del ADN del bacteriófago phi X174". Nature . 265 (5596): 687–95. Bibcode :1977Natur.265..687S. doi :10.1038/265687a0. PMID 870828. S2CID 4206886.
^ Holley, RW; Apgar, J; Everett, GA; Madison, JT; Marquisee, M; Merrill, SH; Penswick, JR; Zamir, A (mayo de 1965). "Estructura de un ácido ribonucleico". Science . 147 (3664): 1462–1465. Bibcode :1965Sci...147.1462H. doi :10.1126/science.147.3664.1462. PMID 14263761. S2CID 40989800.
^ Batut, Bérénice; Doyle, Maria; Cormier, Alexandre; Bretaudeau, Anthony; Leroi, Laura; Corre, Erwan; Robin, Stéphanie; nil, gallardías; Hyde, Cameron (3 de noviembre de 2023). «Control de calidad (materiales de formación de Galaxy)». ¡ Formación Galaxy! . Consultado el 26 de abril de 2024 .
^ abc Hiltemann, Saskia; Rasche, Helena; et al. (enero de 2023). "Entrenamiento galáctico: ¡un marco poderoso para la enseñanza!". PLOS Computational Biology . 19 (1): e1010752. Bibcode :2023PLSCB..19E0752H. doi : 10.1371/journal.pcbi.1010752 . PMC 9829167 . PMID 36622853.
^ abc Batut, Bérénice; et al. (2018). "Capacitación en análisis de datos impulsado por la comunidad para biología". Cell Systems . 6 (6): 752–758.e1. doi :10.1016/j.cels.2018.05.012. PMC 6296361 . PMID 29953864.
^ abcdefghij Prijibelski, Andrey B.; Korobeynikov, Anton I.; Lapidus, Alla L. (septiembre de 2018). "Análisis de secuencias". Enciclopedia de bioinformática y biología computacional . 3 : 292–322. doi :10.1016/B978-0-12-809633-8.20106-4. ISBN 978-0-12-811432-2.
^ Bolger, Anthony M.; Lohse, Marc; Usadel, Bjoern (abril de 2014). "Trimmomatic: un recortador flexible para datos de secuencias de Illumina". Bioinformática . 30 (15): 2114–2120. doi :10.1093/bioinformatics/btu170. PMC 4103590 . PMID 24695404.
^ Marcel, Martin (2011). "Cutadapt elimina secuencias adaptadoras de lecturas de secuenciación de alto rendimiento". EMBnet.journal . 17 : 10. doi :10.14806/ej.17.1.200.
^ Li, Heng; Durbin, Richard (julio de 2009). "Alineación rápida y precisa de lecturas cortas con la transformada de Burrows-Wheeler". Bioinformática . 25 (14): 1754–1760. doi :10.1093/bioinformatics/btp324. PMID 19451168.
^ Li, Heng (marzo de 2016). "Minimap y miniasm: mapeo rápido y ensamblaje de novo para secuencias largas ruidosas". Bioinformática . 32 (14): 2103–2110. doi :10.1093/bioinformatics/btw152. PMC 4937194 . PMID 27153593.
^ Dobin, Alexander; Davis, Carrie A.; et al. (octubre de 2012). "STAR: alineador universal ultrarrápido de ARN-seq". Bioinformática . 29 (1): 15–21. doi :10.1093/bioinformatics/bts635. PMC 3530905 . PMID 23104886.
^ McKenna, Aaron; Hanna, Matthew; et al. (julio de 2010). "El kit de herramientas de análisis del genoma: un marco de trabajo de MapReduce para analizar datos de secuenciación de ADN de próxima generación". Genome Research . 20 (9): 1297–1303. doi :10.1101/gr.107524.110. PMC 2928508 . PMID 20644199.
^ Poplin, R; Chang, PC; et al. (septiembre de 2018). "Un llamador de variantes de SNP universal y de indel pequeño utilizando redes neuronales profundas". Nature Biotechnology . 36 (10): 983–987. doi :10.1038/nbt.4235. PMID 30247488.
^ Sedlazeck, FJ; Rescheneder, P; et al. (abril de 2018). "Detección precisa de variaciones estructurales complejas mediante secuenciación de moléculas individuales". Nature Methods . 15 (6): 461–468. doi :10.1038/s41592-018-0001-7. PMC 5990442 . PMID 29713083.
^ Cingolani, P; Platts, A; et al. (abril de 2012). "Un programa para anotar y predecir los efectos de los polimorfismos de un solo nucleótido, SnpEff". Fly . 6 (2): 80–92. doi :10.4161/fly.19695. PMC 3679285 . PMID 22728672.
^ Anders, Simon; Pyl, Paul Theodore; Huber, Wolfgang (enero de 2015). "HTSeq: un marco de Python para trabajar con datos de secuenciación de alto rendimiento". Bioinformática . 31 (2): 166–169. doi :10.1093/bioinformatics/btu638. PMC 4287950 . PMID 25260700.
^ Love, MI; Huber, W.; Anders, S. (diciembre de 2014). "Estimación moderada del cambio de plegamiento y dispersión para datos de ARN-seq con DESeq2". Genome Biology . 15 (12): 550. doi : 10.1186/s13059-014-0550-8 . PMC 4302049 . PMID 25516281.
^ ab Batut, Bérénice; Freeberg, Mallory; et al. (17 de marzo de 2024). "Análisis de datos de ARN-Seq basado en referencia (materiales de capacitación de Galaxy)". ¡Capacitación en Galaxy! . Consultado el 26 de abril de 2024 .
^ Young, MD; Wakefield, MJ; et al. (febrero de 2010). "Análisis de ontología génica para RNA-seq: explicación del sesgo de selección". Genome Biology . 11 (2): R14. doi : 10.1186/gb-2010-11-2-r14 . hdl : 11343/56416 . PMID 20132535.
^ Luo, Weijun; Brouwer, Cory (junio de 2013). "Pathview: un paquete R/Bioconductor para la integración y visualización de datos basados en rutas". Bioinformática . 29 (14): 1830–1831. doi :10.1093/bioinformatics/btt285. PMC 3702256 . PMID 23740750.
^ "Flujo de trabajo de espectrometría de masas cuantitativa". nf-core .
^ Wang, Jun; Kong, Lei; et al. (julio de 2012). "Una breve introducción a los navegadores genómicos basados en la web". Briefings in Bioinformatics . 14 (2): 131–143. doi :10.1093/bib/bbs029. PMID 22764121.
^ Pevsner, J. (febrero de 2009). "Análisis de ADN genómico con el explorador de genomas de la UCSC". Bioinformática para el análisis de secuencias de ADN . Métodos en biología molecular. Vol. 537. Humana Press. págs. 277–301. doi :10.1007/978-1-59745-251-9_14. ISBN . 978-1-59745-251-9. Número de identificación personal 19378150.
^ Gribskov M; McLachlan AD; Eisenberg D (julio de 1987). "Análisis de perfiles: detección de proteínas distantemente relacionadas". Proc. Natl. Sci. USA . 84 (13): 4355–8. Bibcode :1987PNAS...84.4355G. doi : 10.1073/pnas.84.13.4355 . PMC 305087 . PMID 3474607.
^ Brown M; Hughey R; Krogh A; Mian IS; Sjölander K; Haussler D (1993). "Uso de valores a priori de mezcla de Dirichlet para derivar modelos ocultos de Markov para familias de proteínas". Proc Int Conf Intell Syst Mol Biol . 1 : 47–55. PMID 7584370.
^ Krogh A; Brown M; Mian IS; Sjölander K; Haussler D (febrero de 1994). "Modelos ocultos de Markov en biología computacional. Aplicaciones al modelado de proteínas". J. Mol. Biol . 235 (5): 1501–31. doi :10.1006/jmbi.1994.1104. PMID 8107089. S2CID 2160404.
^ Ye X; Wang G; Altschul SF (diciembre de 2011). "Una evaluación de las puntuaciones de sustitución para la comparación de perfiles de proteínas". Bioinformática . 27 (24): 3356–63. doi :10.1093/bioinformatics/btr565. PMC 3232366 . PMID 21998158.
^ Wooley, JC; Godzik, A; Friedberg, I (26 de febrero de 2010). "Una introducción a la metagenómica". PLOS Comput Biol . 6 (2): e1000667. Bibcode :2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047 . PMID 20195499.
^ Stanke, M; Waack, S (19 de octubre de 2003). "Predicción de genes con un modelo oculto de Markov y un nuevo submodelo de intrones". Bioinformática . 19 Suppl 2 (2): 215–25. doi : 10.1093/bioinformatics/btg1080 . PMID 14534192.
^ Alipanahi, B; Delong, A; Weirauch, MT; Frey, BJ (agosto de 2015). "Predicción de las especificidades de secuencia de las proteínas de unión al ADN y al ARN mediante aprendizaje profundo". Nat Biotechnol . 33 (8): 831–8. doi : 10.1038/nbt.3300 . PMID 26213851.
^ Wooley, JC; Godzik, A; Friedberg, I (26 de febrero de 2010). "Una introducción a la metagenómica". PLOS Comput Biol . 6 (2): e1000667. Bibcode :2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047 . PMID 20195499.
^ Abe, N; Dror, I; Yang, L; Slattery, M; Zhou, T; Bussemaker, HJ; Rohs R, R; Mann, RS (9 de abril de 2015). "Desconvolucionando el reconocimiento de la forma del ADN a partir de la secuencia". Cell . 161 (2): 307–18. doi :10.1016/j.cell.2015.02.008. PMC 4422406 . PMID 25843630.
^ Moult J; Hubbard T; Bryant SH; Fidelis K; Pedersen JT (1997). "Evaluación crítica de los métodos de predicción de la estructura de proteínas (CASP): ronda II". Proteins . Suppl 1 (S1): 2–6. doi :10.1002/(SICI)1097-0134(1997)1+<2::AID-PROT2>3.0.CO;2-T. PMID 9485489. S2CID 26823924.