stringtranslate.com

Navegador del genoma de la UCSC

El UCSC Genome Browser es un navegador de genoma en línea y descargable alojado por la Universidad de California, Santa Cruz (UCSC). [2] [3] [4] Es un sitio web interactivo que ofrece acceso a datos de secuencias del genoma de una variedad de especies de vertebrados e invertebrados y organismos modelo importantes , integrados con una gran colección de anotaciones alineadas. El navegador es un visor gráfico optimizado para admitir un rendimiento interactivo rápido y es un conjunto de herramientas de código abierto basado en web construido sobre una base de datos MySQL para una visualización, examen y consulta rápidos de los datos en muchos niveles. La base de datos del navegador Genome, las herramientas de navegación, los archivos de datos descargables y la documentación se pueden encontrar en el sitio web de UCSC Genome Bioinformatics.

Historia

Inicialmente construido y todavía administrado por Jim Kent , entonces estudiante de posgrado, y David Haussler , profesor de Ciencias de la Computación (ahora Ingeniería Biomolecular) en la Universidad de California, Santa Cruz, en 2000, el UCSC Genome Browser comenzó como un recurso para la distribución de los frutos iniciales del Proyecto Genoma Humano . Financiado por el Instituto Médico Howard Hughes y el Instituto Nacional de Investigación del Genoma Humano, NHGRI (uno de los Institutos Nacionales de Salud de EE. UU. ), el navegador ofrecía una visualización gráfica del primer borrador de ensamblaje de cromosoma completo de la secuencia del genoma humano. Hoy en día, el navegador lo utilizan genetistas, biólogos moleculares y médicos, así como estudiantes y profesores de evolución para acceder a información genómica. [5]

Genomas

Genomas UCSC

En los años transcurridos desde su creación, el navegador UCSC se ha ampliado para dar cabida a secuencias genómicas de todas las especies de vertebrados e invertebrados seleccionados para los que hay disponibles secuencias genómicas de alta cobertura, [6] que ahora incluyen 108 especies . Es necesaria una alta cobertura para permitir la superposición para guiar la construcción de regiones contiguas más grandes. Las secuencias genómicas con menos cobertura se incluyen en pistas de alineación múltiple en algunos navegadores, pero la naturaleza fragmentada de estos ensamblajes no los hace adecuados para crear navegadores con todas las funciones. (más abajo sobre pistas de alineación múltiple). En la tabla se muestran las especies alojadas con navegadores de genoma con todas las funciones. [7]

Además de estas 108 especies y sus ensamblajes, UCSC Genome Browser también ofrece centros de ensamblaje, directorios de datos genómicos accesibles en la web que se pueden ver en el navegador e incluyen ensamblajes que no están alojados de forma nativa en él. Allí, los usuarios pueden cargar y anotar ensamblajes únicos para los cuales UCSC no proporciona una base de datos de anotaciones. Se puede ver una lista completa de especies y sus ensamblajes en el Portal GenArk, incluidos 2589 ensamblajes alojados tanto en la base de datos del UCSC Genome Browser como en los centros de ensamblaje. Se puede ver un ejemplo en el centro de ensamblaje del Proyecto Vertebrate Genomes.

Funcionalidad del navegador

La gran cantidad de datos sobre sistemas biológicos que se acumula en la literatura hace necesario recopilar y digerir información utilizando las herramientas de la bioinformática . El UCSC Genome Browser presenta una colección diversa de conjuntos de datos de anotaciones (conocidos como "pistas" y presentados gráficamente), que incluyen alineaciones de ARNm, mapeos de elementos repetidos de ADN, predicciones de genes, datos de expresión genética, datos de asociación de enfermedades (que representan las relaciones de genes). a enfermedades) y mapeos de chips genéticos disponibles comercialmente (p. ej., Illumina y Agilent ). El paradigma básico de visualización es mostrar la secuencia del genoma en la dimensión horizontal y mostrar representaciones gráficas de las ubicaciones de los ARNm, predicciones de genes, etc. Los bloques de color a lo largo del eje de coordenadas muestran las ubicaciones de las alineaciones de los distintos tipos de datos. . La capacidad de mostrar esta gran variedad de tipos de datos en un único eje de coordenadas convierte al navegador en una herramienta útil para la integración vertical de los datos. [8]

Para encontrar un gen o región genómica específica, el usuario puede escribir el nombre del gen, una secuencia de ADN, un número de acceso para un ARN, el nombre de una banda citológica genómica (por ejemplo, 20p13 para la banda 13 en el brazo corto de chr20) o una posición cromosómica (chr17:38.450.000-38.531.000 para la región alrededor del gen BRCA1 ).

La presentación de los datos en formato gráfico permite al navegador presentar enlaces de acceso a información detallada sobre cualquiera de las anotaciones. La página de detalles del gen de la pista Genes de UCSC proporciona una gran cantidad de enlaces a información más específica sobre el gen en muchos otros recursos de datos, como Online Mendelian Inheritance in Man ( OMIM ) y SwissProt .

Diseñado para la presentación de datos complejos y voluminosos, el navegador UCSC está optimizado para su velocidad. Al prealinear millones de secuencias de ARN de GenBank con cada uno de los 244 ensamblajes del genoma (muchas de las 108 especies tienen más de un ensamblaje), el navegador permite el acceso instantáneo a las alineaciones de cualquier ARN con cualquiera de las especies alojadas.

Múltiples productos genéticos del gen FOXP2 (arriba) y conservación evolutiva mostrados en alineación múltiple (abajo)

La yuxtaposición de muchos tipos de datos permite a los investigadores mostrar exactamente la combinación de datos que responderá preguntas específicas. Una funcionalidad de salida pdf/postscript permite exportar una imagen lista para la cámara para su publicación en revistas académicas.

Una característica única y útil que distingue al navegador UCSC de otros navegadores genómicos es la naturaleza continuamente variable de la pantalla. Se pueden mostrar secuencias de cualquier tamaño, desde una única base de ADN hasta el cromosoma completo (chr1 humano = 245 millones de bases, Mb) con pistas de anotación completas. Los investigadores pueden mostrar un solo gen, un solo exón o una banda cromosómica completa, mostrando docenas o cientos de genes y cualquier combinación de muchas anotaciones. Una cómoda función de arrastrar y hacer zoom permite al usuario elegir cualquier región de la imagen del genoma y expandirla para ocupar la pantalla completa.

Los investigadores también pueden utilizar el navegador para mostrar sus propios datos a través de la herramienta Custom Tracks. Esta característica permite a los usuarios cargar un archivo con sus propios datos y ver los datos en el contexto del ensamblaje del genoma de referencia. Los usuarios también pueden usar los datos alojados por UCSC, creando subconjuntos de datos de su elección con la herramienta Table Browser (como solo los SNP que cambian la secuencia de aminoácidos de una proteína) y mostrar este subconjunto específico de datos en el navegador. como pista personalizada.

Cualquier vista del navegador creada por un usuario, incluidas aquellas que contienen pistas personalizadas, se puede compartir con otros usuarios a través de la herramienta Sesiones guardadas.

Pistas

Seguimientos del navegador del genoma de la UCSC para categorías: mapeo y secuenciación, genes y predicciones genéticas, fenotipo y literatura, COVID-19, secuenciación de ARN unicelular, ARNm y EST.
Seguimientos del navegador del genoma de la UCSC para categorías: regulación, genómica comparada, variación, repeticiones

Debajo de las imágenes mostradas en el navegador UCSC Genome hay once categorías de pistas adicionales que se pueden seleccionar y mostrar junto con los datos originales. Los investigadores pueden seleccionar las pistas que mejor representen su consulta para permitir que se muestren más datos aplicables según el tipo y la profundidad de la investigación que se esté realizando. Estas categorías son las siguientes:

Herramientas de análisis

El sitio de la UCSC alberga un conjunto de herramientas de análisis del genoma, incluida una interfaz GUI con todas las funciones para extraer la información en la base de datos del navegador, una herramienta de alineación de secuencias en formato FASTA BLAT [9] que también es útil para encontrar simplemente secuencias en la secuencia masiva ( genoma humano = 3,23 mil millones de bases [Gb]) de cualquiera de los genomas presentados.

Una herramienta liftOver utiliza alineamientos de todo el genoma para permitir la conversión de secuencias de un ensamblaje a otro o entre especies. La herramienta Genome Graphs permite a los usuarios ver todos los cromosomas a la vez y mostrar los resultados de los estudios de asociación de todo el genoma (GWAS). Gene Sorter muestra genes agrupados por parámetros no vinculados a la ubicación del genoma, como el patrón de expresión en los tejidos.

Código abierto/espejos

El código base del navegador UCSC es de código abierto para uso no comercial y muchos grupos de investigación lo reflejan localmente, lo que permite la visualización privada de datos en el contexto de los datos públicos. El navegador UCSC se refleja en varias ubicaciones en todo el mundo, como se muestra en la tabla.

El código del navegador también se utiliza en instalaciones separadas por UCSC Malaria Genome Browser y Archaea Browser.

Ver también

Referencias

  1. ^ Navarro González, J; Zweig, AS; Speir, ML; Schmelter, D; Rosenbloom, KR; Raney, BJ; Powell, CC; Nassar, LR; Maulding, Dakota del Norte; Lee, CM; Lee, BT; Hinrichs, AS; Fyfe, CA; Fernández, JD; Diekhans, M; Clawson, H; Casper, J; Benet-Pagès, A; Barbero, médico de cabecera; Haussler, D; Kuhn, RM; Haeussler, M; Kent, WJ (8 de enero de 2021). "La base de datos del UCSC Genome Browser: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi : 10.1093/nar/gkaa1070. ISSN  0305-1048. PMC  7779060 . PMID  33221922.
  2. ^ Fujita PA, Rhead B, Zweig AS, Hinrichs AS, Karolchik D, Cline MS, Goldman M, Barber GP, Clawson H, Coelho A, Diekhans M, Dreszer TR, Giardine BM, Harte RA, Hillman-Jackson J, Hsu F , Kirkup V, Kuhn RM, Learned K, Li CH, Meyer LR, Pohl A, Raney BJ, Rosenbloom KR, Smith KE, Haussler D, Kent WJ (enero de 2011). "La base de datos del UCSC Genome Browser: actualización de 2011". Ácidos nucleicos Res . 39 (Problema de base de datos): D876-82. doi :10.1093/nar/gkq963. PMC 3242726 . PMID  20959295. 
  3. ^ Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D (junio de 2002). "El navegador del genoma humano en la UCSC". Res del genoma . 12 (6): 996–1006. doi :10.1101/gr.229102. PMC 186604 . PMID  12045153. 
  4. ^ Kuhn, RM; Karolchik, D.; Zweig, AS; Wang, T.; Smith, KE; Rosenbloom, KR; Rhead, B.; Raney, BJ; Pohl, A.; Faisán, M.; Meyer, L. (1 de enero de 2009). "La base de datos del navegador del genoma de UCSC: actualización de 2009". Investigación de ácidos nucleicos . 37 (Base de datos): D755 – D761. doi : 10.1093/nar/gkn875. ISSN  0305-1048. PMC 2686463 . PMID  18996895. 
  5. ^ "Historia | Instituto de Genómica". genómica.ucsc.edu . Consultado el 7 de agosto de 2022 .
  6. ^ "Alta cobertura" aquí significa una cobertura 6 veces mayor, o seis veces más secuencia total que el tamaño del genoma.
  7. ^ "Navegador del genoma UCSC: agradecimientos". genoma.ucsc.edu . Consultado el 27 de julio de 2022 .
  8. ^ Navarro González, Jairo; Zweig, Ann S.; Speir, Mateo L.; Schmelter, Daniel; Rosenbloom, Kate R.; Raney, Brian J.; Powell, Conner C.; Nassar, Luis R.; Maulding, Nathan D.; Lee, Christopher M.; Lee, Brian T. (8 de enero de 2021). "La base de datos del UCSC Genome Browser: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi : 10.1093/nar/gkaa1070. ISSN  1362-4962. PMC 7779060 . PMID  33221922. 
  9. ^ Kent, WJ. (abril de 2002). "BLAT: la herramienta de alineación tipo BLAST". Res del genoma . 12 (4): 656–64. doi :10.1101/gr.229202. PMC 187518 . PMID  11932250. 

enlaces externos