stringtranslate.com

Navegador de genomas de la UCSC

El UCSC Genome Browser es un navegador de genoma en línea y descargable alojado por la Universidad de California, Santa Cruz (UCSC). [2] [3] [4] Es un sitio web interactivo que ofrece acceso a datos de secuencias genómicas de una variedad de especies de vertebrados e invertebrados y organismos modelo importantes , integrado con una gran colección de anotaciones alineadas. El navegador es un visor gráfico optimizado para admitir un rendimiento interactivo rápido y es un conjunto de herramientas de código abierto basado en la web construido sobre una base de datos MySQL para una rápida visualización, examen y consulta de los datos en muchos niveles. La base de datos del navegador de genoma, las herramientas de navegación, los archivos de datos descargables y la documentación se pueden encontrar en el sitio web de bioinformática del genoma de la UCSC.

Historia

Inicialmente construido y aún administrado por Jim Kent , entonces estudiante de posgrado, y David Haussler , profesor de Ciencias de la Computación (ahora Ingeniería Biomolecular) en la Universidad de California, Santa Cruz en 2000, el Navegador Genómico de la UCSC comenzó como un recurso para la distribución de los frutos iniciales del Proyecto Genoma Humano . Financiado por el Instituto Médico Howard Hughes y el Instituto Nacional de Investigación del Genoma Humano, NHGRI (uno de los Institutos Nacionales de Salud de EE. UU .), el navegador ofrecía una visualización gráfica del primer borrador completo de ensamblaje de cromosomas de la secuencia del genoma humano. Hoy en día, el navegador es utilizado por genetistas, biólogos moleculares y médicos, así como por estudiantes y profesores de evolución para acceder a la información genómica. [5]

Genomas

Genomas de la UCSC

En los años transcurridos desde su creación, el navegador UCSC se ha ampliado para incluir secuencias genómicas de todas las especies de vertebrados e invertebrados seleccionados para los que hay secuencias genómicas de alta cobertura disponibles, [6] incluyendo ahora 108 especies . Una alta cobertura es necesaria para permitir la superposición para guiar la construcción de regiones contiguas más grandes. Las secuencias genómicas con menor cobertura se incluyen en pistas de alineamiento múltiple en algunos navegadores, pero la naturaleza fragmentada de estos ensamblajes no los hace adecuados para construir navegadores con todas las funciones. (más abajo se ofrece más información sobre pistas de alineamiento múltiple). Las especies alojadas en navegadores de genoma con todas las funciones se muestran en la tabla. [7]

Además de estas 108 especies y sus ensamblajes, el UCSC Genome Browser también ofrece Assembly Hubs, directorios de datos genómicos accesibles desde la web que se pueden ver en el navegador e incluyen ensamblajes que no están alojados de forma nativa en él. Allí, los usuarios pueden cargar y anotar ensamblajes únicos para los que la UCSC no proporciona una base de datos de anotaciones. Se puede ver una lista completa de especies y sus ensamblajes en el Portal GenArk, incluidos 2589 ensamblajes alojados tanto en la base de datos del UCSC Genome Browser como en Assembly Hubs. Se puede ver un ejemplo en el centro de ensamblajes del Vertebrate Genomes Project.

Funcionalidad del navegador

La gran cantidad de datos sobre sistemas biológicos que se acumula en la literatura hace necesario recopilar y digerir información utilizando las herramientas de la bioinformática . El UCSC Genome Browser presenta una colección diversa de conjuntos de datos de anotación (conocidos como "tracks" y presentados gráficamente), que incluyen alineaciones de ARNm, mapeos de elementos de repetición de ADN, predicciones genéticas, datos de expresión genética, datos de asociación de enfermedades (que representan las relaciones de los genes con las enfermedades) y mapeos de chips genéticos disponibles comercialmente (por ejemplo, Illumina y Agilent ). El paradigma básico de visualización es mostrar la secuencia del genoma en la dimensión horizontal y mostrar representaciones gráficas de las ubicaciones de los ARNm, predicciones genéticas, etc. Los bloques de color a lo largo del eje de coordenadas muestran las ubicaciones de las alineaciones de los diversos tipos de datos. La capacidad de mostrar esta gran variedad de tipos de datos en un solo eje de coordenadas hace que el navegador sea una herramienta útil para la integración vertical de los datos. [8]

Para encontrar un gen específico o una región genómica, el usuario puede escribir el nombre del gen, una secuencia de ADN, un número de acceso para un ARN, el nombre de una banda citológica genómica (por ejemplo, 20p13 para la banda 13 en el brazo corto de chr20) o una posición cromosómica (chr17:38,450,000-38,531,000 para la región alrededor del gen BRCA1 ).

La presentación de los datos en formato gráfico permite al navegador presentar enlaces de acceso a información detallada sobre cualquiera de las anotaciones. La página de detalles genéticos de la pista UCSC Genes proporciona una gran cantidad de enlaces a información más específica sobre el gen en muchos otros recursos de datos, como Online Mendelian Inheritance in Man ( OMIM ) y SwissProt .

Diseñado para la presentación de datos complejos y voluminosos, el navegador UCSC está optimizado para la velocidad. Al prealinear millones de secuencias de ARN de GenBank con cada uno de los 244 conjuntos de genomas (muchas de las 108 especies tienen más de un conjunto), el navegador permite el acceso instantáneo a las alineaciones de cualquier ARN con cualquiera de las especies alojadas.

Productos genéticos múltiples del gen FOXP2 (arriba) y conservación evolutiva mostrada en alineación múltiple (abajo)

La yuxtaposición de los distintos tipos de datos permite a los investigadores mostrar exactamente la combinación de datos que responderá a preguntas específicas. Una función de salida en formato pdf/postscript permite exportar una imagen lista para imprimir para su publicación en revistas académicas.

Una característica única y útil que distingue al navegador UCSC de otros navegadores de genomas es la naturaleza continuamente variable de la visualización. Se pueden visualizar secuencias de cualquier tamaño, desde una única base de ADN hasta el cromosoma completo (cromosoma humano 1 = 245 millones de bases, Mb) con pistas de anotaciones completas. Los investigadores pueden visualizar un único gen, un único exón o una banda cromosómica completa, mostrando docenas o cientos de genes y cualquier combinación de las numerosas anotaciones. Una práctica función de arrastrar y hacer zoom permite al usuario elegir cualquier región en la imagen del genoma y ampliarla para que ocupe la pantalla completa.

Los investigadores también pueden utilizar el navegador para visualizar sus propios datos a través de la herramienta Custom Tracks. Esta función permite a los usuarios cargar un archivo con sus propios datos y visualizarlos en el contexto del ensamblaje del genoma de referencia. Los usuarios también pueden utilizar los datos alojados por la UCSC, creando subconjuntos de los datos que elijan con la herramienta Table Browser (como solo los SNP que cambian la secuencia de aminoácidos de una proteína) y visualizar este subconjunto específico de los datos en el navegador como Custom Track.

Cualquier vista del navegador creada por un usuario, incluidas aquellas que contienen pistas personalizadas, se puede compartir con otros usuarios a través de la herramienta Sesiones guardadas.

Pistas

Pistas del navegador del genoma de la UCSC para categorías: mapeo y secuenciación, genes y predicciones genéticas, fenotipo y literatura, COVID-19, ARN-Seq de una sola célula, ARNm y EST.
Pistas del explorador de genomas de la UCSC para categorías: regulación, genómica comparativa, variación, repeticiones

Debajo de las imágenes que se muestran en el explorador de genomas de la UCSC hay once categorías de pistas adicionales que se pueden seleccionar y visualizar junto con los datos originales. Los investigadores pueden seleccionar las pistas que mejor representen su consulta para permitir que se muestren datos más aplicables según el tipo y la profundidad de la investigación que se esté realizando. Estas categorías son las siguientes:

Herramientas de análisis

El sitio de la UCSC alberga un conjunto de herramientas de análisis del genoma, incluida una interfaz gráfica de usuario con todas las funciones para extraer información de la base de datos del navegador, una herramienta de alineación de secuencias en formato FASTA BLAT [9] que también es útil para encontrar secuencias de manera simple en la secuencia masiva (genoma humano = 3,23 mil millones de bases [Gb]) de cualquiera de los genomas destacados.

La herramienta LiftOver utiliza alineaciones de todo el genoma para permitir la conversión de secuencias de un conjunto a otro o entre especies. La herramienta Genome Graphs permite a los usuarios ver todos los cromosomas a la vez y mostrar los resultados de los estudios de asociación de todo el genoma (GWAS). El Gene Sorter muestra los genes agrupados por parámetros no vinculados a la ubicación del genoma, como el patrón de expresión en los tejidos.

Código abierto / espejos

El código base del navegador UCSC es de código abierto para uso no comercial y muchos grupos de investigación lo replican localmente, lo que permite la visualización privada de datos en el contexto de los datos públicos. El navegador UCSC está replicado en varias ubicaciones en todo el mundo, como se muestra en la tabla.

El código del navegador también se utiliza en instalaciones separadas del UCSC Malaria Genome Browser y del Archaea Browser.

Véase también

Referencias

  1. ^ Navarro Gonzalez, J; Zweig, AS; Speir, ML; Schmelter, D; Rosenbloom, KR; Raney, BJ; Powell, CC; Nassar, LR; Maulding, ND; Lee, CM; Lee, BT; Hinrichs, AS; Fyfe, AC; Fernandes, JD; Diekhans, M; Clawson, H; Casper, J; Benet-Pagès, A; Barber, GP; Haussler, D; Kuhn, RM; Haeussler, M; Kent, WJ (8 de enero de 2021). "Base de datos del navegador del genoma de la UCSC: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi :10.1093/nar/gkaa1070. ISSN  0305-1048. Número de modelo  : PMID  33221922.
  2. ^ Fujita PA, Rhead B, Zweig AS, Hinrichs AS, Karolchik D, Cline MS, Goldman M, Barber GP, Clawson H, Coelho A, Diekhans M, Dreszer TR, Giardine BM, Harte RA, Hillman-Jackson J, Hsu F, Kirkup V, Kuhn RM, Learned K, Li CH, Meyer LR, Pohl A, Raney BJ, Rosenbloom KR, Smith KE, Haussler D, Kent WJ (enero de 2011). "La base de datos UCSC Genome Browser: actualización de 2011". Nucleic Acids Res . 39 (número de la base de datos): D876-82. doi :10.1093/nar/gkq963. PMC 3242726. PMID  20959295 . 
  3. ^ Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D (junio de 2002). "El navegador del genoma humano en la UCSC". Genome Res . 12 (6): 996–1006. doi :10.1101/gr.229102. PMC 186604 . PMID  12045153. 
  4. ^ Kuhn, RM; Karolchik, D.; Zweig, AS; Wang, T.; Smith, KE; Rosenbloom, KR; Rhead, B.; Raney, BJ; Pohl, A.; Pheasant, M.; Meyer, L. (1 de enero de 2009). "Base de datos del navegador de genoma de la UCSC: actualización de 2009". Nucleic Acids Research . 37 (Base de datos): D755–D761. doi :10.1093/nar/gkn875. ISSN  0305-1048. PMC 2686463 . PMID  18996895. 
  5. ^ "Historia | Instituto de Genómica". genomics.ucsc.edu . Consultado el 7 de agosto de 2022 .
  6. ^ "Alta cobertura" aquí significa una cobertura 6x, o seis veces más secuencia total que el tamaño del genoma.
  7. ^ "UCSC Genome Browser: Agradecimientos". genome.ucsc.edu . Consultado el 27 de julio de 2022 .
  8. ^ Navarro Gonzalez, Jairo; Zweig, Ann S.; Speir, Matthew L.; Schmelter, Daniel; Rosenbloom, Kate R.; Raney, Brian J.; Powell, Conner C.; Nassar, Luis R.; Maulding, Nathan D.; Lee, Christopher M.; Lee, Brian T. (8 de enero de 2021). "Base de datos del navegador de genoma de la UCSC: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi :10.1093/nar/gkaa1070. ISSN  1362-4962. PMC 7779060 . PMID  33221922. 
  9. ^ Kent, WJ. (abril de 2002). "BLAT: la herramienta de alineamiento similar a BLAST". Genome Res . 12 (4): 656–64. doi :10.1101/gr.229202. PMC 187518. PMID 11932250  . 

Enlaces externos