El UCSC Genome Browser es un navegador de genoma en línea y descargable alojado por la Universidad de California, Santa Cruz (UCSC). [2] [3] [4] Es un sitio web interactivo que ofrece acceso a datos de secuencias genómicas de una variedad de especies de vertebrados e invertebrados y organismos modelo importantes , integrado con una gran colección de anotaciones alineadas. El navegador es un visor gráfico optimizado para admitir un rendimiento interactivo rápido y es un conjunto de herramientas de código abierto basado en la web construido sobre una base de datos MySQL para una rápida visualización, examen y consulta de los datos en muchos niveles. La base de datos del navegador de genoma, las herramientas de navegación, los archivos de datos descargables y la documentación se pueden encontrar en el sitio web de bioinformática del genoma de la UCSC.
Inicialmente construido y aún administrado por Jim Kent , entonces estudiante de posgrado, y David Haussler , profesor de Ciencias de la Computación (ahora Ingeniería Biomolecular) en la Universidad de California, Santa Cruz en 2000, el Navegador Genómico de la UCSC comenzó como un recurso para la distribución de los frutos iniciales del Proyecto Genoma Humano . Financiado por el Instituto Médico Howard Hughes y el Instituto Nacional de Investigación del Genoma Humano, NHGRI (uno de los Institutos Nacionales de Salud de EE. UU .), el navegador ofrecía una visualización gráfica del primer borrador completo de ensamblaje de cromosomas de la secuencia del genoma humano. Hoy en día, el navegador es utilizado por genetistas, biólogos moleculares y médicos, así como por estudiantes y profesores de evolución para acceder a la información genómica. [5]
En los años transcurridos desde su creación, el navegador UCSC se ha ampliado para incluir secuencias genómicas de todas las especies de vertebrados e invertebrados seleccionados para los que hay secuencias genómicas de alta cobertura disponibles, [6] incluyendo ahora 108 especies . Una alta cobertura es necesaria para permitir la superposición para guiar la construcción de regiones contiguas más grandes. Las secuencias genómicas con menor cobertura se incluyen en pistas de alineamiento múltiple en algunos navegadores, pero la naturaleza fragmentada de estos ensamblajes no los hace adecuados para construir navegadores con todas las funciones. (más abajo se ofrece más información sobre pistas de alineamiento múltiple). Las especies alojadas en navegadores de genoma con todas las funciones se muestran en la tabla. [7]
Además de estas 108 especies y sus ensamblajes, el UCSC Genome Browser también ofrece Assembly Hubs, directorios de datos genómicos accesibles desde la web que se pueden ver en el navegador e incluyen ensamblajes que no están alojados de forma nativa en él. Allí, los usuarios pueden cargar y anotar ensamblajes únicos para los que la UCSC no proporciona una base de datos de anotaciones. Se puede ver una lista completa de especies y sus ensamblajes en el Portal GenArk, incluidos 2589 ensamblajes alojados tanto en la base de datos del UCSC Genome Browser como en Assembly Hubs. Se puede ver un ejemplo en el centro de ensamblajes del Vertebrate Genomes Project.
La gran cantidad de datos sobre sistemas biológicos que se acumula en la literatura hace necesario recopilar y digerir información utilizando las herramientas de la bioinformática . El UCSC Genome Browser presenta una colección diversa de conjuntos de datos de anotación (conocidos como "tracks" y presentados gráficamente), que incluyen alineaciones de ARNm, mapeos de elementos de repetición de ADN, predicciones genéticas, datos de expresión genética, datos de asociación de enfermedades (que representan las relaciones de los genes con las enfermedades) y mapeos de chips genéticos disponibles comercialmente (por ejemplo, Illumina y Agilent ). El paradigma básico de visualización es mostrar la secuencia del genoma en la dimensión horizontal y mostrar representaciones gráficas de las ubicaciones de los ARNm, predicciones genéticas, etc. Los bloques de color a lo largo del eje de coordenadas muestran las ubicaciones de las alineaciones de los diversos tipos de datos. La capacidad de mostrar esta gran variedad de tipos de datos en un solo eje de coordenadas hace que el navegador sea una herramienta útil para la integración vertical de los datos. [8]
Para encontrar un gen específico o una región genómica, el usuario puede escribir el nombre del gen, una secuencia de ADN, un número de acceso para un ARN, el nombre de una banda citológica genómica (por ejemplo, 20p13 para la banda 13 en el brazo corto de chr20) o una posición cromosómica (chr17:38,450,000-38,531,000 para la región alrededor del gen BRCA1 ).
La presentación de los datos en formato gráfico permite al navegador presentar enlaces de acceso a información detallada sobre cualquiera de las anotaciones. La página de detalles genéticos de la pista UCSC Genes proporciona una gran cantidad de enlaces a información más específica sobre el gen en muchos otros recursos de datos, como Online Mendelian Inheritance in Man ( OMIM ) y SwissProt .
Diseñado para la presentación de datos complejos y voluminosos, el navegador UCSC está optimizado para la velocidad. Al prealinear millones de secuencias de ARN de GenBank con cada uno de los 244 conjuntos de genomas (muchas de las 108 especies tienen más de un conjunto), el navegador permite el acceso instantáneo a las alineaciones de cualquier ARN con cualquiera de las especies alojadas.
La yuxtaposición de los distintos tipos de datos permite a los investigadores mostrar exactamente la combinación de datos que responderá a preguntas específicas. Una función de salida en formato pdf/postscript permite exportar una imagen lista para imprimir para su publicación en revistas académicas.
Una característica única y útil que distingue al navegador UCSC de otros navegadores de genomas es la naturaleza continuamente variable de la visualización. Se pueden visualizar secuencias de cualquier tamaño, desde una única base de ADN hasta el cromosoma completo (cromosoma humano 1 = 245 millones de bases, Mb) con pistas de anotaciones completas. Los investigadores pueden visualizar un único gen, un único exón o una banda cromosómica completa, mostrando docenas o cientos de genes y cualquier combinación de las numerosas anotaciones. Una práctica función de arrastrar y hacer zoom permite al usuario elegir cualquier región en la imagen del genoma y ampliarla para que ocupe la pantalla completa.
Los investigadores también pueden utilizar el navegador para visualizar sus propios datos a través de la herramienta Custom Tracks. Esta función permite a los usuarios cargar un archivo con sus propios datos y visualizarlos en el contexto del ensamblaje del genoma de referencia. Los usuarios también pueden utilizar los datos alojados por la UCSC, creando subconjuntos de los datos que elijan con la herramienta Table Browser (como solo los SNP que cambian la secuencia de aminoácidos de una proteína) y visualizar este subconjunto específico de los datos en el navegador como Custom Track.
Cualquier vista del navegador creada por un usuario, incluidas aquellas que contienen pistas personalizadas, se puede compartir con otros usuarios a través de la herramienta Sesiones guardadas.
Debajo de las imágenes que se muestran en el explorador de genomas de la UCSC hay once categorías de pistas adicionales que se pueden seleccionar y visualizar junto con los datos originales. Los investigadores pueden seleccionar las pistas que mejor representen su consulta para permitir que se muestren datos más aplicables según el tipo y la profundidad de la investigación que se esté realizando. Estas categorías son las siguientes:
El sitio de la UCSC alberga un conjunto de herramientas de análisis del genoma, incluida una interfaz gráfica de usuario con todas las funciones para extraer información de la base de datos del navegador, una herramienta de alineación de secuencias en formato FASTA BLAT [9] que también es útil para encontrar secuencias de manera simple en la secuencia masiva (genoma humano = 3,23 mil millones de bases [Gb]) de cualquiera de los genomas destacados.
La herramienta LiftOver utiliza alineaciones de todo el genoma para permitir la conversión de secuencias de un conjunto a otro o entre especies. La herramienta Genome Graphs permite a los usuarios ver todos los cromosomas a la vez y mostrar los resultados de los estudios de asociación de todo el genoma (GWAS). El Gene Sorter muestra los genes agrupados por parámetros no vinculados a la ubicación del genoma, como el patrón de expresión en los tejidos.
El código base del navegador UCSC es de código abierto para uso no comercial y muchos grupos de investigación lo replican localmente, lo que permite la visualización privada de datos en el contexto de los datos públicos. El navegador UCSC está replicado en varias ubicaciones en todo el mundo, como se muestra en la tabla.
El código del navegador también se utiliza en instalaciones separadas del UCSC Malaria Genome Browser y del Archaea Browser.