Herramienta de creación de perfiles de secuencia

Una herramienta de creación de perfiles de secuencia en bioinformática es un tipo de software que presenta información relacionada con una secuencia genética , un nombre de gen o una entrada de palabras clave. Estas herramientas generalmente toman una consulta como una secuencia de ADN , ARN o proteína o "palabra clave" y buscan en una o más bases de datos información relacionada con esa secuencia. Los resúmenes y los resultados agregados se proporcionan en formato estandarizado que describe la información que de otro modo habría requerido visitas a muchos sitios más pequeños o búsquedas bibliográficas directas para su compilación. Muchas herramientas de creación de perfiles de secuencia son portales o puertas de enlace de software que simplifican el proceso de búsqueda de información sobre una consulta en el gran y creciente número de bases de datos bioinformáticas. El acceso a este tipo de herramientas se realiza a través de la web o mediante ejecutables descargables localmente.

Introducción y uso

La era de la "postgenómica " ha dado lugar a una variedad de herramientas y software basados en la web para compilar, organizar y entregar grandes cantidades de información de secuencias primarias , así como estructuras de proteínas , anotaciones de genes, alineamientos de secuencias y otras bioinformáticas comunes. tareas.

En general, existen tres tipos de bases de datos y proveedores de servicios. El primero incluye las bases de datos populares de dominio público o de acceso abierto respaldadas por fondos y subvenciones como NCBI , ExPASy , Ensembl y PDB . El segundo incluye bases de datos más pequeñas o más específicas organizadas y compiladas por grupos de investigación individuales. Los ejemplos incluyen la base de datos del genoma de levadura y la base de datos de ARN. El tercero y último incluye bases de datos corporativas o institucionales privadas que requieren pago o afiliación institucional para acceder. Estos ejemplos son raros dada la globalización de las bases de datos públicas, a menos que el supuesto servicio esté "en desarrollo" o el punto final del análisis tenga valor comercial.

Los escenarios típicos de un enfoque de elaboración de perfiles se vuelven relevantes, particularmente en los casos de los dos primeros grupos, donde los investigadores comúnmente desean combinar información derivada de varias fuentes sobre una única consulta o secuencia objetivo. Por ejemplo, los usuarios pueden utilizar la herramienta de búsqueda y alineación de secuencias BLAST para identificar homólogos de su gen de interés en otras especies y luego utilizar estos resultados para localizar una estructura proteica resuelta para uno de los homólogos. De manera similar, es posible que también quieran saber la probable estructura secundaria del ARNm que codifica el gen de interés, o si una empresa vende una construcción de ADN que contiene el gen. Las herramientas de creación de perfiles de secuencia sirven para automatizar e integrar el proceso de búsqueda de información tan dispar al hacer que el proceso de búsqueda en varias bases de datos externas diferentes sea transparente para el usuario.

Muchas bases de datos públicas ya están ampliamente vinculadas, de modo que se puede acceder fácilmente a la información complementaria de otra base de datos; por ejemplo, Genbank y el BPD están estrechamente entrelazados. Sin embargo, las herramientas especializadas organizadas y alojadas por grupos de investigación específicos pueden resultar difíciles de integrar en este esfuerzo de vinculación porque tienen un enfoque limitado, se modifican con frecuencia o utilizan versiones personalizadas de formatos de archivo comunes. Las ventajas de las herramientas de creación de perfiles de secuencia incluyen la capacidad de utilizar varias de estas herramientas especializadas en una sola consulta y presentar el resultado con una interfaz común, la capacidad de dirigir el resultado de un conjunto de herramientas o búsquedas en bases de datos a la entrada de otro, y la capacidad para difundir las obligaciones de alojamiento y compilación a una red de grupos e instituciones de investigación en lugar de un único repositorio centralizado.

Perfiladores basados en palabras clave

La mayoría de las herramientas de creación de perfiles disponibles en la web hoy en día entran en esta categoría. El usuario, al visitar el sitio/herramienta, ingresa cualquier información relevante como una palabra clave, por ejemplo, distrofia, diabetes, etc., o números de acceso de GenBank , ID de PDB. Todos los resultados relevantes de la búsqueda se presentan en un formato único para el enfoque principal de cada herramienta. Las herramientas de elaboración de perfiles basadas en búsquedas de palabras clave son esencialmente motores de búsqueda altamente especializados para el trabajo bioinformático, eliminando así un montón de resultados irrelevantes o no académicos que podrían ocurrir con un motor de búsqueda tradicional como Google . La mayoría de las herramientas de creación de perfiles basadas en palabras clave permiten tipos flexibles de entrada de palabras clave, números de acceso de bases de datos indexadas y descriptores de palabras clave tradicionales.

Cada herramienta de elaboración de perfiles tiene su propio enfoque y área de interés. Por ejemplo, el motor de búsqueda del NCBI, Entrez, segrega sus resultados por categoría, de modo que los usuarios que buscan información sobre la estructura de las proteínas puedan descartar secuencias sin una estructura correspondiente, mientras que los usuarios interesados en leer la literatura sobre un tema pueden ver resúmenes de artículos publicados en revistas académicas. sin distraerse de los resultados de genes o secuencias. La base de datos de literatura sobre biociencias PubMed es una herramienta popular para búsquedas de literatura, aunque este servicio es casi igual al servicio más general Google Scholar .

Los servicios de agregación de datos basados en palabras clave, como los que realiza Bioinformatic Harvester, proporcionan informes de una variedad de servidores de terceros en un formato tal cual , de modo que los usuarios no necesitan visitar el sitio web ni instalar el software para cada servicio de componente individual. Esto es particularmente valioso dada la rápida aparición de varios sitios que proporcionan diferentes herramientas de manipulación y análisis de secuencias. Otro portal web agregativo, la Base de datos de referencia de proteínas humanas ( Hprd ), contiene entradas seleccionadas y anotadas manualmente para proteínas humanas. Por tanto, la información proporcionada es selectiva y completa, y el formato de consulta es flexible e intuitivo. Las ventajas de desarrollar bases de datos seleccionadas manualmente incluyen la presentación de material revisado y el concepto de "autoridades moleculares" para asumir la responsabilidad de proteínas específicas. Sin embargo, las desventajas son que, por lo general, su actualización es más lenta y es posible que no contengan datos muy nuevos o controvertidos.

Perfiladores basados en datos de secuencia

Una herramienta típica de creación de perfiles de secuencia va más allá al utilizar una secuencia real de ADN, ARN o proteína como entrada y permite al usuario visitar diferentes herramientas de análisis basadas en la web para obtener la información deseada. Estas herramientas también suelen suministrarse con equipos de laboratorio comerciales, como secuenciadores de genes, o, a veces, se venden como aplicaciones de software para biología molecular. En otro ejemplo de base de datos pública, el informe de búsqueda de secuencias BLAST del NCBI proporciona un enlace desde su informe de alineación a otra información relevante en sus propias bases de datos, si dicha información específica existe.

Por ejemplo, un registro recuperado que contiene una secuencia humana llevará un enlace separado que conecta con su ubicación en un mapa del genoma humano; un registro que contiene una secuencia para la cual se ha resuelto una estructura tridimensional llevaría un enlace que lo conectaría a su base de datos de estructura. Sequerome , una herramienta de servicio público, vincula todo el informe BLAST a muchos servidores/sitios de terceros que brindan servicios altamente específicos en manipulaciones de secuencias, como mapas de enzimas de restricción , análisis de marcos de lectura abiertos para secuencias de nucleótidos y predicción de estructuras secundarias . La herramienta proporciona la ventaja adicional de mantener un registro de investigación de las operaciones realizadas por el usuario, que luego se puede archivar cómodamente utilizando las funciones "correo", "impresión" o "guardar". De este modo, se puede completar toda una operación de investigación de una secuencia utilizando diferentes herramientas de investigación y, por tanto, llevar un proyecto hasta su finalización dentro de una interfaz de navegador. En consecuencia, la futura generación de herramientas de creación de perfiles de secuencias incluiría la capacidad de colaborar en línea con investigadores para compartir registros de proyectos y herramientas de investigación, anotar resultados de análisis de secuencias o trabajos de laboratorio, personalizar y automatizar el procesamiento de conjuntos de datos de secuencias, etc. InstaSeq es una herramienta impulsada por Google. herramienta de búsqueda que permite al usuario ingresar directamente una secuencia y buscar en toda la World Wide Web. Este motor de búsqueda único, que es el único de su tipo, contrasta con la búsqueda en bases de datos específicas, por ejemplo, GenBank .

Como resultado, el usuario puede terminar con un documento alojado de forma privada o una página de una base de datos menos conocida de prácticamente cualquier parte del mundo. Aunque la presencia de perfiladores basados en secuencias es escasa en el escenario actual, su papel clave se hará evidente cuando sea necesario procesar de forma cruzada enormes cantidades de datos de secuencias entre portales y dominios.

Crecimiento futuro y direcciones

La proliferación de herramientas bioinformáticas para el análisis genético ayuda a los investigadores a identificar y categorizar genes y conjuntos de genes de interés en su trabajo; sin embargo, la gran variedad de herramientas que realizan funciones agregativas y analíticas sustancialmente similares también puede confundir y frustrar a los nuevos usuarios. La descentralización fomentada por las herramientas agregativas permite a los grupos de investigación individuales mantener servidores especializados dedicados a tipos específicos de análisis de datos con la expectativa de que sus resultados se recopilen en un informe más amplio sobre un gen o proteína de interés para otros investigadores.

Los datos producidos por experimentos de microarrays, cribado de dos híbridos y otros experimentos biológicos de alto rendimiento son voluminosos y difíciles de analizar manualmente; Los esfuerzos de las colaboraciones en genómica estructural que tienen como objetivo resolver rápidamente un gran número de estructuras de proteínas muy variadas también aumentan la necesidad de integración entre portales y bases de datos de secuencias y estructuras. Este impulso hacia el desarrollo de métodos de elaboración de perfiles de secuencias más completos y fáciles de usar hace que esta sea un área de investigación activa entre los investigadores genómicos actuales.

Ver también

Referencias

Peri S, Navarro JD, Kristiansen TZ, et al. (Enero de 2004). "Base de datos de referencia de proteínas humanas como recurso de descubrimiento para la proteómica". Ácidos nucleicos Res . 32 (Problema de la base de datos): D497–501. doi :10.1093/nar/gkh070. PMC 308804 . PMID 14681466.
Liebel U; Kindler B; Pepperkok R (agosto de 2004). "'Harvester': un metabuscador rápido de recursos proteicos humanos". Bioinformática . 20 (12): 1962–3. doi : 10.1093/bioinformática/bth146 . PMID 14988114.
Ganesan N; Bennett NF; Velauthapillai M; Pattabiraman N; Squier R; Kalyanasundaram B (agosto de 2005). "Interfaz basada en web que facilita el análisis de secuencia a estructura de informes de alineación BLAST". BioTécnicas . 39 (2): 186, 188. doi : 10.2144/05392BM05 . PMID 16116790.
Beatón J; Smith C (noviembre de 2005). "Google versus PubMed". Ann R Coll Surg Engl . 87 (6): 491–2. doi :10.1308/003588405X71207. PMC 1964102 . PMID 16263030.
cazador l; Cohen KB (marzo de 2006). "Procesamiento del lenguaje biomédico: ¿qué hay más allá de PubMed?". Mol. Celúla . 21 (5): 589–94. doi :10.1016/j.molcel.2006.02.012. PMC 1702322 . PMID 16507357.
Ganesan N; Kalyanasundaram B; Velauthapillai M (marzo de 2007). "Herramientas de elaboración de perfiles de datos bioinformáticos: un preludio a la elaboración de perfiles metabólicos". Pac. Síntoma. Biocomputación. : 127–32. PMID 17990486.