Muestras biológicas

BioSamples (BioSD) es una base de datos del Instituto Europeo de Bioinformática que contiene información sobre las muestras biológicas utilizadas en la secuenciación . ^[1]

Almacena metadatos proporcionados por el remitente sobre los materiales biológicos de los que se derivan los datos almacenados en los archivos de datos primarios del Centro Nacional de Información Biotecnológica (NCBI). Los archivos del NCBI albergan datos pertenecientes a diversos tipos de muestras de muchas especies y, como tal, la base de datos BioSample es igualmente diversa. Los ejemplos de una BioSample incluyen una biopsia de tejido primario, un organismo individual o un aislado ambiental.

La base de datos BioSamples captura metadatos de muestras de una manera estructurada fomentando el uso de vocabularios de nombres de campos de atributos de muestras controlados. Estos metadatos son clave para dar contexto a los datos de las muestras, lo que permite comprenderlos mejor y reutilizarlos, y permite la agregación de conjuntos de datos dispares.

Los metadatos de muestra se vinculan a datos experimentales relevantes en muchas bases de datos de archivo, lo que alivia la carga de trabajo del remitente al permitir el envío único de la descripción de la muestra. Luego, pueden hacer referencia a esa muestra, cuando sea necesario, al realizar depósitos de datos en otros archivos.

Los registros de BioSample están indexados y se pueden buscar, lo que admite consultas entre bases de datos por descripción de la muestra.

Historia

La base de datos BioSamples se lanzó en 2011 para ayudar a agregar y estandarizar los metadatos de las muestras . Históricamente, cada archivo había creado su propia convención para la recopilación de metadatos de muestras. Por lo general, estos eran limitados en su estandarización y no tenían un método para indicar cuándo se utilizó una muestra en múltiples conjuntos de datos. Además de esto, existe una creciente conciencia entre la comunidad de investigación de que los metadatos de las muestras son vitales para comprender los datos subyacentes. Además, las posibilidades de reutilización, agregación e integración de datos aumentan con metadatos mejorados. La base de datos se llenó inicialmente con descripciones existentes extraídas de SRA , EST , GSS y dbGaP. ^[2] A partir de mayo de 2013, la base de datos alberga casi 2 millones de registros de BioSample que abarcan 18.000 especies. ^[3]

Contenido

La base de datos BioSamples ha duplicado su tamaño desde enero de 2012, cuando se describieron 1 millón de muestras en la base de datos BioSamples; a octubre de 2013, hay 2.846.137 muestras disponibles en 80.232 grupos. ^[4] El rápido crecimiento se debe principalmente a nuevas fuentes de datos y al aumento del volumen de datos de fuentes existentes. Las nuevas fuentes de datos incluyen 22.288 muestras del Atlas del Genoma del Cáncer y 920.441 muestras del Catálogo de Mutaciones Somáticas en el Cáncer (COSMIC). ^[5]

Los atributos definen el material bajo investigación utilizando pares nombre-valor estructurados, por ejemplo:

tissue: liver
collection date: 31-Jan-2013

Después de especificar el tipo de muestra, se presenta al usuario una lista de campos de atributos obligatorios y opcionales para completar, así como la oportunidad de proporcionar cualquier cantidad de atributos descriptivos personalizados. La base de datos BioSample es extensible, ya que se pueden agregar nuevos tipos y atributos a medida que se desarrollan nuevos estándares. Además del tipo y los atributos de BioSample, cada registro de BioSample también contiene:

La lista completa y las definiciones de los tipos y atributos de BioSample están disponibles para vista previa y descarga. ^[6]

Acceso a datos

Existen varias formas de acceder a la base de datos. La versión inicial de BioSD para el público solo proporcionaba acceso a la base de datos a través de una interfaz web. Esta interfaz web se actualizó posteriormente en noviembre de 2012 y luego nuevamente en marzo de 2013 después del relanzamiento de todo el sitio de EBI. En febrero de 2013, se lanzó una interfaz de programación de aplicaciones (API) pública que utiliza un sistema de transferencia de estado representacional (REST). En octubre de 2013, como parte de la nueva plataforma RDF de EBI, se lanzó un punto final SPARQL que proporciona acceso a los datos en formato RDF. Además, la base de datos se puede descargar a través del servicio FTP de EBI . ^[7]

Interfaz web

La interfaz web permite a los usuarios acceder a la base de datos BioSD a través de un navegador web. Proporciona funcionalidad para buscar tanto por grupos de muestras como por las propias muestras. La búsqueda incluye una búsqueda incremental para ayudar a los usuarios proporcionándoles posibles términos de búsqueda a medida que escriben. Se proporciona una búsqueda avanzada que permite a los usuarios buscar aplicando los términos binarios AND, OR y NOT a sus términos de búsqueda. Además, se puede utilizar un carácter comodín para hacer coincidir cualquier combinación de caracteres, incluso ningún carácter. También se puede utilizar un signo de interrogación para hacer coincidir cualquier carácter individual. ^[8] Se pueden ver ejemplos de esto en la siguiente tabla:

La interfaz web también permite a los usuarios seleccionar resultados de búsqueda y ver más detalles de esos resultados. La vista detallada proporciona más información y pone a disposición un enlace a las bases de datos de análisis de las que se obtuvieron los datos. También se ofrece la posibilidad de ordenar por columnas.

Interfaz de programación de aplicaciones

La API proporciona un método adecuado para recuperar datos de forma programática. Utiliza un sistema RESTful que permite a los usuarios consultar puntos finales URI y recibir XML como resultados. La API tiene puntos finales URI para varios tipos diferentes de solicitudes. Estas solicitudes se pueden utilizar para buscar muestras específicas, buscar grupos específicos, buscar grupos, buscar muestras y buscar muestras dentro de un grupo. ^[9]

Punto final SPARQL

El punto final SPARQL permite a los usuarios buscar en la base de datos de una manera más completa que la interfaz web estándar, a la vez que se puede utilizar desde un navegador web. ^[10] A través de esta interfaz, se pueden realizar consultas mucho más complejas para facilitar aún más las búsquedas de los usuarios. Sin embargo, este método de acceso a los datos implica una curva de aprendizaje más pronunciada. El punto final SPARQL devuelve los resultados en formato RDF, que inicialmente se diseñó teniendo en cuenta los metadatos y, por lo tanto, se adapta a las necesidades de BioSD. ^[11]

Desarrollo

El equipo de desarrollo forma parte del equipo de Helen Parkinson en EMBL-EBI y está formado por ingenieros de software y desarrolladores web que reciben ayuda de ontólogos y bioinformáticos con conocimientos específicos del dominio.

El lenguaje de programación principal utilizado en el proyecto es Java . Para ayudar al desarrollo del proyecto, los equipos de desarrollo utilizan el entorno de desarrollo integrado IntelliJ IDEA , que proporciona JetBrains . Otras herramientas utilizadas en el proyecto incluyen Bamboo para la integración continua y la gestión de versiones de software. Además, YourKit es un generador de perfiles de Java que ayuda a optimizar y eliminar errores en el proyecto BioSD. ^[12]

El proyecto se desarrolla como un proyecto de código abierto y todo el código fuente está disponible gratuitamente en GitHub . ^[13]

Fondos

Actualmente, la financiación principal para el desarrollo y mantenimiento de la base de datos BioSD proviene del presupuesto central del Laboratorio Europeo de Biología Molecular (EMBL), que a su vez es financiado por sus 20 países miembros. ^[1] También ha habido contribuciones adicionales de la Comisión Europea en forma de una serie de subvenciones. ^[14] Se ha obtenido financiación adicional de la Iniciativa de células madre pluripotentes inducidas humanas proporcionada por el Wellcome Trust y el Consejo de Investigación Médica y de la Iniciativa de Medicamentos Innovadores del EBiSC . ^[15]

Véase también

Instituto Europeo de Bioinformática

Referencias

^ abc Gostev, Mikhail; Faulconbridge Adam; Brandizi Marco; Fernandez-Banet Julio; Sarkans Ugis; Brazma Alvis; Parkinson Helen (enero de 2012). "La base de datos BioSample (BioSD) en el Instituto Europeo de Bioinformática". Nucleic Acids Res . 40 (1). Inglaterra: D64-70. doi :10.1093/nar/gkr937. PMC 3245134 . PMID 22096232.
^ "Acerca de la base de datos de intercambio biológico de genotipos y fenotipos (dbGaP)" (HTML) . Consultado el 11 de septiembre de 2014 .
^ Barrett, Tanya (14 de noviembre de 2013). "The NCBI Handbook [Internet] 2nd edition" (El manual del NCBI [Internet], segunda edición) . Consultado el 11 de septiembre de 2014 .
^ Faulconbridge, Adam; Tony Burdett; Marco Brandizi; Mikhail Gostev; Rui Pereira; Drashtti Vasant; Ugis Sarkans; Alvis Brazma; Helen Parkinson (20 de noviembre de 2013). "Actualizaciones de la base de datos BioSamples en el Instituto Europeo de Bioinformática". Nucleic Acids Research . 42 (número de la base de datos). Inglaterra: D50-2. doi :10.1093/nar/gkt1081. PMC 3965081 . PMID 24265224.
^ Shepherd, R; Beare D; Bamford S; Cole CG; Ward S; Bindal N; Gunasekaran P; Jia M; Kok CY; et al. (23 de mayo de 2011). "Extracción de datos mediante el Catálogo de mutaciones somáticas en Cancer BioMart". Base de datos (Oxford) . 2011. Inglaterra: bar018. doi :10.1093/database/bar018. PMC 3263736. PMID 21609966 .
^ "Generador de plantillas de BioSample". EMBL-EBI (HTML) . Consultado el 11 de septiembre de 2014 .
^ "Noticias sobre BioSamples". EMBL-EBI (HTML). Archivado desde el original el 10 de septiembre de 2014 . Consultado el 11 de septiembre de 2014 .
^ "Cómo buscar en la base de datos BioSamples". EMBL-EBI (HTML). Archivado desde el original el 11 de septiembre de 2014 . Consultado el 11 de septiembre de 2014 .
^ "Descripción general de la API de BioSamples". EMBL-EBI (HTML) . Consultado el 29 de septiembre de 2018 .
^ "Base de datos de muestras biológicas SPARQL Endpoint". EMBL-EBI (HTML) . Consultado el 11 de septiembre de 2014 .
^ "Base de datos de biomuestras RDF". EMBL-EBI (HTML) . Consultado el 11 de septiembre de 2014 .
^ "Acerca de BioSamples". EMBL-EBI (HTML) . Consultado el 10 de septiembre de 2014 .
^ "Proyecto de GitHub de la base de datos de muestras biológicas de EBI". GitHub (HTML) . Consultado el 10 de septiembre de 2014 .
^ Faulconbridge, A.; Burdett, T.; Brandizi, M.; Gostev, M.; Pereira, R.; Vasant, D.; Sarkans, U.; Brazma, A.; Parkinson, H. (2013). "Actualizaciones de la base de datos BioSamples en el Instituto Europeo de Bioinformática". Investigación en ácidos nucleicos . 42 (D1): D50–D52. doi :10.1093/nar/gkt1081. ISSN 0305-1048. PMC 3965081 . PMID 24265224.
^ "BioSamples: Quick tour". EMBL-EBI (HTML). Archivado desde el original el 10 de septiembre de 2014 . Consultado el 10 de septiembre de 2014 .

Enlaces externos

Muestras biológicas