BioSamples (BioSD) es una base de datos del Instituto Europeo de Bioinformática que contiene información sobre las muestras biológicas utilizadas en la secuenciación . [1]
Almacena metadatos proporcionados por el remitente sobre los materiales biológicos de los que se derivan los datos almacenados en los archivos de datos primarios del Centro Nacional de Información Biotecnológica (NCBI). Los archivos del NCBI albergan datos pertenecientes a diversos tipos de muestras de muchas especies y, como tal, la base de datos BioSample es igualmente diversa. Los ejemplos de una BioSample incluyen una biopsia de tejido primario, un organismo individual o un aislado ambiental.
La base de datos BioSamples captura metadatos de muestras de una manera estructurada fomentando el uso de vocabularios de nombres de campos de atributos de muestras controlados. Estos metadatos son clave para dar contexto a los datos de las muestras, lo que permite comprenderlos mejor y reutilizarlos, y permite la agregación de conjuntos de datos dispares.
Los metadatos de muestra se vinculan a datos experimentales relevantes en muchas bases de datos de archivo, lo que alivia la carga de trabajo del remitente al permitir el envío único de la descripción de la muestra. Luego, pueden hacer referencia a esa muestra, cuando sea necesario, al realizar depósitos de datos en otros archivos.
Los registros de BioSample están indexados y se pueden buscar, lo que admite consultas entre bases de datos por descripción de la muestra.
La base de datos BioSamples se lanzó en 2011 para ayudar a agregar y estandarizar los metadatos de las muestras . Históricamente, cada archivo había creado su propia convención para la recopilación de metadatos de muestras. Por lo general, estos eran limitados en su estandarización y no tenían un método para indicar cuándo se utilizó una muestra en múltiples conjuntos de datos. Además de esto, existe una creciente conciencia entre la comunidad de investigación de que los metadatos de las muestras son vitales para comprender los datos subyacentes. Además, las posibilidades de reutilización, agregación e integración de datos aumentan con metadatos mejorados. La base de datos se llenó inicialmente con descripciones existentes extraídas de SRA , EST , GSS y dbGaP. [2] A partir de mayo de 2013, la base de datos alberga casi 2 millones de registros de BioSample que abarcan 18.000 especies. [3]
La base de datos BioSamples ha duplicado su tamaño desde enero de 2012, cuando se describieron 1 millón de muestras en la base de datos BioSamples; a octubre de 2013, hay 2.846.137 muestras disponibles en 80.232 grupos. [4] El rápido crecimiento se debe principalmente a nuevas fuentes de datos y al aumento del volumen de datos de fuentes existentes. Las nuevas fuentes de datos incluyen 22.288 muestras del Atlas del Genoma del Cáncer y 920.441 muestras del Catálogo de Mutaciones Somáticas en el Cáncer (COSMIC). [5]
Los atributos definen el material bajo investigación utilizando pares nombre-valor estructurados, por ejemplo:
tissue: liver
collection date: 31-Jan-2013
Después de especificar el tipo de muestra, se presenta al usuario una lista de campos de atributos obligatorios y opcionales para completar, así como la oportunidad de proporcionar cualquier cantidad de atributos descriptivos personalizados. La base de datos BioSample es extensible, ya que se pueden agregar nuevos tipos y atributos a medida que se desarrollan nuevos estándares. Además del tipo y los atributos de BioSample, cada registro de BioSample también contiene:
La lista completa y las definiciones de los tipos y atributos de BioSample están disponibles para vista previa y descarga. [6]
Existen varias formas de acceder a la base de datos. La versión inicial de BioSD para el público solo proporcionaba acceso a la base de datos a través de una interfaz web. Esta interfaz web se actualizó posteriormente en noviembre de 2012 y luego nuevamente en marzo de 2013 después del relanzamiento de todo el sitio de EBI. En febrero de 2013, se lanzó una interfaz de programación de aplicaciones (API) pública que utiliza un sistema de transferencia de estado representacional (REST). En octubre de 2013, como parte de la nueva plataforma RDF de EBI, se lanzó un punto final SPARQL que proporciona acceso a los datos en formato RDF. Además, la base de datos se puede descargar a través del servicio FTP de EBI . [7]
La interfaz web permite a los usuarios acceder a la base de datos BioSD a través de un navegador web. Proporciona funcionalidad para buscar tanto por grupos de muestras como por las propias muestras. La búsqueda incluye una búsqueda incremental para ayudar a los usuarios proporcionándoles posibles términos de búsqueda a medida que escriben. Se proporciona una búsqueda avanzada que permite a los usuarios buscar aplicando los términos binarios AND, OR y NOT a sus términos de búsqueda. Además, se puede utilizar un carácter comodín para hacer coincidir cualquier combinación de caracteres, incluso ningún carácter. También se puede utilizar un signo de interrogación para hacer coincidir cualquier carácter individual. [8] Se pueden ver ejemplos de esto en la siguiente tabla:
La interfaz web también permite a los usuarios seleccionar resultados de búsqueda y ver más detalles de esos resultados. La vista detallada proporciona más información y pone a disposición un enlace a las bases de datos de análisis de las que se obtuvieron los datos. También se ofrece la posibilidad de ordenar por columnas.
La API proporciona un método adecuado para recuperar datos de forma programática. Utiliza un sistema RESTful que permite a los usuarios consultar puntos finales URI y recibir XML como resultados. La API tiene puntos finales URI para varios tipos diferentes de solicitudes. Estas solicitudes se pueden utilizar para buscar muestras específicas, buscar grupos específicos, buscar grupos, buscar muestras y buscar muestras dentro de un grupo. [9]
El punto final SPARQL permite a los usuarios buscar en la base de datos de una manera más completa que la interfaz web estándar, a la vez que se puede utilizar desde un navegador web. [10] A través de esta interfaz, se pueden realizar consultas mucho más complejas para facilitar aún más las búsquedas de los usuarios. Sin embargo, este método de acceso a los datos implica una curva de aprendizaje más pronunciada. El punto final SPARQL devuelve los resultados en formato RDF, que inicialmente se diseñó teniendo en cuenta los metadatos y, por lo tanto, se adapta a las necesidades de BioSD. [11]
El equipo de desarrollo forma parte del equipo de Helen Parkinson en EMBL-EBI y está formado por ingenieros de software y desarrolladores web que reciben ayuda de ontólogos y bioinformáticos con conocimientos específicos del dominio.
El lenguaje de programación principal utilizado en el proyecto es Java . Para ayudar al desarrollo del proyecto, los equipos de desarrollo utilizan el entorno de desarrollo integrado IntelliJ IDEA , que proporciona JetBrains . Otras herramientas utilizadas en el proyecto incluyen Bamboo para la integración continua y la gestión de versiones de software. Además, YourKit es un generador de perfiles de Java que ayuda a optimizar y eliminar errores en el proyecto BioSD. [12]
El proyecto se desarrolla como un proyecto de código abierto y todo el código fuente está disponible gratuitamente en GitHub . [13]
Actualmente, la financiación principal para el desarrollo y mantenimiento de la base de datos BioSD proviene del presupuesto central del Laboratorio Europeo de Biología Molecular (EMBL), que a su vez es financiado por sus 20 países miembros. [1] También ha habido contribuciones adicionales de la Comisión Europea en forma de una serie de subvenciones. [14] Se ha obtenido financiación adicional de la Iniciativa de células madre pluripotentes inducidas humanas proporcionada por el Wellcome Trust y el Consejo de Investigación Médica y de la Iniciativa de Medicamentos Innovadores del EBiSC . [15]