MPEG-G (ISO/IEC 23092) es un estándar ISO/IEC diseñado para la representación de información genómica por la colaboración del ISO/IEC JTC 1/SC 29 /WG 9 ( MPEG ) y el Grupo de Trabajo 5 de "Biotecnología" del ISO TC 276. El objetivo del estándar es proporcionar soluciones interoperables para el almacenamiento, acceso y protección de datos en diferentes implementaciones posibles para la información de datos generada por máquinas de secuenciación de alto rendimiento y su posterior procesamiento y análisis. [1] [2] El estándar se compone de diferentes partes, cada una de las cuales aborda un aspecto específico, como la compresión, la asociación de metadatos, las interfaces de programación de aplicaciones ( API ) y un software de referencia para la decodificación de datos. Junto con el software de decodificador de referencia, las implementaciones comerciales y de código abierto [3] comenzaron a estar disponibles en 2019, cubriendo progresivamente más partes publicadas del estándar.
La aparición de las tecnologías de secuenciación de alto rendimiento (HTS) ha revolucionado el campo de la biología cuantitativa. La disponibilidad de grandes colecciones de información genómica ha entrado en la práctica diaria y se ha convertido en una piedra angular de varias disciplinas, que van desde la investigación biológica hasta la medicina personalizada en la clínica. En la actualidad, la información genómica se intercambia principalmente a través de una variedad de formatos de datos, como FASTA / FASTQ para lecturas de secuenciación no alineadas y SAM / BAM / CRAM para lecturas alineadas. El estándar ISO/IEC 23092 (MPEG-G) tiene como objetivo proporcionar un formato unificado para la representación y compresión eficiente de datos tan diversos, tanto para el almacenamiento de archivos como para el transporte de datos. Para lograrlo, el estándar se divide en varias partes.
El estándar MPEG-G utiliza tecnologías y arquitecturas de representación de datos previamente validadas en el campo de los medios digitales. Permiten comprimir y transportar datos de secuenciación genómica incluso en escenarios complejos, por ejemplo cuando se necesita acceder a grandes cantidades de datos posiblemente distribuidos, o cuando es necesario cifrar parte de los datos por razones de privacidad. Conceptualmente, estos requisitos conducen a la definición de una serie de mecanismos interrelacionados entre sí, que se resumen en la siguiente lista:
A su vez, algunos de estos temas se han recopilado para facilitar su comprensión e implementación. Como resultado, la norma ISO/IEC 23092 está estructurada físicamente como una serie de documentos separados, de la siguiente manera:
La norma ISO/IEC 23092-1 especifica cómo se organizan los datos genómicos dentro de las estructuras MPEG-G para su transporte (es decir, transmisión) y almacenamiento. En esta parte se definen los formatos de registro genómico, registro de referencia, archivo MPEG-G y transmisión de transporte. Presenta la Unidad de acceso como el contenedor de los datos genómicos comprimidos y proporciona un proceso de conversión de referencia entre diferentes formatos.
La norma ISO/IEC 23092-2 especifica la sintaxis y los métodos para la compresión sin pérdida de datos de secuenciación MPEG-G y la compresión con pérdida de puntuaciones de calidad asociadas. MPEG-G, como es habitual en los estándares MPEG, solo especifica el proceso de decodificación, mientras que el proceso de codificación queda abierto a innovaciones algorítmicas y específicas de la implementación. Todos los decodificadores conformes con MPEG-G producen salidas idénticas a partir de los flujos de bits multiplexados incluidos en los archivos MPEG-G y los flujos de datos en escenarios de transmisión.
Los datos de entrada del codificador son registros genómicos o metadatos, con datos de referencia opcionales, mientras que su salida son archivos MPEG-G o flujos de transporte.
La norma ISO/IEC 23092-3 especifica un formato de metadatos y proporciona API de representación de datos genómicos para respaldar la interoperabilidad entre herramientas y sistemas existentes. La Parte 3 especifica cómo se puede integrar un flujo de bits compatible con MPEG-G con metadatos, así como mecanismos para implementar mecanismos de control de acceso, verificación de integridad, autenticación y autorización. Esta parte también contiene una sección informativa dedicada a la correlación entre SAM y estructuras de datos MPEG-G, incluida la compatibilidad con versiones anteriores de contenido SAM existente . Define:
La norma ISO/IEC 23092-4 [9] especifica el software de referencia para la representación de la información genómica, denominado modelo genómico (GM). Consta de dos componentes: el software de codificación de referencia y el software de decodificación de referencia. Si bien el software de decodificación de referencia se proporciona para evaluar la conformidad con los requisitos de las normas ISO/IEC 23092-1, [4] ISO/IEC 23092-2 [5] e ISO/IEC 23092-6 [7] , el software de codificación de referencia sirve como guía para la implementación de las normas mencionadas anteriormente. El software de codificación de referencia, denominado Genie [3], es un software de código abierto desarrollado por un grupo de personas de varias universidades y empresas de todo el mundo. Cuenta con los siguientes componentes:
La norma ISO/IEC 23092-5 especifica la conformidad de la codificación de la información genómica. La Parte 5 proporciona un medio para probar y validar la correcta implementación de la tecnología MPEG-G en diferentes dispositivos y aplicaciones para garantizar la interoperabilidad entre todos los sistemas. Especifica un procedimiento normativo para evaluar la conformidad con la norma en un conjunto exhaustivo de datos comprimidos.
Actualmente no hay ningún tipo MIME (tipo de medio IANA basado en RFC 6838) definido para el archivo MPEG-G.
No se definen extensiones de archivo convencionales.