stringtranslate.com

Formato de datos de espectrometría de masas.

La espectrometría de masas es una técnica científica para medir la relación masa-carga de iones. A menudo se combina con técnicas cromatográficas como la cromatografía de gases o líquida y ha encontrado una adopción generalizada en los campos de la química analítica y la bioquímica , donde puede usarse para identificar y caracterizar moléculas y proteínas pequeñas ( proteómica ). El gran volumen de datos producido en un experimento típico de espectrometría de masas requiere el uso de computadoras para el almacenamiento y procesamiento de datos. A lo largo de los años, diferentes fabricantes de espectrómetros de masas han desarrollado varios formatos de datos patentados para manejar dichos datos, lo que dificulta que los científicos académicos manipulen directamente sus datos. Para abordar esta limitación, el Trans-Proteomic Pipeline del Instituto de Biología de Sistemas ha desarrollado recientemente varios formatos de datos abiertos basados ​​en XML para facilitar la manipulación de datos y la innovación en el sector público. [1] Estos formatos de datos se describen aquí.

Formatos abiertos

JCAMP-DX

Este formato fue uno de los primeros intentos de proporcionar un formato de archivo estandarizado para el intercambio de datos en espectrometría de masas. JCAMP-DX se desarrolló inicialmente para espectrometría infrarroja. JCAMP-DX es un formato basado en ASCII y, por lo tanto, no es muy compacto a pesar de que incluye estándares para la compresión de archivos. JCAMP se lanzó oficialmente en 1988. [2] Junto con la Sociedad Estadounidense de Espectrometría de Masas, se desarrolló un formato JCAMP-DX para espectrometría de masas con el objetivo de preservar los datos heredados. [3]

ANDI-MS o netCDF

El formato de intercambio de datos analíticos para espectrometría de masas es un formato para intercambiar datos. Muchos paquetes de software de espectrometría de masas pueden leer o escribir archivos ANDI. ANDI está especificado en la norma ASTM E1947. [4] ANDI se basa en netCDF , que es una biblioteca de herramientas de software para escribir y leer archivos de datos. ANDI se desarrolló inicialmente para datos de cromatografía-MS y, por lo tanto, no se utilizó en la fiebre del oro de la proteómica , donde se desarrollaron nuevos formatos basados ​​en XML . [5]

AnIML

AnIML es un esfuerzo conjunto de IUPAC y ASTM International para crear un estándar basado en XML que cubra una amplia variedad de técnicas analíticas, incluida la espectrometría de masas. [6]

mzDatos

mzData fue el primer intento de la Iniciativa de Estándares de Proteómica (PSI) de la Organización del Proteoma Humano (HUPO) para crear un formato estandarizado para datos de espectrometría de masas. [7] Este formato ahora está obsoleto y reemplazado por mzML. [8]

mzXML

mzXML es un formato de archivo común basado en XML (lenguaje de marcado extensible) para datos de espectrometría de masas proteómica . [9] [10] Este formato fue desarrollado en el Centro/Instituto de Biología de Sistemas de Seattle Proteome mientras el HUPO-PSI intentaba especificar el formato mzData estandarizado, y todavía está en uso en la comunidad de proteómica.

YAFMS

Sin embargo, otro formato para espectrometría de masas ( YAFMS) es una sugerencia para guardar datos en un esquema de base de datos sin servidor relacional de cuatro tablas con extracción y adición de datos ejercidas mediante consultas SQL . [11]

mzML

Como dos formatos (mzData y mzXML) para representar la misma información son un estado indeseable, HUPO-PSI, SPC/ISB y los proveedores de instrumentos realizaron un esfuerzo conjunto para crear un estándar unificado que tomara prestados los mejores aspectos de mzData y mzXML. y tenía la intención de reemplazarlos. Originalmente llamado dataXML, se anunció oficialmente como mzML. [12] La primera especificación se publicó en junio de 2008. [13] Este formato se lanzó oficialmente en la reunión de la Sociedad Estadounidense de Espectrometría de Masas de 2008 y desde entonces es relativamente estable con muy pocas actualizaciones. El 1 de junio de 2009, se lanzó mzML 1.1.0. No hay más cambios previstos a partir de 2013.

mzAPI

En lugar de definir nuevos formatos de archivos y escribir convertidores para formatos propietarios de proveedores, un grupo de científicos propuso definir una interfaz de programa de aplicación común para trasladar la carga del cumplimiento de estándares a las bibliotecas de acceso a datos existentes de los fabricantes de instrumentos. [14]

mz5

El formato mz5 soluciona los problemas de rendimiento de los formatos anteriores basados ​​en XML. Utiliza la ontología mzML, pero guarda los datos utilizando el backend HDF5 para reducir los requisitos de espacio de almacenamiento y mejorar la velocidad de lectura/escritura. [15]

imzML

El estándar imzML se propuso para intercambiar datos de imágenes de espectrometría de masas en un archivo XML estandarizado basado en la ontología mzML. Divide los datos experimentales en XML y datos espectrales en un archivo binario. Ambos archivos están vinculados por un identificador único universal . [dieciséis]

mzDB

mzDB guarda datos en una base de datos SQLite para ahorrar espacio de almacenamiento y mejorar los tiempos de acceso, ya que los puntos de datos se pueden consultar desde una base de datos relacional . [17]

Caramelo

Toffee es un formato de archivo abierto sin pérdidas para espectrometría de masas de adquisición independiente de datos . Aprovecha HDF5 y apunta a lograr tamaños de archivo similares a los de los formatos propietarios y de proveedores cerrados. [18]

mzMLb

mzMLb es otra versión del uso de un backend HDF5 para guardar datos sin procesar de manera eficiente. Sin embargo, conserva la estructura de datos XML mzML y cumple con el estándar existente. [19]

Formatos propietarios

A continuación se muestra una tabla de diferentes extensiones de formato de archivo.

(*) Tenga en cuenta que los formatos RAW de cada proveedor no son intercambiables; el software de uno no puede manejar los archivos RAW de otro.
(**) Micromass fue adquirida por Waters en 1997
(***) Finnigan es una división de Thermo

Software

Espectadores

Hay varios visores para mzXML, mzML y mzData. Estos visores son de dos tipos: Software gratuito de código abierto (FOSS) o Propietarios.

En la categoría de visor de FOSS, se pueden encontrar MZmine, [20] mineXpert2 (mzXML, mzML, timsTOF nativo, xy, MGF, BafAscii) [21] MS-Spectre, [22] TOPPView (mzXML, mzML y mzData), [23 ] Visor de espectros, [24] SeeMS, [25] msInspect, [26] jmzML. [27]

En la categoría propia, se pueden encontrar PEAKS, [28] Insilicos , [29] Mascot Distiller, [30] Elsci Peaksel. [31]

Hay un visor de imágenes ITA. [32] Las imágenes ITA e ITM se pueden analizar con la biblioteca Python pySPM. [33]

Convertidores

Convertidores conocidos de mzData a mzXML:

Hermes: un conversor Java "mzData, mzXML, mzML" en todas las direcciones: disponible públicamente, se ejecuta con una interfaz gráfica de usuario, del Instituto de Biología de Sistemas Moleculares, ETH Zurich [34] [35]
FileConverter: una herramienta de línea de comandos que convierte hacia/desde varios formatos de espectrometría de masas, [36] parte de TOPP [37]

Convertidores conocidos para mzXML:

El Instituto de Biología de Sistemas mantiene una lista de convertidores [38]

Convertidores conocidos para mzML:

msConvert: [39] [40] Una herramienta de línea de comandos que convierte hacia/desde varios formatos de espectrometría de masas. También está disponible una GUI para usuarios de Windows.
ReAdW: [41] El convertidor de línea de comandos del Instituto de Biología de Sistemas para archivos Thermo RAW, parte de TransProteomicPipeline. [42] La última actualización de esta herramienta se realizó en septiembre de 2009. Ahora el equipo de desarrollo de TPP redirige a los usuarios para que utilicen el software msConvert (ver arriba).
FileConverter: una herramienta de línea de comandos que convierte hacia/desde varios formatos de espectrometría de masas, [36] parte de TOPP [37]

Conversores para formatos propietarios:

msConvert: [39] [40] Una herramienta de línea de comandos que convierte hacia/desde varios formatos de espectrometría de masas, incluidos múltiples formatos propietarios. También está disponible una GUI para usuarios de Windows.
CompassXport, la herramienta gratuita de Bruker que genera archivos mzXML (y ahora mzData) [ cita necesaria ] para muchos de sus formatos de archivo nativos (.baf).
MASSTransit, un software para cambiar datos entre formatos propietarios, de Palisade Corporation y distribuido por Scientific Instrument Services, Inc [43] y PerkinElmer . [44] Comprado a Palisade por John Wiley and Sons en 2020 e incorporado al software KnowItAll Spectroscope (lista de formatos de archivo admitidos).
Aston, [45] soporte nativo para varios formatos de archivo Agilent Chemstation, Agilent Masshunter y Thermo Isodat
unfinnigan, [46] soporte nativo para formatos de archivo Finnigan (*.RAW)
OpenChrom , un software de código abierto compatible con la conversión de varios formatos de archivos nativos, incluido su propio formato abierto .ocb para almacenar cromatogramas, picos y resultados de identificación [47]

Los convertidores disponibles actualmente son:

MassWolf, para Micromass MassLynx formato .Raw
mzStar, para formato SCIEX / ABI SCIEX/ABI Analyst
wiff2dta [48] para formato SCIEX / ABI SCIEX/ABI Analyst a mzXML, DTA, MGF y PMF

Ver también

Referencias

  1. ^ Deutsch EW (diciembre de 2012). "Formatos de archivo comúnmente utilizados en proteómica de espectrometría de masas". Proteómica molecular y celular . 11 (12): 1612–21. doi : 10.1074/mcp.R112.019695 . PMC  3518119 . PMID  22956731.
  2. ^ McDonald, Robert S.; Wilks, Paul A. (1988). "JCAMP-DX: un formulario estándar para el intercambio de espectros infrarrojos en formato legible por computadora" (PDF) . Espectroscopia Aplicada . 42 (1): 151-162. Código Bib : 1988ApSpe..42..151M. doi :10.1366/0003702884428734.
  3. ^ Lampen P, Hillig H, Davies AN, Linscheid M (diciembre de 1994). "JCAMP-DX para espectrometría de masas". Espectroscopia Aplicada . 48 (12): 1545–52. Código Bib : 1994ApSpe..48.1545L. doi :10.1366/0003702944027840. S2CID  96773027.
  4. ^ ASTM E1947 - 98 (2009) Especificación estándar para el protocolo de intercambio de datos analíticos para datos cromatográficos
  5. ^ Mayer G, Jones AR, Binz PA, Deutsch EW, Orchard S, Montecchi-Palazzi L, et al. (Enero 2014). "Vocabularios controlados y ontologías en proteómica: descripción general, principios y práctica". Biochimica et Biophysica Acta (BBA) - Proteínas y Proteómica . 1844 (1 parte A): 98-107. doi : 10.1016/j.bbapap.2013.02.017 . PMC 3898906 . PMID  23429179. 
  6. ^ Davies, Tony (2007). "Herding AnIML (no, no es un error de ortografía): actualización sobre la colaboración de IUPAC y ASTM sobre estándares de datos analíticos". Química Internacional . 29 (6).
  7. ^ Orchard S, Montechi-Palazzi L, Deutsch EW, Binz PA, Jones AR, Paton N, et al. (octubre de 2007). "Cinco años de progreso en la estandarización de datos proteómicos Cuarto taller anual de primavera de la Iniciativa de estándares HUPO-Proteómica del 23 al 25 de abril de 2007 Ecole Nationale Supérieure (ENS), Lyon, Francia". Proteómica . 7 (19): 3436–40. doi :10.1002/pmic.200700658. PMID  17907277. S2CID  22837325.
  8. ^ "mzDatos". HUPO-PSI. Archivado desde el original el 7 de julio de 2018 . Consultado el 26 de abril de 2021 .
  9. ^ Pedrioli PG, Eng JK, Hubley R, Vogelzang M, Deutsch EW, Raught B, et al. (noviembre de 2004). "Una representación abierta común de datos de espectrometría de masas y su aplicación a la investigación proteómica". Biotecnología de la Naturaleza . 22 (11): 1459–66. doi :10.1038/nbt1031. PMID  15529173. S2CID  25734712.
  10. ^ Lin SM, Zhu L, Winter AQ, Sasinowski M, Kibbe WA (diciembre de 2005). "¿Para qué sirve mzXML?". Revisión de expertos en proteómica . 2 (6): 839–45. doi :10.1586/14789450.2.6.839. PMID  16307524. S2CID  24914725.
  11. ^ Shah AR, Davidson J, Monroe ME, Mayampurath AM, Danielson WF, Shi Y, et al. (octubre de 2010). "Un formato de datos eficiente para proteómica basada en espectrometría de masas". Revista de la Sociedad Estadounidense de Espectrometría de Masas . 21 (10): 1784–8. doi : 10.1016/j.jasms.2010.06.014 . PMID  20674389.
  12. ^ "mzML". Iniciativa de estándares HUPO-Proteómica . Consultado el 19 de abril de 2013 .
  13. ^ Deutsch E (julio de 2008). "mzML: un formato de datos único y unificador para la salida del espectrómetro de masas". Proteómica . 8 (14): 2776–7. doi : 10.1002/pmic.200890049 . PMID  18655045. S2CID  28297899.
  14. ^ Askenazi M, Parikh JR, Marto JA (abril de 2009). "mzAPI: una nueva estrategia para compartir de manera eficiente datos de espectrometría de masas". Métodos de la naturaleza . 6 (4): 240–1. doi :10.1038/nmeth0409-240. PMC 2691659 . PMID  19333238. 
  15. ^ Wilhelm M, Kirchner M, Steen JA, Steen H (enero de 2012). "mz5: almacenamiento eficiente en espacio y tiempo de conjuntos de datos de espectrometría de masas". Proteómica molecular y celular . 11 (1): O111.011379. doi : 10.1074/mcp.O111.011379 . PMC 3270111 . PMID  21960719. 
  16. ^ Schramm T, Hester Z, Klinkert I, Ambos JP, Heeren RM, Brunelle A, et al. (Agosto 2012). "imzML: un formato de datos común para el intercambio y procesamiento flexible de datos de imágenes de espectrometría de masas" (PDF) . Revista de proteómica . 75 (16): 5106–5110. doi :10.1016/j.jprot.2012.07.026. PMID  22842151. S2CID  25970597.
  17. ^ Bouyssié D, Dubois M, Nasso S, González de Peredo A, Burlet-Schiltz O, Aebersold R, Monsarrat B (marzo de 2015). "mzDB: un formato de archivo que utiliza múltiples estrategias de indexación para el análisis eficiente de grandes conjuntos de datos LC-MS/MS y SWATH-MS". Proteómica molecular y celular . 14 (3): 771–81. doi : 10.1074/mcp.O114.039115 . PMC 4349994 . PMID  25505153. 
  18. ^ Tully B (junio de 2020). "Toffee: un formato de archivo sin pérdidas y muy eficaz para DIA-MS". Informes científicos . 10 (1): 8939. Código bibliográfico : 2020NatSR..10.8939T. doi : 10.1038/s41598-020-65015-y . PMC 7265431 . PMID  32488104. 
  19. ^ Bhamber RS, Jankevics A, Deutsch EW, Jones AR, Dowsey AW (enero de 2021). "mzMLb: un formato de datos de espectrometría de masas sin procesar preparado para el futuro basado en mzML que cumple con los estándares y optimizado para requisitos de velocidad y almacenamiento". Revista de investigación del proteoma . 20 (1): 172–183. doi :10.1021/acs.jproteome.0c00192. PMC 7871438 . PMID  32864978. 
  20. ^ "Sitio web de MZmine".
  21. ^ "sitio web mineXpert2".
  22. ^ "Sitio web de MS-Spectre". Ms-spectre.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  23. ^ "Sitio web de OpenMS y TOPP". Abierto-ms.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  24. ^ "Un visor de código abierto desarrollado en el marco de proyectos académicos". Staff.icar.cnr.it . Consultado el 29 de noviembre de 2011 .
  25. ^ "Un visor de código abierto desarrollado por Matt Chambers en Vanderbilt". Proteowizard.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  26. ^ "Un visor de código abierto desarrollado por el Fred Hutchinson Cancer Center". Proteómica.fhcrc.org . Consultado el 29 de noviembre de 2011 .
  27. ^ "jmzML" . Consultado el 29 de noviembre de 2011 .
  28. ^ "BSI: sitio web de PEAKS". Bioinfor.com . Consultado el 29 de noviembre de 2011 .
  29. ^ "Sitio web de Insílicos". Archivado desde el original el 20 de diciembre de 2014 . Consultado el 28 de marzo de 2020 .
  30. ^ Matrix Science limitada. "Software comercial con modo visor gratuito para mzXML y muchos formatos propietarios". Matrixscience.com . Consultado el 29 de noviembre de 2011 .
  31. ^ "Peaksel: software para leer y procesar formatos HPLC abiertos y propietarios".
  32. ^ "ITAviewer en línea".
    "Fuente de ITAviewer". GitHub . 9 de noviembre de 2017.
  33. ^ "sitio web de pySPM". GitHub . 17 de junio de 2022.
  34. ^ Hermes Archivado el 3 de marzo de 2016 en Wayback Machine.
  35. ^ "Sitio web de Hermes". Icecoffee.ch . Consultado el 29 de noviembre de 2011 .
  36. ^ ab "Convertidor de archivos". Abierto-ms.sourceforge.net . Consultado el 29 de noviembre de 2011 .
  37. ^ ab TOPP Archivado el 15 de abril de 2008 en Wayback Machine.
  38. ^ "mzXML" . Consultado el 30 de junio de 2008 .
  39. ^ ab "msconvert". ProteoWizard . Consultado el 20 de abril de 2013 .
  40. ^ ab "ProteoWizard" . Consultado el 20 de abril de 2013 .
  41. ^ "ReAdW". Herramientas.proteomecenter.org . Consultado el 29 de noviembre de 2011 .
  42. ^ "TransProteomicPipeline". Herramientas.proteomecenter.org. 25 de mayo de 2011 . Consultado el 29 de noviembre de 2011 .
  43. ^ MASSTransit de Palisade Archivado el 9 de mayo de 2008 en Wayback Machine.
  44. ^ "Cromatografía de gases (GC)". PerkinElmer . Consultado el 29 de noviembre de 2011 .
  45. ^ aston - Software de cromatografía y espectrometría de masas de código abierto - Google Project Hosting
  46. ^ unfinnigan - Extracción indolora de espectros de masas de archivos Thermo "sin procesar" - Google Project Hosting
  47. ^ Dąbrowski Ł (7 de agosto de 2015). "Revisión de software gratuito de procesamiento de datos para cromatografía". Revista Mediterránea de Química . 4 (4): 193–200. doi : 10.13171/mjc.4.4.2015.15.09.16.35/dabrowski .
  48. ^ wiff2dta en sourceforge