stringtranslate.com

Datos biológicos

Los datos biológicos se refieren a un compuesto o información derivada de organismos vivos y sus productos. Un compuesto medicinal elaborado a partir de organismos vivos, como un suero o una vacuna, podría caracterizarse como datos biológicos. Los datos biológicos son altamente complejos en comparación con otras formas de datos. Existen muchas formas de datos biológicos, incluidos textos, datos de secuencias, estructura de proteínas, datos genómicos y aminoácidos, y enlaces, entre otros.

La ARN polimerasa (violeta) es una enzima compleja que se encuentra en el centro de la transcripción. Durante este proceso, la enzima desenrolla la doble hélice del ADN y utiliza una hebra (naranja más oscuro) como plantilla para crear el ARN mensajero monocatenario (verde), que luego es utilizado por los ribosomas para la síntesis de proteínas.

Datos biológicos y bioinformática

Los datos biológicos trabajan en estrecha colaboración con la bioinformática , que es una disciplina reciente centrada en abordar la necesidad de analizar e interpretar grandes cantidades de datos genómicos.

En las últimas décadas, los avances en la investigación genómica han dado lugar a cantidades ingentes de datos biológicos. Como resultado, se creó la bioinformática como la convergencia de la genómica, la biotecnología y la tecnología de la información, centrándose al mismo tiempo en los datos biológicos.

Los datos biológicos también han sido difíciles de definir, ya que la bioinformática es un campo muy amplio. Además, la cuestión de qué constituye un organismo vivo ha sido polémica, ya que "vivo" representa un término nebuloso que abarca la evolución molecular, el modelado biológico, la biofísica y la biología de sistemas. Desde la última década en adelante, la bioinformática y el análisis de datos biológicos han prosperado como resultado de los avances tecnológicos necesarios para gestionar e interpretar los datos. Actualmente es un campo floreciente, ya que la sociedad se ha concentrado más en la adquisición, transferencia y explotación de la bioinformática y los datos biológicos.

Tipos de datos biológicos

Los datos biológicos se pueden extraer para su uso en los dominios de la ómica , la bioimagen y la imagenología médica . Los científicos de la vida valoran los datos biológicos para proporcionar detalles moleculares en organismos vivos. Las herramientas para la secuenciación de ADN, la expresión genética (GE), la bioimagen, la neuroimagen y las interfaces cerebro-máquina son todos dominios que utilizan datos biológicos y modelan sistemas biológicos con alta dimensionalidad. [1]

Además, los datos de secuencia biológica sin procesar generalmente se refieren a ADN , ARN y aminoácidos . [1]

Los datos biológicos también pueden describirse como datos sobre entidades biológicas. [2] Por ejemplo, características como secuencias, gráficos, información geométrica, campos escalares y vectoriales, patrones, restricciones, imágenes e información espacial pueden caracterizarse como datos biológicos, ya que describen características de seres biológicos. En muchos casos, los datos biológicos están asociados con varias de estas categorías. Por ejemplo, como se describe en el informe del Instituto Nacional de Salud sobre Catalizando la investigación en la interfaz de la informática y la biología, una estructura de proteína puede estar asociada con una secuencia unidimensional, una imagen bidimensional y una estructura tridimensional, etc. [2]

CATH - Base de datos de clasificación de la estructura de proteínas

Bases de datos biomédicas

Las bases de datos biomédicas a menudo se han denominado bases de datos de registros médicos electrónicos (EHR) , datos genómicos en sistemas de bases de datos federales descentralizados y datos biológicos, incluidos datos genómicos, recopilados a partir de estudios clínicos a gran escala . [3] [4]

Biohacking y amenazas a la privacidad

Biohacking

Los ataques bioinformáticos se han vuelto más comunes a medida que estudios recientes han demostrado que herramientas comunes pueden permitir a un atacante sintetizar información biológica que puede usarse para secuestrar información de análisis de ADN. [5] La amenaza del biohacking se ha vuelto más evidente a medida que el análisis de ADN aumenta en popularidad en campos como la ciencia forense, la investigación clínica y la genómica.

El biohacking puede llevarse a cabo sintetizando ADN malicioso e insertándolo en muestras biológicas. Los investigadores han establecido escenarios que demuestran la amenaza del biohacking, como por ejemplo que un hacker acceda a una muestra biológica ocultando ADN malicioso en superficies comunes, como batas de laboratorio, bancos de trabajo o guantes de goma, que luego contaminarían los datos genéticos. [5]

Sin embargo, la amenaza del biohacking puede mitigarse mediante el uso de técnicas similares a las que se utilizan para prevenir los ataques de inyección convencionales. Los médicos y los investigadores pueden mitigar un biohackeo extrayendo información genética de muestras biológicas y comparándolas para identificar material desconocido. Los estudios han demostrado que comparar la información genética con muestras biológicas para identificar el código de biohacking ha tenido una eficacia de hasta el 95% en la detección de inserciones de ADN maliciosas en ataques de biohackeo. [5]

Muestras genéticas como datos personales

Las preocupaciones sobre la privacidad en la investigación genómica surgen en torno a la noción de si las muestras genómicas contienen o no datos personales, o si deben considerarse como materia física. [6] Además, surgen preocupaciones porque algunos países reconocen los datos genómicos como datos personales (y aplican reglas de protección de datos) mientras que otros países consideran las muestras en términos de materia física y no aplican las mismas leyes de protección de datos a las muestras genómicas. El próximo Reglamento General de Protección de Datos ( RGPD ) se ha citado como un posible instrumento legal que puede hacer cumplir mejor las regulaciones de privacidad en la investigación genómica y de biobancos . [6]

Sin embargo, la ambigüedad en torno a la definición de “datos personales” en el texto del RGPD, especialmente en lo que respecta a los datos biológicos, ha generado dudas sobre si se aplicará la normativa a las muestras genéticas. El artículo 4(1) establece que los datos personales se definen como “cualquier información relativa a una persona física identificada o identificable (el interesado)” [7].

Aplicaciones del aprendizaje profundo a los datos biológicos

Como resultado de los rápidos avances en la ciencia de datos y la capacidad computacional, los científicos de la vida han podido aplicar métodos de aprendizaje automático con uso intensivo de datos a los datos biológicos, como el aprendizaje profundo (DL), el aprendizaje de refuerzo (RL) y su combinación (RL profundo). Estos métodos, junto con los aumentos en el almacenamiento y la computación de datos, han permitido a los científicos de la vida extraer datos biológicos y analizar conjuntos de datos que antes eran demasiado grandes o complejos. El aprendizaje profundo (DL) y el aprendizaje de refuerzo (RL) se han utilizado en el campo de la investigación ómica [1] (que incluye genómica, proteómica o metabolómica). Por lo general, los datos de secuencias biológicas sin procesar (como ADN, ARN y aminoácidos) se extraen y se utilizan para analizar características, funciones, estructuras y dinámica molecular de los datos biológicos. A partir de ese punto, se pueden realizar diferentes análisis, como la predicción de uniones de empalme de perfiles GE y la evaluación de la interacción proteína-proteína. [1]

El aprendizaje por refuerzo, término que proviene de la psicología conductual, es un método de resolución de problemas que se basa en el aprendizaje por ensayo y error. El aprendizaje por refuerzo se puede aplicar a datos biológicos, en el campo de la ómica, mediante el uso del aprendizaje por refuerzo para predecir genomas bacterianos. [8]

Otros estudios han demostrado que el aprendizaje de refuerzo se puede utilizar para predecir con precisión la anotación de secuencias biológicas. [9]

Las arquitecturas de aprendizaje profundo (DL) también son útiles para entrenar datos biológicos. Por ejemplo, las arquitecturas de DL que apuntan a niveles de píxeles de imágenes biológicas se han utilizado para identificar el proceso de mitosis en imágenes histológicas de la mama. Las arquitecturas de DL también se han utilizado para identificar núcleos en imágenes de células de cáncer de mama. [10]

Desafíos de la minería de datos en la informática biomédica

Complejidad

El principal problema al que se enfrentan los modelos de datos biomédicos ha sido tradicionalmente la complejidad, ya que los científicos de la vida en entornos clínicos y la investigación biomédica se enfrentan a la posibilidad de una sobrecarga de información. Sin embargo, la sobrecarga de información ha sido a menudo un fenómeno debatido en los campos médicos. [11] Los avances computacionales han permitido la formación de comunidades separadas bajo diferentes filosofías. Por ejemplo, los investigadores de minería de datos y aprendizaje automático buscan patrones relevantes en datos biológicos, y la arquitectura no depende de la intervención humana. Sin embargo, existen riesgos involucrados al modelar artefactos cuando la intervención humana, como la comprensión y el control del usuario final, son menores. [12]

Los investigadores han señalado que, con el aumento de los costos de la atención médica y las enormes cantidades de datos subutilizados, las tecnologías de información sanitaria pueden ser la clave para mejorar la eficiencia y la calidad de la atención médica. [11]

Errores y abusos en las bases de datos

Los registros médicos electrónicos (EHR) pueden contener datos genómicos de millones de pacientes, y la creación de estas bases de datos ha generado tanto elogios como preocupación. [4]

Los expertos en derecho han señalado tres preocupaciones principales que explican el aumento de los litigios relacionados con las bases de datos biomédicas. En primer lugar, los datos contenidos en las bases de datos biomédicas pueden ser incorrectos o incompletos. En segundo lugar, los sesgos sistémicos, que pueden surgir de los sesgos de los investigadores o de la naturaleza de los datos biológicos, pueden amenazar la validez de los resultados de las investigaciones. En tercer lugar, la presencia de minería de datos en las bases de datos biológicas puede facilitar que personas con agendas políticas, sociales o económicas manipulen los resultados de las investigaciones para influir en la opinión pública. [13] [4]

Un ejemplo de uso indebido de bases de datos ocurrió en 2009 cuando el Journal of Psychiatric Research publicó un estudio que asociaba el aborto con trastornos psiquiátricos. [14] El propósito del estudio era analizar las asociaciones entre el historial de aborto y los trastornos psiquiátricos, como los trastornos de ansiedad (incluido el trastorno de pánico, el trastorno de estrés postraumático y la agorafobia) junto con los trastornos por abuso de sustancias y los trastornos del estado de ánimo.

Sin embargo, el estudio fue desacreditado en 2012 cuando los científicos analizaron la metodología del estudio y encontraron que tenía graves fallas. [15] Los investigadores habían utilizado "conjuntos de datos nacionales con antecedentes reproductivos y variables de salud mental" [14] para producir sus hallazgos. Sin embargo, los investigadores no habían comparado a las mujeres (que habían tenido embarazos no planificados y abortos) con el grupo de mujeres que no habían tenido abortos, mientras se centraban en los problemas psiquiátricos que ocurrieron después de los embarazos interrumpidos. Como resultado, los hallazgos que parecían dar credibilidad científica, dieron lugar a que varios estados promulgaran leyes [16] que exigían que las mujeres buscaran asesoramiento antes de los abortos, debido a las posibles consecuencias a largo plazo para la salud mental.

Otro artículo, publicado en el New York Times, demostró cómo los sistemas de registros médicos electrónicos (EHR) podían ser manipulados por los médicos para exagerar la cantidad de atención que proporcionaban con el fin de obtener el reembolso de Medicare. [17] [4]

Un informe del Servicio de Investigación del Congreso sobre la seguridad de la información sanitaria según la HIPAA

Intercambio de datos biomédicos

Se ha promocionado el intercambio de datos biomédicos como una forma eficaz de mejorar la reproducibilidad de la investigación y el descubrimiento científico. [13] [18]

Si bien los investigadores se enfrentan a problemas tecnológicos a la hora de compartir datos, los problemas sociales también son un obstáculo para compartir datos biológicos. Por ejemplo, los médicos e investigadores se enfrentan a desafíos únicos a la hora de compartir datos biológicos o de salud dentro de sus comunidades médicas, como las preocupaciones por la privacidad y las leyes de privacidad del paciente, como la HIPAA. [19]

Actitudes hacia el intercambio de datos

Según un estudio de 2015 [19] centrado en las actitudes de los profesionales clínicos y el personal de investigación científica, la mayoría de los encuestados afirmó que compartir datos era importante para su trabajo, pero indicó que su experiencia en el tema era baja. De los 190 encuestados, 135 se identificaron como científicos clínicos o de investigación básica, y la población de la encuesta incluía científicos clínicos y de investigación básica del Programa de Investigación Intramural del Instituto Nacional de Salud. El estudio también encontró que, entre los encuestados, compartir datos directamente con otros médicos era una práctica común, pero los sujetos del estudio tenían poca práctica en cargar datos a un repositorio.

En el campo de la investigación biomédica, se ha promovido el intercambio de datos [20] como una forma importante para que los investigadores compartan y reutilicen datos con el fin de aprovechar al máximo los beneficios de la medicina personalizada y de precisión . [19]

Desafíos para compartir datos

El intercambio de datos en el ámbito de la atención sanitaria sigue siendo un desafío por varias razones. A pesar de los avances en materia de investigación sobre el intercambio de datos en el ámbito de la atención sanitaria, muchas organizaciones sanitarias siguen siendo reacias o no están dispuestas a divulgar datos médicos debido a leyes de privacidad como la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA) . Además, el intercambio de datos biológicos entre instituciones requiere proteger la confidencialidad de los datos que pueden abarcar varias organizaciones. Lograr la sintaxis de los datos y la heterogeneidad semántica al tiempo que se cumplen diversos requisitos de privacidad son todos factores que plantean barreras al intercambio de datos. [21]

Referencias

  1. ^ abcd Mahmud, Mufti; Kaiser, Mohammed Shamim; Hussain, Amir; Vassanelli, Stefano (junio de 2018). "Aplicaciones del aprendizaje profundo y el aprendizaje por refuerzo a los datos biológicos". IEEE Transactions on Neural Networks and Learning Systems . 29 (6): 2063–2079. doi :10.1109/tnnls.2018.2790388. hdl : 1893/26814 . ISSN  2162-237X. PMID  29771663. S2CID  9823884.
  2. ^ ab Wooley, John C.; Lin, Herbert S.; Biología, Comité sobre fronteras en la interfaz de la computación del Consejo Nacional de Investigación (EE. UU.) y (2005). Sobre la naturaleza de los datos biológicos. National Academies Press (EE. UU.).
  3. ^ Nadkarni, PM; Brandt, C.; Frawley, S.; Sayward, FG; Einbinder, R.; Zelterman, D.; Schacter, L.; Miller, PL (1998-03-01). "Gestión de datos de ensayos clínicos de valor de atributo utilizando el sistema de base de datos cliente-servidor ACT/DB". Revista de la Asociación Estadounidense de Informática Médica . 5 (2): 139–151. doi :10.1136/jamia.1998.0050139. ISSN  1067-5027. PMC 61285 . PMID  9524347. 
  4. ^ abcd Hoffman, Sharona; Podgurski, Andy (2013). "El uso y mal uso de los datos biomédicos: ¿es realmente mejor si son más grandes?". American Journal of Law & Medicine . 39 (4): 497–538. doi :10.1177/009885881303900401. ISSN  0098-8588. PMID  24494442. S2CID  35371353.
  5. ^ abc Islam, Mohd Siblee; Ivanov, S.; Robson, E.; Dooley-Cullinane, T.; Coffey, L.; Doolin, K.; Balasubramaniam, S. (2019). "Similitud genética de muestras biológicas para contrarrestar el biohacking de la funcionalidad de secuenciación de ADN". Scientific Reports . 9 (1): 8684. Bibcode :2019NatSR...9.8684I. doi :10.1038/s41598-019-44995-6. PMC 6581904 . PMID  31213619. S2CID  190652460. 
  6. ^ ab Hallinan, Dara; De Hert, Paul (2016), Mittelstadt, Brent Daniel; Floridi, Luciano (eds.), "Muchos se equivocan: las muestras contienen datos personales: el Reglamento de protección de datos como marco superior para proteger los intereses de los donantes en la investigación biobancaria y genómica", The Ethics of Biomedical Big Data , Law, Governance and Technology Series, vol. 29, Cham: Springer International Publishing, págs. 119–137, doi :10.1007/978-3-319-33525-4_6, ISBN 978-3-319-33525-4, consultado el 9 de diciembre de 2020
  7. ^ "Statewatch.org" (PDF) . StateWatch.org . Consultado el 3 de julio de 2015 .
  8. ^ Chuang, Li-Yeh; Tsai, Jui-Hung; Yang, Cheng-Hong (julio de 2010). "Optimización de enjambre de partículas binarias para predicción de operones". Nucleic Acids Research . 38 (12): e128. doi :10.1093/nar/gkq204. ISSN  0305-1048. PMC 2896535 . PMID  20385582. 
  9. ^ Ralha, CG; Schneider, HW; Walter, MEMT; Bazzan, AL (octubre de 2010). "Método de aprendizaje por refuerzo para bioagentes". 2010 Undécimo Simposio Brasileño sobre Redes Neuronales . pp. 109–114. doi :10.1109/SBRN.2010.27. ISBN 978-1-4244-8391-4.S2CID14685651  .​
  10. ^ Xu, Jun; Xiang, Lei; Liu, Qingshan; Gilmore, Hannah; Wu, Jianzhong; Tang, Jinghai; Madabhushi, Anant (enero de 2016). "Autocodificador disperso apilado (SSAE) para la detección de núcleos en imágenes de histopatología del cáncer de mama". IEEE Transactions on Medical Imaging . 35 (1): 119–130. doi :10.1109/TMI.2015.2458702. ISSN  0278-0062. PMC 4729702 . PMID  26208307. 
  11. ^ ab Holzinger, Andreas; Jurisica, Igor (2014), Holzinger, Andreas; Jurisica, Igor (eds.), "Descubrimiento de conocimiento y minería de datos en informática biomédica: el futuro está en soluciones de aprendizaje automático integradoras e interactivas", Descubrimiento de conocimiento interactivo y minería de datos en informática biomédica: estado del arte y desafíos futuros , Lecture Notes in Computer Science, vol. 8401, Berlín, Heidelberg: Springer, págs. 1–18, doi :10.1007/978-3-662-43968-5_1, ISBN 978-3-662-43968-5, consultado el 9 de diciembre de 2020
  12. ^ Shneiderman, Ben (marzo de 2002). "Inventar herramientas de descubrimiento: combinar la visualización de información con la minería de datos". Visualización de información . 1 (1): 5–12. doi :10.1057/palgrave.ivs.9500006. hdl : 1903/6484 . ISSN  1473-8716. S2CID  208272047.
  13. ^ ab Mittelstadt, Brent Daniel; Floridi, Luciano (abril de 2016). "La ética de los macrodatos: cuestiones actuales y previsibles en contextos biomédicos". Ética de la ciencia y la ingeniería . 22 (2): 303–341. doi :10.1007/s11948-015-9652-2. ISSN  1471-5546. PMID  26002496. S2CID  23142795.
  14. ^ ab Coleman, Priscilla K.; Coyle, Catherine T.; Shuping, Martha; Rue, Vincent M. (mayo de 2009). "Aborto inducido y trastornos de ansiedad, estado de ánimo y abuso de sustancias: aislamiento de los efectos del aborto en la encuesta nacional de comorbilidad". Revista de investigación psiquiátrica . 43 (8): 770–776. doi :10.1016/j.jpsychires.2008.10.009. ISSN  1879-1379. PMID  19046750.
  15. ^ Kessler, Ronald C.; Schatzberg, Alan F. (marzo de 2012). "Comentario sobre los estudios sobre el aborto de Steinberg y Finer (Social Science & Medicine 2011; 72:72–82) y Coleman (Journal of Psychiatric Research 2009;43:770–6 y Journal of Psychiatric Research 2011;45:1133–4)". Revista de investigación psiquiátrica . 46 (3): 410–411. doi :10.1016/j.jpsychires.2012.01.021.
  16. ^ "Asesoramiento y períodos de espera para el aborto". Instituto Guttmacher . 2016-03-14 . Consultado el 2020-12-09 .
  17. ^ Abelson, Reed; Creswell, Julie; Palmer, Griff (22 de septiembre de 2012). "Las facturas de Medicare aumentan a medida que los registros se vuelven electrónicos (publicado en 2012)". The New York Times . ISSN  0362-4331 . Consultado el 9 de diciembre de 2020 .
  18. ^ Kalkman, Shona; Mostert, Menno; Gerlinger, Christoph; van Delden, Johannes JM; van Thiel, Ghislaine JMW (28 de marzo de 2019). "Intercambio responsable de datos en la investigación sanitaria internacional: una revisión sistemática de principios y normas". BMC Medical Ethics . 20 (1): 21. doi : 10.1186/s12910-019-0359-9 . ISSN  1472-6939. PMC 6437875 . PMID  30922290. 
  19. ^ abc Federer, Lisa M.; Lu, Ya-Ling; Joubert, Douglas J.; Welsh, Judith; Brandys, Barbara (24 de junio de 2015). Kanungo, Jyotshna (ed.). "Intercambio y reutilización de datos biomédicos: actitudes y prácticas del personal de investigación clínica y científica". PLOS ONE . ​​10 (6): e0129506. Bibcode :2015PLoSO..1029506F. doi : 10.1371/journal.pone.0129506 . ISSN  1932-6203. PMC 4481309 . PMID  26107811. 
  20. ^ Shneiderman, Ben (21 de julio de 2016). "Inventar herramientas de descubrimiento: combinar la visualización de información con la minería de datos1". Visualización de información . 1 : 5–12. doi :10.1057/palgrave.ivs.9500006. hdl : 1903/6484 . S2CID  208272047.
  21. ^ Wimmer, Hayden; Yoon, Victoria Y.; Sugumaran, Vijayan (1 de agosto de 2016). "Un sistema multiagente para respaldar la medicina basada en evidencia y la toma de decisiones clínicas mediante el intercambio de datos y la privacidad de los datos". Decision Support Systems . 88 : 51–66. doi :10.1016/j.dss.2016.05.008. ISSN  0167-9236.