Los datos biológicos se refieren a un compuesto o información derivada de organismos vivos y sus productos. Un compuesto medicinal elaborado a partir de organismos vivos, como un suero o una vacuna, podría caracterizarse como datos biológicos. Los datos biológicos son altamente complejos en comparación con otras formas de datos. Existen muchas formas de datos biológicos, incluidos textos, datos de secuencias, estructura de proteínas, datos genómicos y aminoácidos, y enlaces, entre otros.
Los datos biológicos trabajan en estrecha colaboración con la bioinformática , que es una disciplina reciente centrada en abordar la necesidad de analizar e interpretar grandes cantidades de datos genómicos.
En las últimas décadas, los avances en la investigación genómica han dado lugar a cantidades ingentes de datos biológicos. Como resultado, se creó la bioinformática como la convergencia de la genómica, la biotecnología y la tecnología de la información, centrándose al mismo tiempo en los datos biológicos.
Los datos biológicos también han sido difíciles de definir, ya que la bioinformática es un campo muy amplio. Además, la cuestión de qué constituye un organismo vivo ha sido polémica, ya que "vivo" representa un término nebuloso que abarca la evolución molecular, el modelado biológico, la biofísica y la biología de sistemas. Desde la última década en adelante, la bioinformática y el análisis de datos biológicos han prosperado como resultado de los avances tecnológicos necesarios para gestionar e interpretar los datos. Actualmente es un campo floreciente, ya que la sociedad se ha concentrado más en la adquisición, transferencia y explotación de la bioinformática y los datos biológicos.
Los datos biológicos se pueden extraer para su uso en los dominios de la ómica , la bioimagen y la imagenología médica . Los científicos de la vida valoran los datos biológicos para proporcionar detalles moleculares en organismos vivos. Las herramientas para la secuenciación de ADN, la expresión genética (GE), la bioimagen, la neuroimagen y las interfaces cerebro-máquina son todos dominios que utilizan datos biológicos y modelan sistemas biológicos con alta dimensionalidad. [1]
Además, los datos de secuencia biológica sin procesar generalmente se refieren a ADN , ARN y aminoácidos . [1]
Los datos biológicos también pueden describirse como datos sobre entidades biológicas. [2] Por ejemplo, características como secuencias, gráficos, información geométrica, campos escalares y vectoriales, patrones, restricciones, imágenes e información espacial pueden caracterizarse como datos biológicos, ya que describen características de seres biológicos. En muchos casos, los datos biológicos están asociados con varias de estas categorías. Por ejemplo, como se describe en el informe del Instituto Nacional de Salud sobre Catalizando la investigación en la interfaz de la informática y la biología, una estructura de proteína puede estar asociada con una secuencia unidimensional, una imagen bidimensional y una estructura tridimensional, etc. [2]
Las bases de datos biomédicas a menudo se han denominado bases de datos de registros médicos electrónicos (EHR) , datos genómicos en sistemas de bases de datos federales descentralizados y datos biológicos, incluidos datos genómicos, recopilados a partir de estudios clínicos a gran escala . [3] [4]
Los ataques bioinformáticos se han vuelto más comunes a medida que estudios recientes han demostrado que herramientas comunes pueden permitir a un atacante sintetizar información biológica que puede usarse para secuestrar información de análisis de ADN. [5] La amenaza del biohacking se ha vuelto más evidente a medida que el análisis de ADN aumenta en popularidad en campos como la ciencia forense, la investigación clínica y la genómica.
El biohacking puede llevarse a cabo sintetizando ADN malicioso e insertándolo en muestras biológicas. Los investigadores han establecido escenarios que demuestran la amenaza del biohacking, como por ejemplo que un hacker acceda a una muestra biológica ocultando ADN malicioso en superficies comunes, como batas de laboratorio, bancos de trabajo o guantes de goma, que luego contaminarían los datos genéticos. [5]
Sin embargo, la amenaza del biohacking puede mitigarse mediante el uso de técnicas similares a las que se utilizan para prevenir los ataques de inyección convencionales. Los médicos y los investigadores pueden mitigar un biohackeo extrayendo información genética de muestras biológicas y comparándolas para identificar material desconocido. Los estudios han demostrado que comparar la información genética con muestras biológicas para identificar el código de biohacking ha tenido una eficacia de hasta el 95% en la detección de inserciones de ADN maliciosas en ataques de biohackeo. [5]
Las preocupaciones sobre la privacidad en la investigación genómica surgen en torno a la noción de si las muestras genómicas contienen o no datos personales, o si deben considerarse como materia física. [6] Además, surgen preocupaciones porque algunos países reconocen los datos genómicos como datos personales (y aplican reglas de protección de datos) mientras que otros países consideran las muestras en términos de materia física y no aplican las mismas leyes de protección de datos a las muestras genómicas. El próximo Reglamento General de Protección de Datos ( RGPD ) se ha citado como un posible instrumento legal que puede hacer cumplir mejor las regulaciones de privacidad en la investigación genómica y de biobancos . [6]
Sin embargo, la ambigüedad en torno a la definición de “datos personales” en el texto del RGPD, especialmente en lo que respecta a los datos biológicos, ha generado dudas sobre si se aplicará la normativa a las muestras genéticas. El artículo 4(1) establece que los datos personales se definen como “cualquier información relativa a una persona física identificada o identificable (el interesado)” [7].
Como resultado de los rápidos avances en la ciencia de datos y la capacidad computacional, los científicos de la vida han podido aplicar métodos de aprendizaje automático con uso intensivo de datos a los datos biológicos, como el aprendizaje profundo (DL), el aprendizaje de refuerzo (RL) y su combinación (RL profundo). Estos métodos, junto con los aumentos en el almacenamiento y la computación de datos, han permitido a los científicos de la vida extraer datos biológicos y analizar conjuntos de datos que antes eran demasiado grandes o complejos. El aprendizaje profundo (DL) y el aprendizaje de refuerzo (RL) se han utilizado en el campo de la investigación ómica [1] (que incluye genómica, proteómica o metabolómica). Por lo general, los datos de secuencias biológicas sin procesar (como ADN, ARN y aminoácidos) se extraen y se utilizan para analizar características, funciones, estructuras y dinámica molecular de los datos biológicos. A partir de ese punto, se pueden realizar diferentes análisis, como la predicción de uniones de empalme de perfiles GE y la evaluación de la interacción proteína-proteína. [1]
El aprendizaje por refuerzo, término que proviene de la psicología conductual, es un método de resolución de problemas que se basa en el aprendizaje por ensayo y error. El aprendizaje por refuerzo se puede aplicar a datos biológicos, en el campo de la ómica, mediante el uso del aprendizaje por refuerzo para predecir genomas bacterianos. [8]
Otros estudios han demostrado que el aprendizaje de refuerzo se puede utilizar para predecir con precisión la anotación de secuencias biológicas. [9]
Las arquitecturas de aprendizaje profundo (DL) también son útiles para entrenar datos biológicos. Por ejemplo, las arquitecturas de DL que apuntan a niveles de píxeles de imágenes biológicas se han utilizado para identificar el proceso de mitosis en imágenes histológicas de la mama. Las arquitecturas de DL también se han utilizado para identificar núcleos en imágenes de células de cáncer de mama. [10]
El principal problema al que se enfrentan los modelos de datos biomédicos ha sido tradicionalmente la complejidad, ya que los científicos de la vida en entornos clínicos y la investigación biomédica se enfrentan a la posibilidad de una sobrecarga de información. Sin embargo, la sobrecarga de información ha sido a menudo un fenómeno debatido en los campos médicos. [11] Los avances computacionales han permitido la formación de comunidades separadas bajo diferentes filosofías. Por ejemplo, los investigadores de minería de datos y aprendizaje automático buscan patrones relevantes en datos biológicos, y la arquitectura no depende de la intervención humana. Sin embargo, existen riesgos involucrados al modelar artefactos cuando la intervención humana, como la comprensión y el control del usuario final, son menores. [12]
Los investigadores han señalado que, con el aumento de los costos de la atención médica y las enormes cantidades de datos subutilizados, las tecnologías de información sanitaria pueden ser la clave para mejorar la eficiencia y la calidad de la atención médica. [11]
Los registros médicos electrónicos (EHR) pueden contener datos genómicos de millones de pacientes, y la creación de estas bases de datos ha generado tanto elogios como preocupación. [4]
Los expertos en derecho han señalado tres preocupaciones principales que explican el aumento de los litigios relacionados con las bases de datos biomédicas. En primer lugar, los datos contenidos en las bases de datos biomédicas pueden ser incorrectos o incompletos. En segundo lugar, los sesgos sistémicos, que pueden surgir de los sesgos de los investigadores o de la naturaleza de los datos biológicos, pueden amenazar la validez de los resultados de las investigaciones. En tercer lugar, la presencia de minería de datos en las bases de datos biológicas puede facilitar que personas con agendas políticas, sociales o económicas manipulen los resultados de las investigaciones para influir en la opinión pública. [13] [4]
Un ejemplo de uso indebido de bases de datos ocurrió en 2009 cuando el Journal of Psychiatric Research publicó un estudio que asociaba el aborto con trastornos psiquiátricos. [14] El propósito del estudio era analizar las asociaciones entre el historial de aborto y los trastornos psiquiátricos, como los trastornos de ansiedad (incluido el trastorno de pánico, el trastorno de estrés postraumático y la agorafobia) junto con los trastornos por abuso de sustancias y los trastornos del estado de ánimo.
Sin embargo, el estudio fue desacreditado en 2012 cuando los científicos analizaron la metodología del estudio y encontraron que tenía graves fallas. [15] Los investigadores habían utilizado "conjuntos de datos nacionales con antecedentes reproductivos y variables de salud mental" [14] para producir sus hallazgos. Sin embargo, los investigadores no habían comparado a las mujeres (que habían tenido embarazos no planificados y abortos) con el grupo de mujeres que no habían tenido abortos, mientras se centraban en los problemas psiquiátricos que ocurrieron después de los embarazos interrumpidos. Como resultado, los hallazgos que parecían dar credibilidad científica, dieron lugar a que varios estados promulgaran leyes [16] que exigían que las mujeres buscaran asesoramiento antes de los abortos, debido a las posibles consecuencias a largo plazo para la salud mental.
Otro artículo, publicado en el New York Times, demostró cómo los sistemas de registros médicos electrónicos (EHR) podían ser manipulados por los médicos para exagerar la cantidad de atención que proporcionaban con el fin de obtener el reembolso de Medicare. [17] [4]
Se ha promocionado el intercambio de datos biomédicos como una forma eficaz de mejorar la reproducibilidad de la investigación y el descubrimiento científico. [13] [18]
Si bien los investigadores se enfrentan a problemas tecnológicos a la hora de compartir datos, los problemas sociales también son un obstáculo para compartir datos biológicos. Por ejemplo, los médicos e investigadores se enfrentan a desafíos únicos a la hora de compartir datos biológicos o de salud dentro de sus comunidades médicas, como las preocupaciones por la privacidad y las leyes de privacidad del paciente, como la HIPAA. [19]
Según un estudio de 2015 [19] centrado en las actitudes de los profesionales clínicos y el personal de investigación científica, la mayoría de los encuestados afirmó que compartir datos era importante para su trabajo, pero indicó que su experiencia en el tema era baja. De los 190 encuestados, 135 se identificaron como científicos clínicos o de investigación básica, y la población de la encuesta incluía científicos clínicos y de investigación básica del Programa de Investigación Intramural del Instituto Nacional de Salud. El estudio también encontró que, entre los encuestados, compartir datos directamente con otros médicos era una práctica común, pero los sujetos del estudio tenían poca práctica en cargar datos a un repositorio.
En el campo de la investigación biomédica, se ha promovido el intercambio de datos [20] como una forma importante para que los investigadores compartan y reutilicen datos con el fin de aprovechar al máximo los beneficios de la medicina personalizada y de precisión . [19]
El intercambio de datos en el ámbito de la atención sanitaria sigue siendo un desafío por varias razones. A pesar de los avances en materia de investigación sobre el intercambio de datos en el ámbito de la atención sanitaria, muchas organizaciones sanitarias siguen siendo reacias o no están dispuestas a divulgar datos médicos debido a leyes de privacidad como la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA) . Además, el intercambio de datos biológicos entre instituciones requiere proteger la confidencialidad de los datos que pueden abarcar varias organizaciones. Lograr la sintaxis de los datos y la heterogeneidad semántica al tiempo que se cumplen diversos requisitos de privacidad son todos factores que plantean barreras al intercambio de datos. [21]