Datos biológicos

Los datos biológicos se refieren a un compuesto o información derivada de organismos vivos y sus productos.

En las últimas décadas, los saltos en la investigación genómica han dado lugar a cantidades ingentes de datos biológicos.

Las herramientas de secuenciación de ADN, expresión génica (GE), bioimagen, neuroimagen e interfaces cerebro-máquina son dominios que utilizan datos biológicos y modelan sistemas biológicos con alta dimensionalidad.

[1] Además, los datos de secuencias biológicas en bruto suelen referirse a ADN, ARN y aminoácidos.

[2] Por ejemplo, características como: secuencias, gráficos, información geométrica, campos escalares y vectoriales, patrones, restricciones, imágenes e información espacial pueden caracterizarse como datos biológicos, ya que describen características de seres biológicos.

En muchos casos, los datos biológicos están asociados a varias de estas categorías.

[5] La amenaza del biohacking se ha vuelto más evidente a medida que el análisis de ADN aumenta su frecuencia en campos como la ciencia forense, la investigación clínica y la genómica.

El biohacking puede llevarse a cabo sintetizando ADN malicioso e insertándolo en muestras biológicas.

[5] Sin embargo, la amenaza del biohacking puede mitigarse utilizando técnicas similares a las que se emplean para prevenir los ataques de inyección convencionales.

[7] Gracias a los rápidos avances en la ciencia de datos y la potencia computacional, los especialistas en ciencias de la vida han podido aplicar a los datos biológicos métodos de aprendizaje automático intensivos en datos, como el aprendizaje profundo (deep learning, DL), el aprendizaje por refuerzo (reinforcement learning, RL) y su combinación (deep RL).

El aprendizaje por refuerzo puede aplicarse a datos biológicos, en el campo de las ómicas, utilizando el RL para predecir genomas bacterianos.

[8] Otros estudios han demostrado que el aprendizaje por refuerzo se puede utilizar para predecir con precisión la anotación de secuencias biológicas.

Sin embargo, la sobrecarga de información ha sido a menudo un fenómeno debatido en los campos médicos.

Sin embargo, el modelado de artefactos entraña riesgos cuando disminuye la intervención humana, como la comprensión y el control por parte del usuario final.

CATH - Base de datos de clasificación de estructuras proteicas