Hay dos conceptualizaciones de la arqueología de datos: la definición técnica y la definición de ciencia social.
La arqueología de datos (también llamada data archaeology) en sentido técnico se refiere al arte y la ciencia de recuperar datos informáticos codificados y/o encriptados en medios o formatos ahora obsoletos. La arqueología de datos también puede referirse a la recuperación de información de formatos electrónicos dañados después de desastres naturales o errores humanos.
Implica el rescate y recuperación de datos antiguos atrapados en formatos de almacenamiento obsoletos, arcaicos u obsoletos como disquetes, cintas magnéticas, tarjetas perforadas y la transformación/transferencia de esos datos a formatos más utilizables.
La arqueología de datos en las ciencias sociales suele implicar una investigación sobre la fuente y la historia de los conjuntos de datos y la construcción de estos. Implica trazar un mapa de todo el linaje de datos, su naturaleza y características, su calidad y veracidad y cómo estos factores afectan el análisis y la interpretación del conjunto de datos.
Los resultados de la arqueología de datos afectan el nivel en el que se puede confiar en las conclusiones extraídas del análisis de datos. [1]
El término arqueología de datos apareció originalmente en 1993 como parte del Proyecto Global de Arqueología y Rescate de Datos Oceanográficos (GODAR). El impulso original de la arqueología de datos surgió de la necesidad de recuperar registros computarizados de las condiciones climáticas almacenados en cintas de computadora antiguas , que pueden proporcionar evidencia valiosa para probar teorías del cambio climático . Estos enfoques permitieron la reconstrucción de una imagen del Ártico que había sido capturada por el satélite Nimbus 2 el 23 de septiembre de 1966, en una resolución más alta que nunca antes vista a partir de este tipo de datos. [2]
La NASA también utiliza los servicios de arqueólogos de datos para recuperar información almacenada en cintas de computadora de la década de 1960 , como lo ejemplifica el Proyecto de Recuperación de Imágenes del Orbitador Lunar (LOIRP). [3]
Existe una distinción entre recuperación de datos e inteligibilidad de los mismos. Se puede recuperar información pero no entenderla. Para que la arqueología de datos sea eficaz, los datos deben ser inteligibles. [4]
Un término estrechamente relacionado con la arqueología de datos es el linaje de datos . El primer paso para realizar la arqueología de datos es una investigación sobre su linaje de datos. El linaje de datos implica la historia de los datos, su fuente y cualquier alteración o transformación que hayan sufrido. El linaje de datos se puede encontrar en los metadatos de un conjunto de datos, los paradatos de un conjunto de datos o cualquier identificador que los acompañe (guías metodológicas, etc.). Con la arqueología de datos viene la transparencia metodológica, que es el nivel en el que el usuario de los datos puede acceder al historial de los datos. El nivel de transparencia metodológica disponible determina no solo cuánto se puede recuperar, sino que también ayuda a conocer los datos. La investigación del linaje de datos implica qué instrumentos se utilizaron, cuáles son los criterios de selección, los parámetros de medición y los marcos de muestreo. [1]
En el sentido sociopolítico, la arqueología de datos implica el análisis de conjuntos de datos para revelar sus elementos y aparatos sociotécnicos discursivos y materiales. Este tipo de análisis puede revelar la política de los datos que se analizan y, por lo tanto, la de la institución que los produce. La arqueología, en este sentido, se refiere a la procedencia de los datos. Implica mapear los sitios, formatos e infraestructuras a través de los cuales fluyen los datos y se alteran o transforman con el tiempo. Tiene un interés en la vida de los datos y la política que da forma a la circulación de los mismos. Esto sirve para exponer los actores clave, las prácticas y las praxis en juego y sus roles. Puede lograrse en dos pasos. Primero, acceder y evaluar la pila técnica de los datos (esto se refiere a la infraestructura y las tecnologías materiales utilizadas para construir/recopilar los datos) para comprender la representación física de los datos y también. Segundo, analizar la pila contextual de los datos que da forma a cómo se construyen, usan y analizan los datos. Esto se puede hacer mediante una variedad de procesos, entrevistas, análisis de documentos técnicos y de políticas e investigación del efecto de los datos en una comunidad o en el marco institucional, financiero, legal y material. Esto se puede lograr mediante la creación de un conjunto de datos [1].
La arqueología de datos traza el modo en que los datos se mueven a través de diferentes sitios y, a veces, puede encontrar fricción entre ellos. [5]
Los arqueólogos de datos también pueden utilizar la recuperación de datos después de desastres naturales como incendios, inundaciones, terremotos o incluso huracanes . Por ejemplo, en 1995, durante el huracán Marilyn , el Laboratorio Nacional de Medios ayudó a la Administración Nacional de Archivos y Registros a recuperar datos en riesgo debido a equipos dañados. El hardware resultó dañado por la lluvia, el agua salada y la arena, pero fue posible limpiar algunos de los discos y volver a colocarlos en cajas nuevas, salvando así los datos que contenían. [4]
A la hora de decidir si se debe intentar o no recuperar los datos, hay que tener en cuenta el coste. Si se dispone de tiempo y dinero suficientes, se podrán recuperar la mayoría de los datos. En el caso de los medios magnéticos , que son los más utilizados para el almacenamiento de datos, existen diversas técnicas que se pueden utilizar para recuperar los datos en función del tipo de daño. [4] : 17
La humedad puede hacer que las cintas se vuelvan inutilizables, ya que comienzan a deteriorarse y se vuelven pegajosas. En este caso, se puede aplicar un tratamiento térmico para solucionar este problema, haciendo que los aceites y residuos se reabsorban en la cinta o se evaporen de la superficie de la misma. Sin embargo, esto solo debe hacerse para proporcionar acceso a los datos para que se puedan extraer y copiar a un medio que sea más estable. [4] : 17–18
La pérdida de lubricación es otra fuente de daños a las cintas. Esto suele deberse a un uso intensivo, pero también puede ser el resultado de un almacenamiento inadecuado o de la evaporación natural. Como resultado de un uso intensivo, parte del lubricante puede permanecer en los cabezales de lectura y escritura, que luego acumulan polvo y partículas. Esto puede dañar la cinta. La pérdida de lubricación se puede solucionar volviendo a lubricar las cintas. Esto debe hacerse con precaución, ya que una relubricación excesiva puede provocar que la cinta se deslice, lo que a su vez puede provocar una lectura incorrecta de los medios y la pérdida de datos. [4] : 18
La exposición al agua dañará las cintas con el tiempo. Esto suele ocurrir en situaciones de desastre. Si el medio está en agua salada o sucia, debe enjuagarse con agua dulce. El proceso de limpieza, enjuague y secado de las cintas húmedas debe realizarse a temperatura ambiente para evitar daños por calor. Las cintas más antiguas deben recuperarse antes que las más nuevas, ya que son más susceptibles a los daños por agua. [4] : 18
El siguiente paso (después de investigar el linaje de los datos) es establecer qué se considera como datos buenos y malos para garantizar que solo los datos "buenos" se migren al nuevo almacén o repositorio de datos. Un buen ejemplo de datos malos son los "datos de prueba" en el sentido técnico de los datos .
Para evitar la necesidad de recurrir a la arqueología de datos, los creadores y poseedores de documentos digitales deben tener cuidado de emplear la preservación digital .
Otra medida preventiva eficaz es el uso de instalaciones de respaldo en el extranjero que no se verían afectadas en caso de que ocurriera un desastre. Desde estos servidores de respaldo, se podrían recuperar fácilmente copias de los datos perdidos. Se recomienda un plan de distribución de datos en varios sitios y varias técnicas para una recuperación óptima de los datos, especialmente cuando se trata de grandes volúmenes de datos . El método TCP/IP , la recuperación de instantáneas, los sitios espejo y las cintas que salvaguardan los datos en una nube privada también son buenos métodos preventivos. Transfiera diariamente datos desde sus sitios espejo a los servidores de emergencia. [6]