Almacenamiento de datos informáticos

El almacenamiento de datos informáticos o almacenamiento de datos digitales es una tecnología que consta de componentes informáticos y medios de grabación que se utilizan para retener datos digitales . Es una función central y un componente fundamental de las computadoras. ^[1]^{: 15–16}

La unidad central de procesamiento (CPU) de una computadora es lo que manipula los datos mediante la realización de cálculos. En la práctica, casi todas las computadoras utilizan una jerarquía de almacenamiento , ^[1]^{: 468–473} que coloca las opciones de almacenamiento rápidas pero costosas y pequeñas cerca de la CPU y las opciones más lentas pero menos costosas y más grandes más lejos. En general, las tecnologías rápidas ^[a] se conocen como "memoria", mientras que las tecnologías persistentes más lentas se conocen como "almacenamiento".

Incluso los primeros diseños de ordenadores, la máquina analítica de Charles Babbage y la máquina analítica de Percy Ludgate , distinguían claramente entre procesamiento y memoria (Babbage almacenaba los números como rotaciones de engranajes, mientras que Ludgate almacenaba los números como desplazamientos de varillas en lanzaderas). Esta distinción se amplió en la arquitectura de Von Neumann , donde la CPU consta de dos partes principales: la unidad de control y la unidad aritmético lógica (ALU). La primera controla el flujo de datos entre la CPU y la memoria, mientras que la segunda realiza operaciones aritméticas y lógicas sobre los datos.

Funcionalidad

Sin una cantidad significativa de memoria, una computadora simplemente podría realizar operaciones fijas y generar inmediatamente el resultado. Tendría que ser reconfigurada para cambiar su comportamiento. Esto es aceptable para dispositivos como calculadoras de escritorio , procesadores de señales digitales y otros dispositivos especializados. Las máquinas de von Neumann se diferencian en que tienen una memoria en la que almacenan sus instrucciones de operación y datos. ^[1]^{: 20} Estas computadoras son más versátiles en el sentido de que no necesitan que se reconfigure su hardware para cada nuevo programa, sino que simplemente se pueden reprogramar con nuevas instrucciones en memoria; también tienden a ser más simples de diseñar, en el sentido de que un procesador relativamente simple puede mantener el estado entre cálculos sucesivos para generar resultados procedimentales complejos. La mayoría de las computadoras modernas son máquinas de von Neumann.

Organización y representación de datos

Una computadora digital moderna representa datos utilizando el sistema de numeración binario . Texto, números, imágenes, audio y casi cualquier otra forma de información se puede convertir en una cadena de bits , o dígitos binarios, cada uno de los cuales tiene un valor de 0 o 1. La unidad de almacenamiento más común es el byte , igual a 8 bits. Una pieza de información puede ser manejada por cualquier computadora o dispositivo cuyo espacio de almacenamiento sea lo suficientemente grande como para acomodar la representación binaria de la pieza de información , o simplemente datos . Por ejemplo, las obras completas de Shakespeare , alrededor de 1250 páginas impresas, se pueden almacenar en aproximadamente cinco megabytes (40 millones de bits) con un byte por carácter.

Los datos se codifican asignando un patrón de bits a cada carácter , dígito u objeto multimedia . Existen muchos estándares de codificación (por ejemplo, codificaciones de caracteres como ASCII , codificaciones de imágenes como JPEG y codificaciones de vídeo como MPEG-4 ).

Al añadir bits a cada unidad codificada, la redundancia permite que la computadora detecte errores en los datos codificados y los corrija según algoritmos matemáticos. Los errores generalmente ocurren con bajas probabilidades debido a la inversión aleatoria de valores de bits, o "fatiga física de bits", pérdida del bit físico en el almacenamiento de su capacidad para mantener un valor distinguible (0 o 1), o debido a errores en la comunicación entre o dentro de la computadora. Una inversión aleatoria de bits (por ejemplo, debido a la radiación aleatoria ) generalmente se corrige al detectarse. Un bit o un grupo de bits físicos que funcionan mal (no siempre se conoce el bit defectuoso específico; la definición del grupo depende del dispositivo de almacenamiento específico) generalmente se excluye automáticamente, el dispositivo lo deja fuera de uso y lo reemplaza con otro grupo equivalente que funcione en el dispositivo, donde se restauran los valores de bits corregidos (si es posible). El método de verificación de redundancia cíclica (CRC) se usa generalmente en comunicaciones y almacenamiento para la detección de errores . Luego, se vuelve a intentar un error detectado.

Los métodos de compresión de datos permiten en muchos casos (como en una base de datos) representar una cadena de bits mediante una cadena de bits más corta ("comprimir") y reconstruir la cadena original ("descomprimir") cuando sea necesario. Esto utiliza sustancialmente menos almacenamiento (decenas de por ciento) para muchos tipos de datos a costa de más cálculos (comprimir y descomprimir cuando sea necesario). El análisis de la compensación entre el ahorro de costos de almacenamiento y los costos de los cálculos relacionados y los posibles retrasos en la disponibilidad de los datos se realiza antes de decidir si se mantienen o no determinados datos comprimidos.

Por razones de seguridad , ciertos tipos de datos (por ejemplo, información de tarjetas de crédito ) pueden mantenerse cifrados en el almacenamiento para evitar la posibilidad de reconstrucción de información no autorizada a partir de fragmentos de instantáneas de almacenamiento.

Jerarquía de almacenamiento

En general, cuanto más bajo se encuentra un almacenamiento en la jerarquía, menor es su ancho de banda y mayor es su latencia de acceso desde la CPU. Esta división tradicional del almacenamiento en almacenamiento primario, secundario, terciario y fuera de línea también se rige por el costo por bit.

En el uso contemporáneo, la memoria es generalmente una memoria de lectura y escritura de semiconductores rápida pero temporal , típicamente DRAM (RAM dinámica) u otros dispositivos similares. El almacenamiento consiste en dispositivos de almacenamiento y sus medios a los que no puede acceder directamente la CPU ( almacenamiento secundario o terciario ), típicamente unidades de disco duro , unidades de disco óptico y otros dispositivos más lentos que la RAM pero no volátiles (que conservan el contenido cuando se apagan). ^[2]

Históricamente, la memoria , según la tecnología, se ha denominado memoria central , memoria de núcleo , almacenamiento de núcleo , tambor , memoria principal , almacenamiento real o memoria interna . Mientras tanto, los dispositivos de almacenamiento persistente más lentos se han denominado almacenamiento secundario , memoria externa o almacenamiento auxiliar/periférico .

Almacenamiento primario

La memoria primaria (también conocida como memoria principal , memoria interna o memoria principal ), a menudo denominada simplemente memoria , es la única a la que la CPU tiene acceso directo. La CPU lee continuamente las instrucciones almacenadas allí y las ejecuta según sea necesario. Todos los datos sobre los que se opera activamente también se almacenan allí de manera uniforme.

Históricamente, las primeras computadoras utilizaban líneas de retardo , tubos Williams o tambores magnéticos rotatorios como almacenamiento primario. En 1954, esos métodos poco confiables fueron reemplazados en su mayoría por la memoria de núcleo magnético . La memoria de núcleo siguió siendo dominante hasta la década de 1970, cuando los avances en la tecnología de circuitos integrados permitieron que la memoria de semiconductores se volviera económicamente competitiva.

Esto dio lugar a la memoria de acceso aleatorio (RAM) moderna. Es de tamaño pequeño, ligera, pero bastante cara al mismo tiempo. Los tipos particulares de RAM utilizados para el almacenamiento primario son volátiles , lo que significa que pierden la información cuando no están encendidos. Además de almacenar programas abiertos, sirve como caché de disco y búfer de escritura para mejorar el rendimiento de lectura y escritura. Los sistemas operativos toman prestada capacidad de RAM para el almacenamiento en caché siempre que no sea necesaria para el software en ejecución. ^[3] La memoria de repuesto se puede utilizar como unidad de RAM para el almacenamiento temporal de datos de alta velocidad.

Como se muestra en el diagrama, tradicionalmente hay dos subcapas más del almacenamiento primario, además de la RAM principal de gran capacidad:

Los registros del procesador se encuentran dentro del procesador. Cada registro suele contener una palabra de datos (a menudo 32 o 64 bits). Las instrucciones de la CPU dan instrucciones a la unidad lógica aritmética para que realice diversos cálculos u otras operaciones con estos datos (o con su ayuda). Los registros son la forma más rápida de almacenamiento de datos informáticos.
La caché del procesador es una etapa intermedia entre los registros ultrarrápidos y la memoria principal, mucho más lenta. Se introdujo únicamente para mejorar el rendimiento de las computadoras. La información más utilizada en la memoria principal se duplica en la memoria caché, que es más rápida, pero de mucha menor capacidad. Por otro lado, la memoria principal es mucho más lenta, pero tiene una capacidad de almacenamiento mucho mayor que los registros del procesador. También se utiliza comúnmente la configuración de caché jerárquica de varios niveles: la caché primaria es la más pequeña, la más rápida y se encuentra dentro del procesador; la caché secundaria es algo más grande y lenta.

La memoria principal está conectada directa o indirectamente a la unidad central de procesamiento a través de un bus de memoria . En realidad, se trata de dos buses (no están en el diagrama): un bus de direcciones y un bus de datos . La CPU envía primero un número a través de un bus de direcciones, un número llamado dirección de memoria , que indica la ubicación deseada de los datos. Luego lee o escribe los datos en las celdas de memoria utilizando el bus de datos. Además, una unidad de gestión de memoria (MMU) es un pequeño dispositivo entre la CPU y la RAM que recalcula la dirección de memoria real, por ejemplo, para proporcionar una abstracción de la memoria virtual u otras tareas.

Como los tipos de RAM utilizados para el almacenamiento primario son volátiles (no se inicializan al iniciarse), una computadora que contenga solo ese tipo de almacenamiento no tendría una fuente desde la cual leer instrucciones para iniciar la computadora. Por lo tanto, se utiliza un almacenamiento primario no volátil que contiene un pequeño programa de inicio ( BIOS ) para arrancar la computadora, es decir, para leer un programa más grande desde el almacenamiento secundario no volátil a la RAM y comenzar a ejecutarlo. Una tecnología no volátil utilizada para este propósito se llama ROM, por memoria de solo lectura (la terminología puede ser algo confusa ya que la mayoría de los tipos de ROM también son capaces de acceso aleatorio ).

Muchos tipos de "ROM" no son literalmente de sólo lectura , ya que es posible actualizarlas; sin embargo, es un proceso lento y es necesario borrar grandes porciones de la memoria antes de poder reescribirla. Algunos sistemas integrados ejecutan programas directamente desde la ROM (o similar), porque dichos programas rara vez se modifican. Las computadoras estándar no almacenan programas no rudimentarios en la ROM, sino que utilizan grandes capacidades de almacenamiento secundario, que también es no volátil y no es tan costoso.

Recientemente, el almacenamiento primario y el almacenamiento secundario en algunos usos se refieren a lo que históricamente se llamaba, respectivamente, almacenamiento secundario y almacenamiento terciario . ^[4]

El almacenamiento primario, que incluye ROM , EEPROM , flash NOR y RAM , ^[5] generalmente son direccionables por bytes .

Almacenamiento secundario

El almacenamiento secundario (también conocido como memoria externa o almacenamiento auxiliar ) se diferencia del almacenamiento primario en que la CPU no puede acceder a él directamente. La computadora normalmente utiliza sus canales de entrada/salida para acceder al almacenamiento secundario y transferir los datos deseados al almacenamiento primario. El almacenamiento secundario no es volátil (retiene los datos cuando se apaga). Los sistemas informáticos modernos suelen tener dos órdenes de magnitud más de almacenamiento secundario que almacenamiento primario porque el almacenamiento secundario es menos costoso.

En las computadoras modernas, las unidades de disco duro (HDD) o las unidades de estado sólido (SSD) se utilizan generalmente como almacenamiento secundario. El tiempo de acceso por byte para HDD o SSD se mide normalmente en milisegundos (milésimas de segundo), mientras que el tiempo de acceso por byte para el almacenamiento primario se mide en nanosegundos (milmillonésimas de segundo). Por lo tanto, el almacenamiento secundario es significativamente más lento que el almacenamiento primario. Los dispositivos de almacenamiento óptico rotatorio , como las unidades de CD y DVD , tienen tiempos de acceso aún más largos. Otros ejemplos de tecnologías de almacenamiento secundario incluyen unidades flash USB , disquetes , cinta magnética , cinta de papel , tarjetas perforadas y discos RAM .

Una vez que el cabezal de lectura/escritura del disco en los HDD alcanza la ubicación adecuada y los datos, los datos subsiguientes en la pista son muy rápidos de acceder. Para reducir el tiempo de búsqueda y la latencia rotacional, los datos se transfieren hacia y desde los discos en grandes bloques contiguos. El acceso secuencial o en bloque a los discos es órdenes de magnitud más rápido que el acceso aleatorio, y se han desarrollado muchos paradigmas sofisticados para diseñar algoritmos eficientes basados en el acceso secuencial y en bloque. Otra forma de reducir el cuello de botella de E/S es usar varios discos en paralelo para aumentar el ancho de banda entre la memoria primaria y secundaria. ^[6]

El almacenamiento secundario a menudo se formatea de acuerdo con un formato de sistema de archivos , que proporciona la abstracción necesaria para organizar datos en archivos y directorios , al tiempo que proporciona metadatos que describen el propietario de un determinado archivo, el tiempo de acceso, los permisos de acceso y otra información.

La mayoría de los sistemas operativos de las computadoras utilizan el concepto de memoria virtual , que permite utilizar más capacidad de almacenamiento primario que la que está físicamente disponible en el sistema. A medida que la memoria primaria se llena, el sistema mueve los fragmentos menos utilizados ( páginas ) a un archivo de intercambio o de paginación en el almacenamiento secundario, recuperándolos más tarde cuando sea necesario. Si se mueven muchas páginas a un almacenamiento secundario más lento, el rendimiento del sistema se degrada.

El almacenamiento secundario, incluidos HDD , ODD y SSD , generalmente son direccionables por bloques.

Almacenamiento terciario

El almacenamiento terciario o memoria terciaria ^[7] es un nivel inferior al almacenamiento secundario. Normalmente, implica un mecanismo robótico que montará ( insertará) y desmontará medios de almacenamiento masivo extraíbles en un dispositivo de almacenamiento según las demandas del sistema; dichos datos a menudo se copian al almacenamiento secundario antes de su uso. Se utiliza principalmente para archivar información a la que rara vez se accede, ya que es mucho más lento que el almacenamiento secundario (por ejemplo, 5-60 segundos frente a 1-10 milisegundos). Esto es principalmente útil para almacenes de datos extraordinariamente grandes, a los que se accede sin operadores humanos. Los ejemplos típicos incluyen bibliotecas de cintas y máquinas de discos ópticas .

Cuando una computadora necesita leer información del almacenamiento terciario, primero consultará una base de datos de catálogo para determinar qué cinta o disco contiene la información. A continuación, la computadora ordenará a un brazo robótico que busque el medio y lo coloque en una unidad. Cuando la computadora haya terminado de leer la información, el brazo robótico devolverá el medio a su lugar en la biblioteca.

El almacenamiento terciario también se conoce como almacenamiento nearline porque está "casi en línea". La distinción formal entre almacenamiento en línea, nearline y fuera de línea es: ^[8]

El almacenamiento en línea está disponible inmediatamente para E/S.
El almacenamiento Nearline no está disponible de inmediato, pero puede realizarse en línea rápidamente sin intervención humana.
El almacenamiento fuera de línea no está disponible de inmediato y requiere cierta intervención humana para estar en línea.

Por ejemplo, las unidades de disco duro que giran siempre son almacenamiento en línea, mientras que las unidades que giran y dejan de girar automáticamente, como en las matrices masivas de discos inactivos ( MAID ), son almacenamiento nearline. Los medios extraíbles, como los cartuchos de cinta que se pueden cargar automáticamente, como en las bibliotecas de cintas , son almacenamiento nearline, mientras que los cartuchos de cinta que se deben cargar manualmente son almacenamiento offline.

Almacenamiento fuera de línea

El almacenamiento fuera de línea es el almacenamiento de datos informáticos en un medio o dispositivo que no está bajo el control de una unidad de procesamiento . ^[9] El medio se graba, generalmente en un dispositivo de almacenamiento secundario o terciario, y luego se retira o desconecta físicamente. Debe ser insertado o conectado por un operador humano antes de que una computadora pueda acceder a él nuevamente. A diferencia del almacenamiento terciario, no se puede acceder a él sin interacción humana.

El almacenamiento fuera de línea se utiliza para transferir información , ya que el medio separado puede transportarse físicamente con facilidad. Además, es útil en casos de desastre, donde, por ejemplo, un incendio destruye los datos originales; un medio en una ubicación remota no se verá afectado, lo que permite la recuperación ante desastres . El almacenamiento fuera de línea aumenta la seguridad general de la información , ya que es físicamente inaccesible desde una computadora y la confidencialidad o integridad de los datos no se puede ver afectada por técnicas de ataque basadas en computadora. Además, si rara vez se accede a la información almacenada para fines de archivo, el almacenamiento fuera de línea es menos costoso que el almacenamiento terciario.

En las computadoras personales modernas, la mayoría de los medios de almacenamiento secundario y terciario también se utilizan para el almacenamiento fuera de línea. Los discos ópticos y los dispositivos de memoria flash son los más populares, y en mucha menor medida, las unidades de disco duro extraíbles; los ejemplos más antiguos incluyen disquetes y discos Zip. En los usos empresariales, predominan los cartuchos de cinta magnética; los ejemplos más antiguos incluyen cintas magnéticas de bobina abierta y tarjetas perforadas.

Características del almacenamiento

Un módulo de 1 GiB de RAM DDR2 para computadora portátil

Las tecnologías de almacenamiento en todos los niveles de la jerarquía de almacenamiento se pueden diferenciar mediante la evaluación de ciertas características básicas, así como midiendo las características específicas de una implementación en particular. Estas características básicas son la volatilidad, la mutabilidad, la accesibilidad y la direccionabilidad. Para cualquier implementación particular de cualquier tecnología de almacenamiento, las características que vale la pena medir son la capacidad y el rendimiento.

Volatilidad

La memoria no volátil conserva la información almacenada incluso si no se le suministra energía eléctrica de forma constante. Es adecuada para el almacenamiento de información a largo plazo. La memoria volátil requiere energía constante para mantener la información almacenada. Las tecnologías de memoria más rápidas son las volátiles, aunque no es una regla universal. Dado que se requiere que el almacenamiento primario sea muy rápido, se utiliza predominantemente memoria volátil.

La memoria dinámica de acceso aleatorio es una forma de memoria volátil que también requiere que la información almacenada se vuelva a leer y reescribir periódicamente, o se actualice , de lo contrario desaparecería. La memoria estática de acceso aleatorio es una forma de memoria volátil similar a la DRAM con la excepción de que nunca necesita actualizarse mientras se aplique energía; pierde su contenido cuando se interrumpe el suministro de energía.

Se puede utilizar un sistema de alimentación ininterrumpida (UPS) para proporcionar a una computadora un breve período de tiempo para trasladar la información desde el almacenamiento volátil primario al almacenamiento no volátil antes de que se agoten las baterías. Algunos sistemas, por ejemplo, EMC Symmetrix , tienen baterías integradas que mantienen el almacenamiento volátil durante varios minutos.

Mutabilidad

Almacenamiento de lectura/escritura o almacenamiento mutable: Permite sobrescribir la información en cualquier momento. Una computadora sin cierta cantidad de almacenamiento de lectura/escritura para fines de almacenamiento primario sería inútil para muchas tareas. Las computadoras modernas suelen utilizar también almacenamiento de lectura/escritura para el almacenamiento secundario.
Almacenamiento de escritura lenta y lectura rápida: Almacenamiento de lectura y escritura que permite sobrescribir la información varias veces, pero la operación de escritura es mucho más lenta que la de lectura. Algunos ejemplos son los CD-RW y los SSD .
Almacenamiento de escritura única: La escritura única y lectura múltiple (WORM) permite que la información se escriba solo una vez en algún momento después de la fabricación. Algunos ejemplos son la memoria de solo lectura programable de semiconductores y los CD-R .
Almacenamiento de solo lectura: Conserva la información almacenada en el momento de la fabricación. Algunos ejemplos son los circuitos integrados de ROM de máscara y los CD-ROM .

Accesibilidad

Acceso aleatorio: Se puede acceder a cualquier ubicación de almacenamiento en cualquier momento y en aproximadamente la misma cantidad de tiempo. Esta característica es muy adecuada para el almacenamiento primario y secundario. La mayoría de las memorias de semiconductores , memorias flash y unidades de disco duro proporcionan acceso aleatorio, aunque tanto las memorias de semiconductores como las flash tienen una latencia mínima en comparación con las unidades de disco duro, ya que no es necesario mover partes mecánicas.
Acceso secuencial: El acceso a los datos se realizará en orden secuencial, uno tras otro; por lo tanto, el tiempo necesario para acceder a un determinado dato depende de cuál fue el último dato al que se accedió. Esta característica es típica del almacenamiento fuera de línea.

Direccionabilidad

Ubicación direccionable: Cada unidad de información accesible individualmente en el almacenamiento se selecciona con su dirección de memoria numérica . En las computadoras modernas, el almacenamiento direccionable por ubicación generalmente se limita al almacenamiento primario, al que se accede internamente mediante programas informáticos, ya que la direccionabilidad por ubicación es muy eficiente, pero engorrosa para los humanos.
Archivo direccionable: La información se divide en archivos de longitud variable y se selecciona un archivo en particular con nombres de archivo y directorio legibles para humanos . El dispositivo subyacente aún puede localizarse, pero el sistema operativo de una computadora proporciona la abstracción del sistema de archivos para que la operación sea más comprensible. En las computadoras modernas, el almacenamiento secundario, terciario y fuera de línea utilizan sistemas de archivos.
Direccionable por contenido: Cada unidad de información a la que se puede acceder individualmente se selecciona en función de (parte de) los contenidos almacenados en ella. El almacenamiento direccionable por contenido se puede implementar mediante software (programa informático) o hardware (dispositivo informático), siendo el hardware una opción más rápida pero más cara. La memoria direccionable por contenido de hardware se utiliza a menudo en la memoria caché de la CPU de una computadora .

Capacidad

Capacidad bruta: La cantidad total de información almacenada que puede contener un dispositivo o medio de almacenamiento. Se expresa como una cantidad de bits o bytes (por ejemplo, 10,4 megabytes ).
Densidad de almacenamiento de memoria: La compacidad de la información almacenada. Es la capacidad de almacenamiento de un medio dividida por una unidad de longitud, área o volumen (por ejemplo, 1,2 megabytes por pulgada cuadrada).

Actuación

Estado latente: El tiempo que se tarda en acceder a una ubicación particular en el almacenamiento. La unidad de medida pertinente suele ser el nanosegundo para el almacenamiento primario, el milisegundo para el almacenamiento secundario y el segundo para el almacenamiento terciario. Puede tener sentido separar la latencia de lectura y la latencia de escritura (especialmente para la memoria no volátil) y, en el caso del almacenamiento de acceso secuencial, la latencia mínima, máxima y promedio.
Rendimiento: La velocidad a la que se puede leer o escribir información en el medio de almacenamiento. En el almacenamiento de datos informáticos, el rendimiento suele expresarse en términos de megabytes por segundo (MB/s), aunque también se puede utilizar la velocidad de bits . Al igual que con la latencia, es posible que sea necesario diferenciar entre velocidad de lectura y velocidad de escritura. Además, el acceso a los medios de forma secuencial, en lugar de aleatoria, suele producir el máximo rendimiento.
Granularidad: El tamaño del "fragmento" de datos más grande al que se puede acceder de manera eficiente como una sola unidad, por ejemplo, sin introducir latencia adicional.
Fiabilidad: La probabilidad de un cambio espontáneo del valor del bit en diversas condiciones, o tasa de falla general .

Se pueden utilizar utilidades como hdparm y sar para medir el rendimiento de E/S en Linux.

Uso de energía

Los dispositivos de almacenamiento que reducen el uso del ventilador se apagan automáticamente durante la inactividad, y los discos duros de bajo consumo pueden reducir el consumo de energía en un 90 por ciento. ^[10]^[11]
Las unidades de disco duro de 2,5 pulgadas suelen consumir menos energía que las más grandes. ^[12]^[13]Las unidades de estado sólido de baja capacidad no tienen partes móviles y consumen menos energía que los discos duros. ^[14]^[15]^[16] Además, la memoria puede consumir más energía que los discos duros. ^[16] Los cachés grandes, que se utilizan para evitar chocar contra la pared de la memoria , también pueden consumir una gran cantidad de energía.

Seguridad

El cifrado de disco completo , el cifrado de volumen y disco virtual y el cifrado de archivos/carpetas están disponibles para la mayoría de los dispositivos de almacenamiento. ^[17]

El cifrado de memoria de hardware está disponible en la arquitectura Intel, compatible con el cifrado de memoria total (TME) y el cifrado de memoria granular de páginas con múltiples claves (MKTME). ^[18]^[19] y en la generación SPARC M7 desde octubre de 2015. ^[20]

Vulnerabilidad y confiabilidad

Los distintos tipos de almacenamiento de datos tienen diferentes puntos de falla y varios métodos de análisis predictivo de fallas .

Las vulnerabilidades que pueden provocar instantáneamente una pérdida total son los fallos en los discos duros mecánicos y los fallos de los componentes electrónicos en el almacenamiento flash.

Detección de errores

La falla inminente de las unidades de disco duro se puede estimar utilizando datos de diagnóstico SMART que incluyen las horas de funcionamiento y el número de giros, aunque su confiabilidad es discutida. ^[21]

El almacenamiento flash puede experimentar caídas en las tasas de transferencia como resultado de la acumulación de errores, que el controlador de memoria flash intenta corregir.

La salud de los medios ópticos se puede determinar midiendo los errores menores corregibles , de los cuales un número alto significa que los medios están en deterioro o son de baja calidad. Demasiados errores menores consecutivos pueden provocar la corrupción de los datos. No todos los proveedores y modelos de unidades ópticas admiten el escaneo de errores. ^[22]

Medios de almacenamiento

A partir de 2011 ^[actualizar], los medios de almacenamiento de datos más utilizados son los semiconductores, los magnéticos y los ópticos, mientras que el papel todavía tiene un uso limitado. Se propone el desarrollo de otras tecnologías de almacenamiento fundamentales, como las matrices all-flash (AFA).

Semiconductor

La memoria semiconductora utiliza chips de circuitos integrados (CI) basados en semiconductores para almacenar información. Los datos se almacenan normalmente en celdas de memoria de semiconductor de óxido metálico (MOS) . Un chip de memoria semiconductor puede contener millones de celdas de memoria, que consisten en pequeños transistores de efecto de campo MOS (MOSFET) y/o condensadores MOS . Existen formas tanto volátiles como no volátiles de memoria semiconductora, las primeras utilizan MOSFET estándar y las segundas utilizan MOSFET de compuerta flotante .

En las computadoras modernas, el almacenamiento primario consiste casi exclusivamente en memorias de acceso aleatorio (RAM) de semiconductores volátiles y dinámicas, en particular memorias de acceso aleatorio dinámicas (DRAM). Desde principios de siglo, un tipo de memoria de semiconductores de compuerta flotante no volátil conocida como memoria flash ha ganado terreno de manera constante como almacenamiento fuera de línea para computadoras domésticas. La memoria de semiconductores no volátil también se utiliza para el almacenamiento secundario en varios dispositivos electrónicos avanzados y computadoras especializadas diseñadas para ellos.

Ya en 2006, los fabricantes de ordenadores portátiles y de sobremesa empezaron a utilizar unidades de estado sólido (SSD) basadas en flash como opciones de configuración predeterminadas para el almacenamiento secundario, además o en lugar de las unidades de disco duro más tradicionales. ^[23]^[24]^[25]^[26]^[27]

Magnético

El almacenamiento magnético utiliza diferentes patrones de magnetización sobre una superficie recubierta magnéticamente para almacenar información. El almacenamiento magnético no es volátil . Se accede a la información mediante uno o más cabezales de lectura/escritura que pueden contener uno o más transductores de grabación. Un cabezal de lectura/escritura solo cubre una parte de la superficie, de modo que el cabezal o el medio o ambos deben moverse en relación con otro para poder acceder a los datos. En las computadoras modernas, el almacenamiento magnético adoptará estas formas:

Disco magnético ;
- Disquete , utilizado para almacenamiento fuera de línea;
- Unidad de disco duro , utilizada para almacenamiento secundario.
Cinta magnética , utilizada para almacenamiento terciario y fuera de línea;
Memoria carrusel (rollos magnéticos).

En los primeros ordenadores, el almacenamiento magnético también se utilizaba como:

Almacenamiento primario en forma de memoria magnética , o memoria de núcleo , memoria de cable de núcleo , memoria de película delgada y/o memoria twistor ;
Almacenamiento terciario (por ejemplo, NCR CRAM ) o fuera de línea en forma de tarjetas magnéticas;
En aquella época se utilizaba con frecuencia cinta magnética para almacenamiento secundario.

El almacenamiento magnético no tiene un límite definido de ciclos de reescritura como el almacenamiento flash y los medios ópticos regrabables, ya que la alteración de los campos magnéticos no provoca desgaste físico. Más bien, su vida útil está limitada por las piezas mecánicas. ^[28]^[29]

Óptico

El almacenamiento óptico , el disco óptico típico , almacena información en deformidades en la superficie de un disco circular y lee esta información iluminando la superficie con un diodo láser y observando el reflejo. El almacenamiento en disco óptico no es volátil . Las deformidades pueden ser permanentes (medios de solo lectura), formadas una vez (medios de una sola escritura) o reversibles (medios grabables o de lectura/escritura). Las siguientes formas son de uso común a partir de 2009 ^[actualizar]: ^[30]

CD , CD-ROM , DVD , BD-ROM : almacenamiento de sólo lectura, utilizado para la distribución masiva de información digital (música, vídeo, programas de ordenador);
CD-R , DVD-R , DVD+R , BD-R : almacenamiento de una sola escritura, utilizado para almacenamiento terciario y fuera de línea;
CD-RW , DVD-RW , DVD+RW , DVD-RAM , BD-RE : almacenamiento de escritura lenta y lectura rápida, utilizado para almacenamiento terciario y fuera de línea;
Ultra Density Optical o UDO es similar en capacidad a BD-R o BD-RE y es un almacenamiento de escritura lenta y lectura rápida que se utiliza para almacenamiento terciario y fuera de línea.

El almacenamiento en disco magnetoóptico es un almacenamiento en disco óptico en el que el estado magnético de una superficie ferromagnética almacena información. La información se lee y se escribe de forma óptica mediante la combinación de métodos magnéticos y ópticos. El almacenamiento en disco magnetoóptico es un almacenamiento no volátil , de acceso secuencial , de escritura lenta y lectura rápida que se utiliza para el almacenamiento terciario y fuera de línea.

También se ha propuesto el almacenamiento de datos ópticos 3D .

También se ha propuesto la fusión por magnetización inducida por luz en fotoconductores magnéticos para el almacenamiento magnetoóptico de bajo consumo de energía y alta velocidad. ^[31]

Papel

El almacenamiento de datos en papel , generalmente en forma de cinta de papel o tarjetas perforadas , se ha utilizado durante mucho tiempo para almacenar información para su procesamiento automático, en particular antes de que existieran las computadoras de uso general. La información se registraba perforando agujeros en el papel o cartón y se leía mecánicamente (o más tarde, ópticamente) para determinar si una ubicación particular en el medio era sólida o contenía un agujero. Los códigos de barras permiten que los objetos que se venden o transportan tengan adherida de forma segura cierta información legible por computadora.

Se pueden respaldar en papel cantidades relativamente pequeñas de datos digitales (en comparación con otros tipos de almacenamiento de datos digitales) como un código de barras matricial para un almacenamiento a muy largo plazo, ya que la longevidad del papel generalmente supera incluso al almacenamiento de datos magnéticos. ^[32]^[33]

Otros medios o sustratos de almacenamiento

Memoria de tubo de vacío: Un tubo Williams utilizaba un tubo de rayos catódicos y un tubo Selectron utilizaba un tubo de vacío grande para almacenar información. Estos dispositivos de almacenamiento primario duraron poco tiempo en el mercado, ya que el tubo Williams no era confiable y el tubo Selectron era caro.

Memoria electroacústica: La memoria de línea de retardo utilizaba ondas sonoras en una sustancia como el mercurio para almacenar información. La memoria de línea de retardo era un almacenamiento de lectura/escritura secuencial, dinámico y volátil, y se utilizaba para el almacenamiento primario.

Cinta óptica: es un medio de almacenamiento óptico que, por lo general, consiste en una tira de plástico larga y estrecha sobre la que se pueden escribir patrones y desde la que se pueden volver a leer. Comparte algunas tecnologías con las películas de cine y los discos ópticos, pero no es compatible con ninguno de ellos. La motivación detrás del desarrollo de esta tecnología fue la posibilidad de lograr capacidades de almacenamiento mucho mayores que las de la cinta magnética o los discos ópticos.

Memoria de cambio de fase: Utiliza diferentes fases mecánicas de material de cambio de fase para almacenar información en una matriz direccionable X-Y y lee la información observando la resistencia eléctrica variable del material. La memoria de cambio de fase sería un almacenamiento de lectura/escritura de acceso aleatorio no volátil, y podría usarse para almacenamiento primario, secundario y fuera de línea. La mayoría de los discos ópticos regrabables y muchos de escritura única ya utilizan material de cambio de fase para almacenar información.

Almacenamiento de datos holográficos: almacena información de forma óptica dentro de cristales o fotopolímeros . El almacenamiento holográfico puede utilizar todo el volumen del medio de almacenamiento, a diferencia del almacenamiento en disco óptico, que está limitado a una pequeña cantidad de capas superficiales. El almacenamiento holográfico sería no volátil, de acceso secuencial y de escritura única o de lectura/escritura. Se podría utilizar para almacenamiento secundario y fuera de línea. Véase Disco versátil holográfico (HVD).

Memoria molecular: almacena información en polímeros que pueden almacenar carga eléctrica. La memoria molecular podría ser especialmente adecuada para el almacenamiento primario. La capacidad de almacenamiento teórica de la memoria molecular es de 10 terabits por pulgada cuadrada (16 Gbit/mm2 ⁾ . ^[34]

Fotoconductores magnéticos: almacenan información magnética, que puede modificarse con poca iluminación. ^[31]

ADN: almacena información en nucleótidos de ADN . Se realizó por primera vez en 2012, cuando los investigadores lograron una proporción de 1,28 petabytes por gramo de ADN. En marzo de 2017, los científicos informaron que un nuevo algoritmo llamado fuente de ADN logró el 85% del límite teórico, con 215 petabytes por gramo de ADN. ^[35]^[36]^[37]^[38]

Tecnologías relacionadas

Redundancia

Si bien el mal funcionamiento de un grupo de bits puede resolverse mediante mecanismos de detección y corrección de errores (ver más arriba), el mal funcionamiento de un dispositivo de almacenamiento requiere soluciones diferentes. Las siguientes soluciones son las más utilizadas y válidas para la mayoría de los dispositivos de almacenamiento:

Duplicación de dispositivos : una solución habitual para este problema es mantener constantemente una copia idéntica del contenido del dispositivo en otro dispositivo (normalmente del mismo tipo). La desventaja es que esto duplica el almacenamiento y ambos dispositivos (copias) deben actualizarse simultáneamente, con cierta sobrecarga y posiblemente algunas demoras. La ventaja es la posibilidad de que dos procesos independientes lean simultáneamente el mismo grupo de datos, lo que aumenta el rendimiento. Cuando se detecta que uno de los dispositivos replicados está defectuoso, la otra copia sigue operativa y se utiliza para generar una nueva copia en otro dispositivo (normalmente disponible en funcionamiento en un grupo de dispositivos en espera para este fin).
Matriz redundante de discos independientes ( RAID ): este método generaliza la duplicación de dispositivos anterior al permitir que un dispositivo en un grupo de dispositivos falle y se reemplace con el contenido restaurado (la duplicación de dispositivos es RAID con n=2 ). Los grupos RAID de n=5 o n=6 son comunes. n>2 ahorra almacenamiento, en comparación con n=2 , a costa de un mayor procesamiento durante la operación normal (con un rendimiento a menudo reducido) y el reemplazo del dispositivo defectuoso.

La duplicación de dispositivos y el RAID típico están diseñados para manejar una falla de un solo dispositivo en el grupo RAID de dispositivos. Sin embargo, si ocurre una segunda falla antes de que el grupo RAID esté completamente reparado a partir de la primera, entonces se pueden perder datos. La probabilidad de una sola falla es típicamente pequeña. Por lo tanto, la probabilidad de dos fallas en el mismo grupo RAID en proximidad temporal es mucho menor (aproximadamente la probabilidad al cuadrado, es decir, multiplicada por sí misma). Si una base de datos no puede tolerar incluso una probabilidad tan pequeña de pérdida de datos, entonces el grupo RAID en sí se replica (se duplica). En muchos casos, dicha duplicación se realiza de forma remota geográficamente, en una matriz de almacenamiento diferente, para manejar la recuperación de desastres (consulte la recuperación de desastres más arriba).

Conectividad de red

Un almacenamiento secundario o terciario puede conectarse a una computadora mediante redes informáticas . Este concepto no se aplica al almacenamiento primario, que se comparte entre varios procesadores en menor medida.

El almacenamiento de conexión directa (DAS) es un sistema de almacenamiento masivo tradicional que no utiliza ninguna red. Este sigue siendo el método más popular. Este retrónimo se acuñó recientemente, junto con NAS y SAN.
El almacenamiento conectado a red (NAS) es un almacenamiento masivo conectado a una computadora al que otra computadora puede acceder a nivel de archivo a través de una red de área local , una red de área amplia privada o, en el caso del almacenamiento de archivos en línea , a través de Internet . NAS se asocia comúnmente con los protocolos NFS y CIFS/SMB .
La red de área de almacenamiento (SAN) es una red especializada que proporciona capacidad de almacenamiento a otros equipos. La diferencia fundamental entre NAS y SAN es que NAS presenta y administra sistemas de archivos a los equipos cliente, mientras que SAN proporciona acceso a nivel de direccionamiento de bloques (sin procesar), dejando que los sistemas adjuntos administren los datos o los sistemas de archivos dentro de la capacidad proporcionada. SAN se asocia comúnmente con redes de canal de fibra .

Almacenamiento robótico

Se pueden almacenar grandes cantidades de cintas magnéticas individuales y discos ópticos o magnetoópticos en dispositivos de almacenamiento terciario robóticos. En el campo del almacenamiento en cinta se los conoce como bibliotecas de cintas y, en el campo del almacenamiento óptico , como jukeboxes ópticos o bibliotecas de discos ópticos por analogía. Las formas más pequeñas de cualquiera de las dos tecnologías que contienen un solo dispositivo de unidad se conocen como cargadores automáticos o cambiadores automáticos .

Los dispositivos de almacenamiento con acceso robótico pueden tener varias ranuras, cada una de las cuales contiene medios individuales, y normalmente uno o más robots de selección que recorren las ranuras y cargan los medios en las unidades integradas. La disposición de las ranuras y de los dispositivos de selección afecta al rendimiento. Las características importantes de este tipo de almacenamiento son las posibles opciones de expansión: añadir ranuras, módulos, unidades, robots. Las bibliotecas de cintas pueden tener entre 10 y más de 100.000 ranuras y proporcionar terabytes o petabytes de información casi en línea. Las máquinas de discos ópticas son soluciones algo más pequeñas, de hasta 1.000 ranuras.

El almacenamiento robótico se utiliza para copias de seguridad y para archivos de alta capacidad en las industrias de imágenes, medicina y video. La gestión de almacenamiento jerárquico es una estrategia de archivado muy conocida que consiste en migrar automáticamente archivos que no se utilizan desde hace mucho tiempo desde un almacenamiento rápido en disco duro a bibliotecas o máquinas de discos. Si se necesitan los archivos, se recuperan nuevamente en el disco.

Véase también

Wikiversidad tiene recursos de aprendizaje sobre el almacenamiento de datos informáticos.

Temas de almacenamiento primario

Temas de almacenamiento secundario, terciario y fuera de línea

Conferencias sobre almacenamiento de datos

Notas

^ La mayoría de las computadoras contemporáneas utilizan tecnologías volátiles (que pierden datos cuando se corta la energía); las primeras computadoras usaban tecnologías tanto volátiles como persistentes.

Referencias

Este artículo incorpora material de dominio público de la Norma Federal 1037C. Administración de Servicios Generales . Archivado desde el original el 22 de enero de 2022.

^ abc Patterson, David A.; Hennessy, John L. (2005). Organización y diseño de computadoras: la interfaz hardware/software (3.ª ed.). Ámsterdam : Morgan Kaufmann Publishers . ISBN 1-55860-604-1.OCLC 56213091 .
^ Almacenamiento según se define en Microsoft Computing Dictionary, 4.ª edición, (c) 1999 o en The Authoritative Dictionary of IEEE Standard Terms, 7.ª edición, (c) 2000.
^ "Documentación para /proc/sys/vm/ — La documentación del kernel de Linux".
^ "Almacenamiento primario o hardware de almacenamiento (muestra el uso del término "almacenamiento primario" que significa "almacenamiento en disco duro")". searchstorage.techtarget.com . Archivado desde el original el 10 de septiembre de 2008 . Consultado el 18 de junio de 2011 .
^ Fundamentos de la organización y arquitectura de computadoras. Jones & Bartlett Learning. 2006. ISBN 978-0-7637-3769-6.
^ JS Vitter (2008). Algoritmos y estructuras de datos para memoria externa (PDF) . Serie sobre fundamentos y tendencias en informática teórica. Hanover, MA: ahora Publishers. ISBN 978-1-60198-106-6. Archivado (PDF) del original el 4 de enero de 2011.
^ "Una tesis sobre el almacenamiento terciario" (PDF) . Archivado (PDF) desde el original el 27 de septiembre de 2007 . Consultado el 18 de junio de 2011 .
^ Pearson, Tony (2010). "Uso correcto del término nearline". IBM developer-works, inside system storage . Archivado desde el original el 24 de noviembre de 2015. Consultado el 16 de agosto de 2015 .
^ Sistema Nacional de Comunicaciones (7 de agosto de 1996). Norma Federal 1037C – Telecomunicaciones: Glosario de términos de telecomunicaciones (informe técnico). Administración de Servicios Generales. FS-1037C. Archivado desde el original el 2 de marzo de 2009 . Consultado el 8 de octubre de 2007 .Véase también el artículo Norma federal 1037C .
^ "Calculadora de ahorro energético". Archivado desde el original el 21 de diciembre de 2008.
^ "¿Qué porcentaje de la [re]conducción es realmente ecológico?". Tecnología sencilla . Archivado desde el original el 5 de agosto de 2008.
^ Mike Chin (8 de marzo de 2004). "¿El futuro de las PC silenciosas tendrá 2,5 pulgadas de ancho?". Archivado desde el original el 20 de julio de 2008. Consultado el 2 de agosto de 2008 .
^ Mike Chin (18 de septiembre de 2002). «Discos duros recomendados». Archivado desde el original el 5 de septiembre de 2008. Consultado el 2 de agosto de 2008 .
^ "Disco duro flash IDE de 2,5" de Super Talent". The tech report . 12 de julio de 2006. p. 13. Archivado desde el original el 26 de enero de 2012 . Consultado el 18 de junio de 2011 .
^ "Consumo de energía - El hardware de Tom: ¿El disco duro convencional se ha vuelto obsoleto? Se muestra una vista previa de la unidad flash de 32 GB de Samsung". tomshardware.com . 20 de septiembre de 2006 . Consultado el 18 de junio de 2011 .
^ ab Aleksey Meyev (23 de abril de 2008). «SSD, i-RAM y discos duros tradicionales». X-bit labs. Archivado desde el original el 18 de diciembre de 2008.
^ Karen Scarfone; Murugiah Souppaya; Matt Sexton (noviembre de 2007). "Guía de tecnologías de cifrado de almacenamiento para dispositivos de usuario final" (PDF) . Instituto Nacional de Estándares y Tecnología.
^ "Especificaciones de cifrado" (PDF) . software.intel.com. Archivado (PDF) del original el 9 de octubre de 2022 . Consultado el 28 de diciembre de 2019 .
^ "Una API propuesta para el cifrado de memoria completa". Lwn.net . Consultado el 28 de diciembre de 2019 .
^ "Introducción a SPARC M7 y memoria protegida de silicio (SSM)". swisdev.oracle.com. Archivado desde el original el 21 de enero de 2019. Consultado el 28 de diciembre de 2019 .
^ "Lo que realmente nos dicen los errores del disco duro SMART". Backblaze . 6 de octubre de 2016.
^ "QPxTool - comprobar la calidad". qpxtool.sourceforge.io .
^ "El nuevo portátil Samsung reemplaza el disco duro por una memoria flash". Extreme tech . 23 de mayo de 2006. Archivado desde el original el 30 de diciembre de 2010 . Consultado el 18 de junio de 2011 .
^ "Toshiba lanza su sombrero al ring de almacenamiento flash para portátiles". technewsworld.com . Archivado desde el original el 18 de marzo de 2012 . Consultado el 18 de junio de 2011 .
^ "Mac Pro – Opciones de almacenamiento y RAID para tu Mac Pro". Apple. 27 de julio de 2006. Archivado desde el original el 6 de junio de 2013. Consultado el 18 de junio de 2011 .
^ "MacBook Air: lo mejor del iPad se combina con lo mejor del Mac". Apple. Archivado desde el original el 27 de mayo de 2013. Consultado el 18 de junio de 2011 .
^ "MacBook Air reemplaza el disco duro portátil estándar por el almacenamiento flash de estado sólido". news.inventhelp.com . 15 de noviembre de 2010. Archivado desde el original el 23 de agosto de 2011 . Consultado el 18 de junio de 2011 .
^ "Comparación de la resistencia de los SSD y HDD en la era de los SSD QLC" (PDF) . Tecnología Micron. Archivado (PDF) del original el 9 de octubre de 2022.
^ "Comparación de SSD y HDD: una comparación completa de las unidades de almacenamiento". www.stellarinfo.co.in .
^ "Preguntas frecuentes sobre DVD: una referencia completa sobre tecnologías de DVD". Archivado desde el original el 22 de agosto de 2009.
^ ab Náfrádi, Bálint (24 de noviembre de 2016). "Magnetismo ópticamente conmutado en perovskita fotovoltaica CH3NH3(Mn:Pb)I3". Nature Communications . 7 : 13406. arXiv : 1611.08205 . Bibcode :2016NatCo...713406N. doi :10.1038/ncomms13406. PMC 5123013 . PMID 27882917.
^ "Una solución de backup en papel (no tan estúpida como parece)". 14 de agosto de 2012.
^ Sterling, Bruce (16 de agosto de 2012). "PaperBack paper backup". Wired .
^ "Un nuevo método de autoensamblaje de elementos a escala nanométrica podría transformar la industria del almacenamiento de datos". sciencedaily.com . 1 de marzo de 2009. Archivado desde el original el 1 de marzo de 2009 . Consultado el 18 de junio de 2011 .
^ Yong, Ed. «Esta mota de ADN contiene una película, un virus informático y una tarjeta de regalo de Amazon». The Atlantic . Archivado desde el original el 3 de marzo de 2017. Consultado el 3 de marzo de 2017 .
^ "Investigadores almacenan un sistema operativo de computadora y una película corta en el ADN". phys.org . Archivado desde el original el 2 de marzo de 2017 . Consultado el 3 de marzo de 2017 .
^ "El ADN podría almacenar todos los datos del mundo en una sola habitación". Revista Science. 2 de marzo de 2017. Archivado desde el original el 2 de marzo de 2017 . Consultado el 3 de marzo de 2017 .
^ Erlich, Yaniv; Zielinski, Dina (2 de marzo de 2017). "DNA Fountain permite una arquitectura de almacenamiento robusta y eficiente". Science . 355 (6328): 950–954. Bibcode :2017Sci...355..950E. doi :10.1126/science.aaj2038. PMID 28254941. S2CID 13470340.
^ "Recuperación ante desastres en la nube de AWS". 18 de agosto de 2023.

Lectura adicional

Goda, K.; Kitsuregawa, M. (2012). "La historia de los sistemas de almacenamiento". Actas del IEEE . 100 : 1433–1440. doi : 10.1109/JPROC.2012.2189787 .
Memoria y almacenamiento, Museo de historia de la informática