Una falla en el disco duro ocurre cuando un disco duro funciona mal y no se puede acceder a la información almacenada con una computadora configurada correctamente.
Una falla del disco duro puede ocurrir durante el funcionamiento normal, o debido a un factor externo como la exposición al fuego o al agua o a campos magnéticos elevados , o sufrir un impacto fuerte o contaminación ambiental, lo que puede provocar un choque del cabezal .
La información almacenada en un disco duro también puede volverse inaccesible como resultado de la corrupción de datos , la interrupción o destrucción del registro de arranque maestro del disco duro o por malware que destruye deliberadamente el contenido del disco.
Existen varias causas por las que los discos duros pueden fallar, entre ellas: errores humanos, fallos de hardware, corrupción del firmware, daños en los medios, calor, daños por agua, problemas de energía y contratiempos. [1] Los fabricantes de unidades suelen especificar un tiempo medio entre fallos (MTBF) o una tasa de fallos anualizada (AFR), que son estadísticas de población que no pueden predecir el comportamiento de una unidad individual. [2] Estos se calculan ejecutando constantemente muestras de la unidad durante un breve período de tiempo, analizando el desgaste resultante de los componentes físicos de la unidad y extrapolando para proporcionar una estimación razonable de su vida útil. Las fallas de las unidades de disco duro tienden a seguir el concepto de la curva de la bañera . [3] Las unidades suelen fallar en poco tiempo si hay un defecto presente de fabricación. Si una unidad demuestra ser confiable durante un período de unos pocos meses después de la instalación, la unidad tiene una probabilidad significativamente mayor de seguir siendo confiable. Por lo tanto, incluso si una unidad se somete a varios años de uso diario intensivo, es posible que no muestre signos notables de desgaste a menos que se inspeccione de cerca. Por otro lado, una unidad puede fallar en cualquier momento y en muchas situaciones diferentes.
La causa más notoria de falla de la unidad es un choque del cabezal , donde el cabezal interno de lectura y escritura del dispositivo, generalmente flotando sobre la superficie, toca un plato o raya la superficie magnética de almacenamiento de datos . Un choque del cabezal generalmente ocasiona una pérdida grave de datos y los intentos de recuperación de datos pueden causar más daños si no los realiza un especialista con el equipo adecuado. Los platos de la unidad están recubiertos con una capa extremadamente fina de lubricante no electrostático , de modo que el cabezal de lectura y escritura probablemente simplemente se desplace contra la superficie del plato si ocurre una colisión. Sin embargo, este cabezal flota a meros nanómetros de la superficie del plato, lo que hace que una colisión sea un riesgo reconocido.
Otra causa de fallo es un filtro de aire defectuoso . Los filtros de aire de las unidades actuales igualan la presión atmosférica y la humedad entre la carcasa de la unidad y su entorno exterior. Si el filtro no consigue capturar una partícula de polvo, esta puede caer sobre el plato, lo que provocaría un choque del cabezal si este pasara por encima de él. Después de un choque del cabezal, las partículas del plato dañado y del soporte del cabezal pueden provocar uno o más sectores defectuosos . Estos, además de dañar el plato, inutilizarán rápidamente la unidad.
Una unidad también incluye componentes electrónicos de control, que a veces fallan. En tales casos, es posible recuperar todos los datos reemplazando la placa del controlador.
El fallo de un disco duro puede ser catastrófico o gradual. El primero se presenta típicamente como un disco que ya no puede ser detectado por la configuración CMOS , o que no pasa la POST del BIOS de modo que el sistema operativo nunca lo ve. El fallo gradual del disco duro puede ser más difícil de diagnosticar, porque sus síntomas, como datos corruptos y ralentización del PC (causado por áreas del disco duro que fallan gradualmente y requieren repetidos intentos de lectura antes de acceder con éxito), pueden ser causados por muchos otros problemas informáticos, como malware . Un número creciente de sectores defectuosos puede ser un signo de un disco duro defectuoso, pero debido a que el disco duro los agrega automáticamente a su propia tabla de defectos de crecimiento [4] , es posible que no se vuelvan evidentes para utilidades como ScanDisk a menos que la utilidad pueda detectarlos antes de que lo haga el sistema de gestión de defectos del disco duro, o se agoten los sectores de respaldo mantenidos en reserva por el sistema de gestión de defectos del disco duro interno (momento en el que el disco está a punto de fallar por completo). Un patrón repetitivo cíclico de actividad de búsqueda, como ruidos de búsqueda rápida o lenta hasta el final ( clic de la muerte ), puede ser indicativo de problemas en el disco duro. [5]
Durante el funcionamiento normal, los cabezales de los discos duros vuelan por encima de los datos grabados en los discos. Los discos duros modernos evitan que las interrupciones de energía u otras fallas hagan que los cabezales aterricen en la zona de datos moviendo físicamente ( estacionando ) los cabezales a una zona de aterrizaje especial en los platos que no se utiliza para el almacenamiento de datos, o bloqueando físicamente los cabezales en una posición suspendida ( sin carga ) elevada de los platos. Algunos de los primeros discos duros para PC no estacionaban los cabezales automáticamente cuando se desconectaba la energía prematuramente y los cabezales aterrizaban sobre los datos. En algunas otras unidades antiguas, el usuario ejecutaba un programa para estacionar manualmente los cabezales.
Una zona de aterrizaje es un área del plato, generalmente cerca de su diámetro interior (ID), donde no se almacenan datos. Esta área se denomina zona de inicio/parada de contacto (CSS) o zona de aterrizaje. Los discos están diseñados de tal manera que se utiliza un resorte o, más recientemente, la inercia rotacional en los platos para estacionar los cabezales en caso de una pérdida de energía inesperada. En este caso, el motor del husillo actúa temporalmente como un generador , proporcionando energía al actuador.
La tensión del resorte del montaje del cabezal empuja constantemente los cabezales hacia el plato. Mientras el disco gira, los cabezales están soportados por un cojinete de aire y no experimentan contacto físico ni desgaste. En las unidades CSS, los deslizadores que llevan los sensores del cabezal (a menudo también llamados simplemente cabezales ) están diseñados para sobrevivir a una serie de aterrizajes y despegues desde la superficie del medio, aunque el desgaste de estos componentes microscópicos eventualmente pasa factura. La mayoría de los fabricantes diseñan los deslizadores para sobrevivir a 50.000 ciclos de contacto antes de que la probabilidad de daño en el arranque supere el 50%. Sin embargo, la tasa de deterioro no es lineal: cuando un disco es más joven y ha tenido menos ciclos de arranque y parada, tiene más posibilidades de sobrevivir al siguiente arranque que un disco más antiguo y de mayor kilometraje (ya que el cabezal literalmente se arrastra a lo largo de la superficie del disco hasta que se establece el cojinete de aire). Por ejemplo, la serie Seagate Barracuda 7200.10 de unidades de disco duro de escritorio están clasificadas para 50.000 ciclos de arranque y parada; En otras palabras, no se observaron fallas atribuidas a la interfaz cabezal-plato antes de al menos 50.000 ciclos de arranque y parada durante las pruebas. [6]
Alrededor de 1995, IBM fue pionera en una tecnología en la que se crea una zona de aterrizaje en el disco mediante un proceso láser de precisión ( Textura de zona láser = LZT) que produce una serie de "protuberancias" suaves a escala nanométrica en una zona de aterrizaje, [7] mejorando así enormemente la adherencia y el rendimiento de desgaste. Esta tecnología todavía se utiliza hoy en día, predominantemente en unidades de escritorio Seagate de menor capacidad, [8] pero se ha eliminado gradualmente en unidades de 2,5", así como en unidades de escritorio, NAS y empresariales de mayor capacidad a favor de rampas de carga/descarga. En general, la tecnología CSS puede ser propensa a una mayor adherencia (la tendencia de los cabezales a pegarse a la superficie del plato), por ejemplo, como consecuencia del aumento de la humedad. La adherencia excesiva puede causar daños físicos al plato y al deslizador o al motor del husillo.
La tecnología de carga y descarga se basa en levantar los cabezales de los platos hasta una ubicación segura, eliminando así por completo los riesgos de desgaste y fricción . El primer disco duro RAMAC y la mayoría de las primeras unidades de disco utilizaban mecanismos complejos para cargar y descargar los cabezales. Casi todos los discos duros modernos utilizan la carga por rampa, introducida por primera vez por Memorex en 1967, [9] para cargar y descargar en "rampas" de plástico cerca del borde exterior del disco. Las unidades de disco duro portátiles adoptaron esta tecnología debido a la necesidad de una mayor resistencia a los golpes y, finalmente, se adoptó en la mayoría de las unidades de disco duro de escritorio.
Para abordar la resistencia a los golpes, IBM también creó una tecnología para su línea de computadoras portátiles ThinkPad llamada Sistema de protección activa. Cuando el acelerómetro incorporado en el ThinkPad detecta un movimiento repentino y brusco, los cabezales del disco duro interno se descargan automáticamente para reducir el riesgo de posibles pérdidas de datos o defectos por rayones. Posteriormente, Apple también utilizó esta tecnología en su línea PowerBook , iBook , MacBook Pro y MacBook , conocida como Sensor de movimiento repentino . Sony [10], HP con su HP 3D DriveGuard [11] y Toshiba [12] han lanzado una tecnología similar en sus computadoras portátiles.
Los discos duros pueden fallar de diversas formas. La falla puede ser inmediata y total, progresiva o limitada. Los datos pueden destruirse totalmente o ser recuperables de forma parcial o total.
Las unidades anteriores tenían una tendencia a desarrollar sectores defectuosos con el uso y el desgaste; estos sectores defectuosos se podían "mapear" para que no se usaran y no afectaran el funcionamiento de la unidad, y esto se consideraba normal a menos que se desarrollaran muchos sectores defectuosos en un corto período de tiempo. Algunas de las primeras unidades incluso tenían una tabla adjunta a la carcasa de la unidad en la que se enumeraban los sectores defectuosos a medida que aparecían. [13] Las unidades posteriores mapean los sectores defectuosos automáticamente, de una manera invisible para el usuario; una unidad con sectores reasignados puede seguir utilizándose, aunque el rendimiento puede disminuir ya que la unidad debe mover físicamente los cabezales al sector reasignado. Las estadísticas y los registros disponibles a través de SMART (Tecnología de automonitoreo, análisis e informes) brindan información sobre la reasignación. En los discos duros modernos, cada unidad se entrega con cero sectores defectuosos visibles para el usuario, y cualquier sector defectuoso o reasignado puede predecir la falla inminente de una unidad.
Otros fallos, que pueden ser progresivos o limitados, suelen considerarse motivo para sustituir una unidad; el valor de los datos potencialmente en riesgo suele ser mucho mayor que el coste que se ahorra al seguir utilizando una unidad que puede estar fallando. Los errores de lectura o escritura repetidos pero recuperables, los ruidos inusuales, el calentamiento excesivo e inusual y otras anomalías son señales de advertencia.
La mayoría de los principales proveedores de discos duros y placas base admiten SMART , que mide las características de la unidad, como la temperatura de funcionamiento , el tiempo de giro, las tasas de error de datos, etc. Se cree que ciertas tendencias y cambios repentinos en estos parámetros están asociados con una mayor probabilidad de fallo de la unidad y pérdida de datos. Sin embargo, los parámetros SMART por sí solos pueden no ser útiles para predecir fallos de unidades individuales. [16] Si bien varios parámetros SMART afectan la probabilidad de fallo, una gran fracción de unidades defectuosas no producen parámetros SMART predictivos. [16] Puede producirse una avería impredecible en cualquier momento durante el uso normal, con la posible pérdida de todos los datos. La recuperación de algunos o incluso todos los datos de una unidad dañada es a veces, pero no siempre, posible, y normalmente es costosa.
Un estudio de 2007 publicado por Google sugirió que había muy poca correlación entre las tasas de fallas y las altas temperaturas o el nivel de actividad. De hecho, el estudio de Google indicó que "uno de nuestros hallazgos clave ha sido la falta de un patrón consistente de tasas de fallas más altas para las unidades de disco duro con temperaturas más altas o para aquellas unidades con niveles de utilización más altos". [17] Los discos duros con temperaturas promedio informadas por SMART por debajo de los 27 °C (81 °F) tuvieron tasas de fallas más altas que los discos duros con la temperatura promedio informada más alta de 50 °C (122 °F), tasas de fallas al menos dos veces más altas que el rango de temperatura óptimo informado por SMART de 36 °C (97 °F) a 47 °C (117 °F). [16] La correlación entre fabricantes, modelos y la tasa de fallas fue relativamente fuerte. Las estadísticas en esta materia se mantienen en alto secreto por la mayoría de las entidades; Google no relacionó los nombres de los fabricantes con las tasas de fallas, [16] aunque se ha revelado que Google usa unidades Hitachi Deskstar en algunos de sus servidores. [18]
Un estudio de Google de 2007, basado en una gran muestra de campo de unidades, descubrió que las tasas de falla anualizadas reales ( AFR ) para unidades individuales variaban del 1,7 % para unidades del primer año a más del 8,6 % para unidades de tres años. [19] Un estudio similar de 2007 en CMU sobre unidades empresariales mostró que el MTBF medido era 3-4 veces menor que la especificación del fabricante, con una AFR media estimada del 3 % durante 1-5 años basada en registros de reemplazo para una gran muestra de unidades, y que las fallas del disco duro estaban altamente correlacionadas en el tiempo. [20]
Un estudio de 2007 sobre errores de sectores latentes (en contraposición a los estudios anteriores sobre fallos completos de discos) mostró que el 3,45% de 1,5 millones de discos desarrollaron errores de sectores latentes a lo largo de 32 meses (el 3,15% de los discos nearline y el 1,46% de los discos de clase empresarial desarrollaron al menos un error de sector latente dentro de los doce meses posteriores a su fecha de envío), y la tasa anual de errores de sectores aumentó entre el primer y el segundo año. Las unidades empresariales mostraron menos errores de sectores que las unidades de consumo. Se descubrió que la limpieza en segundo plano era eficaz para corregir estos errores. [21]
Las unidades SCSI , SAS y FC son más caras que las unidades SATA de consumo y, por lo general, se utilizan en servidores y matrices de discos , mientras que las unidades SATA se vendían al mercado de ordenadores domésticos , de escritorio y de almacenamiento en línea y se consideraban menos fiables. Esta distinción se está desdibujando ahora.
El tiempo medio entre fallos (MTBF) de las unidades SATA se especifica normalmente en alrededor de 1 millón de horas. Algunas unidades, como Western Digital Raptor, tienen una calificación de MTBF de 1,4 millones de horas, [22] mientras que las unidades SAS/FC tienen una calificación de más de 1,6 millones de horas. [23] Las unidades modernas rellenas de helio están completamente selladas sin un puerto de ventilación, lo que elimina el riesgo de entrada de residuos, lo que da como resultado un MTBF típico de 2,5 millones de horas. Sin embargo, la investigación independiente indica que el MTBF no es una estimación fiable de la longevidad ( vida útil ) de una unidad. [24] El MTBF se realiza en entornos de laboratorio en cámaras de prueba y es una métrica importante para determinar la calidad de una unidad de disco, pero está diseñado para medir únicamente la tasa de fallos relativamente constante durante la vida útil de la unidad (la mitad de la " curva de la bañera ") antes de la fase de desgaste final. [20] [25] [26] Una métrica más interpretable, pero equivalente, al MTBF es la tasa de fallos anualizada (AFR). El AFR es el porcentaje de fallas de la unidad que se espera por año. Tanto el AFR como el MTBF tienden a medir la confiabilidad solo en la parte inicial de la vida útil de una unidad de disco duro, lo que subestima la probabilidad real de falla de una unidad usada. [27] Las unidades industriales y de servidor generalmente tienen un MTBF más alto y un AFR más bajo.
La empresa de almacenamiento en la nube Backblaze elabora un informe anual sobre la fiabilidad de los discos duros. Sin embargo, la empresa afirma que utiliza principalmente unidades de consumo de consumo, que se utilizan en condiciones empresariales, en lugar de en sus condiciones representativas y para el uso previsto. Las unidades de consumo tampoco se prueban para que funcionen con tarjetas RAID empresariales del tipo que se utiliza en un centro de datos, y es posible que no respondan en el tiempo que espera un controlador RAID; dichas tarjetas se identificarán como falladas cuando no lo hayan hecho. [28] El resultado de las pruebas de este tipo puede ser relevante o irrelevante para diferentes usuarios, ya que representan con precisión el rendimiento de las unidades de consumo en la empresa o bajo estrés extremo, pero es posible que no representen con precisión su rendimiento en un uso normal o previsto. [29]
Para evitar la pérdida de datos debido a fallas del disco, las soluciones comunes incluyen:
Los datos de una unidad defectuosa a veces se pueden recuperar parcial o totalmente si el revestimiento magnético de los platos no se destruye por completo. Las empresas especializadas se encargan de la recuperación de datos, con un coste significativo. Puede ser posible recuperar los datos abriendo las unidades en una sala limpia y utilizando el equipo adecuado para reemplazar o revitalizar los componentes averiados. [35] Si la electrónica ha fallado, a veces es posible reemplazar la placa electrónica, aunque a menudo las unidades de nominalmente exactamente el mismo modelo fabricadas en diferentes momentos tienen diferentes placas de circuitos que son incompatibles. Además, las placas electrónicas de las unidades modernas suelen contener datos de adaptación específicos de la unidad necesarios para acceder a sus áreas de sistema , por lo que los componentes relacionados deben reprogramarse (si es posible) o desoldarse y transferirse entre dos placas electrónicas. [36] [37] [38]
A veces, es posible restablecer el funcionamiento durante el tiempo suficiente para recuperar los datos, lo que puede requerir técnicas de reconstrucción como la extracción de archivos . Las técnicas arriesgadas pueden justificarse si la unidad está inactiva por otros motivos. Si se inicia una unidad una vez, es posible que siga funcionando durante un tiempo más o menos largo, pero nunca vuelva a iniciarse, por lo que se recupera la mayor cantidad posible de datos tan pronto como se inicia la unidad.
Por lo tanto, seguramente los datos que brindan son invaluables para los consumidores promedio... ¿verdad? Bueno, tal vez no.