La proliferación de datos se refiere a la prodigiosa cantidad de datos , estructurados y no estructurados, que las empresas y los gobiernos continúan generando a un ritmo sin precedentes y los problemas de usabilidad que resultan del intento de almacenar y gestionar esos datos. Si bien originalmente se refería a problemas asociados con la documentación en papel , la proliferación de datos se ha convertido en un problema importante en el almacenamiento de datos primarios y secundarios en las computadoras.
Si bien el almacenamiento digital se ha abaratado, los costos asociados, desde la energía bruta hasta el mantenimiento y desde los metadatos hasta los motores de búsqueda, no han seguido el ritmo de la proliferación de datos. Aunque la energía necesaria para mantener una unidad de datos ha disminuido, el coste de las instalaciones que albergan el almacenamiento digital ha tendido a aumentar. [1]
En el nivel más simple, los sistemas de correo electrónico de las empresas generan grandes cantidades de datos. Se estima que el correo electrónico empresarial (algunos de ellos importantes para la empresa, otros mucho menos) crece a un ritmo del 25-30% anual. Y sea relevante o no, la carga en el sistema está siendo magnificada por prácticas como el direccionamiento múltiple y el adjunto de grandes archivos de texto, audio e incluso video .
— Servicios de tecnología global de IBM [2]
La proliferación de datos está documentada como un problema para el ejército estadounidense desde agosto de 1971, en particular en relación con la documentación excesiva presentada durante la adquisición de importantes sistemas de armas. [3] Se están realizando esfuerzos para mitigar la proliferación de datos y los problemas asociados con ella. [4]
Problemas causados
El problema de la proliferación de datos está afectando a todos los ámbitos del comercio como resultado de la disponibilidad de dispositivos de almacenamiento de datos relativamente económicos. Esto ha hecho que sea muy fácil volcar datos en un almacenamiento secundario inmediatamente después de que haya pasado su ventana de usabilidad. Esto enmascara un problema que podría afectar gravemente la rentabilidad de las empresas y el funcionamiento eficiente de los servicios de salud, la policía y las fuerzas de seguridad, los gobiernos locales y nacionales y muchos otros tipos de organizaciones. [2] La proliferación de datos es problemática por varias razones:
- Dificultad al intentar encontrar y recuperar información. En Xerox , en promedio, a los empleados les toma más de una hora por semana encontrar documentos impresos, lo que les cuesta $2,152 al año administrarlos y almacenarlos. Para las empresas con más de 10 empleados, esto aumenta a casi dos horas por semana a $5,760 por año. [5] En grandes redes de almacenamiento de datos primario y secundario, los problemas para encontrar datos electrónicos son análogos a los problemas para encontrar datos impresos.
- Pérdida de datos y responsabilidad legal cuando los datos están desorganizados, no se replican adecuadamente o no se pueden encontrar rápidamente. En abril de 2005, Ameritrade Holding Corporation informó a 200.000 clientes actuales y anteriores que una cinta que contenía información confidencial se había perdido o destruido durante el transporte. En mayo del mismo año, Time Warner Incorporated informó que 40 cintas que contenían datos personales de 600.000 empleados actuales y anteriores se habían perdido en el camino a una instalación de almacenamiento. En marzo de 2005, un juez de Florida que conoció de una demanda de 2.700 millones de dólares contra Morgan Stanley emitió una " orden de inferencia adversa " contra la empresa por "abuso deliberado y grave de sus obligaciones de descubrimiento". El juez citó a Morgan Stanley por encontrar repetidamente cintas extraviadas de mensajes de correo electrónico mucho después de que la compañía hubiera afirmado que había entregado todas esas cintas al tribunal. [6]
- Mayores requisitos de mano de obra para gestionar recursos de almacenamiento de datos cada vez más caóticos.
- Redes más lentas y rendimiento de las aplicaciones debido al exceso de tráfico a medida que los usuarios buscan y vuelven a buscar el material que necesitan. [2]
- Alto coste en términos de recursos energéticos necesarios para operar el hardware de almacenamiento. El funcionamiento de un sistema de 100 terabytes costará hasta 35.040 dólares al año, sin contar los costos de refrigeración. [7]
Soluciones propuestas
- Aplicaciones que utilizan mejor la tecnología moderna
- Reducciones en datos duplicados (especialmente causados por el movimiento de datos)
- Mejora de las estructuras de metadatos.
- Mejora de las estructuras de transferencia de archivos y almacenamiento.
- Educación y disciplina del usuario [3]
- La implementación de soluciones de gestión del ciclo de vida de la información para eliminar la información de bajo valor lo antes posible antes de colocar el resto en un almacenamiento a largo plazo gestionado activamente en el que se pueda acceder a ella de forma rápida y económica. [2]
Ver también
Referencias
- ^ "Reducir el tamaño del ático digital". Predicciones de tecnología de Deloitte . Archivado desde el original el 22 de julio de 2011.
- ^ abcd "El terabyte tóxico", IBM Global Technology Services, julio de 2006
- ^ ab "Evolución del problema de la proliferación de datos dentro de los principales programas de adquisición de la Fuerza Aérea". Archivado desde el original el 9 de octubre de 2007 . Consultado el 9 de octubre de 2007 .
- ^ Proliferación de datos: detén eso
- ^ “Hacer frente a la proliferación de datos”; Vawn Himmelsbach. it business.ca: Canadian Technology News, 19 de septiembre de 2006
- ^ "Datos: perdidos, robados o extraviados", Computer World, Seguridad
- ^ "Energía y almacenamiento: el costo oculto de propiedad", Computer Technology Review, octubre de 2003