Un sistema de archivos distribuido es una solución para almacenar y acceder a datos basada en una arquitectura cliente/servidor.
Este sistema es útil cuando es necesario que los usuarios tengan acceso a información compartida en diferentes ubicaciones de forma ininterrumpida.
A gran escala, un sistema trabajaba de la manera siguiente: se ingresaban los datos de entrada (tarjetas perforadas o cintas magnéticas), se esperaba a que la computadora procesara esas entradas y, cuando terminaba, regresaba los resultados obtenidos.
Después se desarrollaron sistemas operativos con modelos de tiempo compartido y la implementación de varias terminales conectadas a una computadora que se evolucionó a una manera más interactiva para el usuario y menos centralizada, pues ya no era necesario que los usuarios del sistema se encontraran presencialmente en el mismo lugar que el sistema; sólo necesitaba que su terminal estuviera conectada a la computadora central.
Por ello, se comenzó a utilizar FTP (File Transfer Protocol), que eliminaba la necesidad de usar dispositivos extraíbles, pero seguía planteando el problema de tener varias copias de un archivo, en este caso el archivo original se debía copiar al servidor y posteriormente del servidor a la computadora destino.
Este no era el único problema, ya que para poder comprar los archivos era necesario contar con las direcciones físicas de los equipos.
Esta clasificación está asociada a la primera y toma acceso remoto de archivos en consideración: Los sistemas de archivos son muy importantes en los sistemas operativos pues actúan como una interfaz entre el mismo sistema y todos los dispositivos conectados al equipo ya sean, dispositivos internos o externos.
Ceph tiene como objetivo ser POSIX-compatible y completamente distribuido sin ningún punto único de fallo.
Está basado casi por completo en el sistema de ficheros AFS pero con ligeras diferencias.
Primer sistema comercial de archivos en red (Sun Microsystems, 1984) estándar, multiplataforma que permite acceder y compartir archivos en una red C/S heterogénea como si estuvieran en un solo disco, es decir, montar un directorio de una máquina remota en una máquina local.
Está basado en Java, que permite una visión de los recursos como una sola unidad.
La segunda familia de columnas “sblocks” almacena el contenido real del archivo.
Las columnas son subbloques comprimidos ordenados en el tiempo que, cuando se descomprimen y combinan, equivalen a un bloque HDFS.
Posteriormente, CFS ejecuta una llamada de ahorro personalizada que devuelve los datos del subbloque especificado o, si la llamada se realizó en un nodo con los datos localmente, el archivo y la información de compensación del archivo Cassandra SSTable con el subbloque.
Al usar la información de SSTable, es mucho más rápido, ya que el mapeador puede acceder a los datos directamente.