Base de datos de archivos planos

Una base de datos de archivos planos es una base de datos almacenada en un archivo llamado archivo plano . Los registros siguen un formato uniforme y no existen estructuras para indexar o reconocer relaciones entre registros. El archivo es simple. Un archivo plano puede ser un archivo de texto sin formato (por ejemplo, csv , txt o tsv ) o un archivo binario . Las relaciones se pueden inferir a partir de los datos de la base de datos, pero el formato de la base de datos en sí no las hace explícitas.

El término generalmente implica una base de datos pequeña, pero las bases de datos muy grandes también pueden ser planas.

Descripción general

Los archivos de texto sin formato suelen contener un registro por línea. ^[2] Existen diferentes convenciones para representar datos. En los archivos de valores separados por comas y de valores separados por delimitadores , los campos se pueden separar mediante delimitadores como comas o caracteres de tabulación . En otros casos, cada campo puede tener una longitud fija; los valores cortos pueden rellenarse con caracteres de espacio . Es posible que sea necesario un formato adicional para evitar la colisión de delimitadores .

El uso de delimitadores genera cierta sobrecarga al localizarlos cada vez que se procesan (a diferencia del formato de ancho fijo), lo que puede tener implicaciones en el rendimiento . Sin embargo, el uso de delimitadores de caracteres (especialmente comas) también es una forma burda de compresión de datos que puede ayudar al rendimiento general al reducir los volúmenes de datos, especialmente para fines de transmisión de datos . El uso de delimitadores de caracteres que incluyen un componente de longitud ( notación declarativa ) es comparativamente raro, pero reduce enormemente la sobrecarga asociada con la localización de la extensión de cada campo.

Ejemplos de archivos planos incluyen /etc/passwdy /etc/groupen sistemas operativos tipo Unix . Otro ejemplo de un archivo plano es una lista de nombres y direcciones con los campos Nombre , Dirección y Número de teléfono .

Una lista de nombres, direcciones y números de teléfono escritos a mano en una hoja de papel es una base de datos de archivo plano. Esto también se puede hacer con cualquier máquina de escribir o procesador de textos . Se puede utilizar una hoja de cálculo o un programa de edición de texto para implementar una base de datos de archivos planos, que luego se puede imprimir o utilizar en línea para mejorar las capacidades de búsqueda.

Historia

El trabajo de Herman Hollerith para la Oficina del Censo de Estados Unidos se realizó por primera vez en el censo de Estados Unidos de 1890 , involucrando datos tabulados mediante perforaciones en tarjetas de papel, ^[3] a veces se considera la primera base de datos computarizada de archivo plano, ya que no incluía tarjetas que indexaran otros tarjetas, o relacionar de otro modo las tarjetas individuales entre sí, salvo por su pertenencia al grupo. ^{[ cita necesaria ]}

En la década de 1980, las aplicaciones informáticas de bases de datos de archivos planos configurables eran populares en IBM PC y Macintosh . Estos programas fueron diseñados para facilitar a las personas el diseño y uso de sus propias bases de datos, y en popularidad estaban casi a la par de los procesadores de texto y las hojas de cálculo . ^{[ cita necesaria ]} Ejemplos de software de base de datos de archivos planos incluyen las primeras versiones de FileMaker y el shareware PC-File y el popular dBase .

Las bases de datos de archivos planos son comunes y ubicuas porque son fáciles de escribir y editar, y se adaptan a innumerables propósitos de una manera sencilla.

Implementaciones modernas

Los almacenes lineales de datos NoSQL, datos con formato JSON , hojas de cálculo primitivas (quizás separadas por comas o delimitadas por tabulaciones) y archivos de texto pueden verse como bases de datos de archivos planos, porque carecen de índices integrados, referencias integradas entre elementos de datos, o tipos de datos complejos. Los programas para gestionar colecciones de libros o citas y libretas de direcciones pueden utilizar bases de datos de archivos planos de propósito único, almacenando y recuperando información de archivos planos sin índices ni sistemas de señalización.

Si bien un usuario puede escribir una tabla de contenido en un archivo de texto, el formato del archivo de texto en sí no incluye el concepto de tabla de contenido. Si bien un usuario puede escribir "amigos de Kathy" en la sección "Notas" para obtener la información de contacto de John, esto es interpretado por el usuario en lugar de ser una característica incorporada de la base de datos. Cuando un sistema de base de datos comienza a reconocer y codificar relaciones entre registros, comienza a dejar de ser "plano", y cuando tiene un sistema detallado para describir tipos y relaciones jerárquicas, ahora está demasiado estructurado para ser considerado "plano".

Base de datos de ejemplo

El siguiente ejemplo ilustra elementos típicos de una base de datos de archivos planos. La disposición de los datos consta de una serie de columnas y filas organizadas en formato tabular . Este ejemplo específico utiliza solo una tabla.

Las columnas incluyen: nombre (el nombre de una persona, segunda columna); equipo (el nombre de un equipo deportivo apoyado por la persona, tercera columna); y un ID único numérico (utilizado para identificar registros de forma única, primera columna).

A continuación se muestra un ejemplo de representación textual de los datos descritos:

equipo de nombre de identificación1 Amy Blues2 Bob Rojos3 Chuck Blues4 Richard Blues5 rojos de Ethel6 Fred Blues7Gilly Blues8 rojos de madeja9 Hank Blues

Este tipo de representación de datos es bastante estándar para una base de datos de archivos planos, aunque hay algunas consideraciones adicionales que no se desprenden fácilmente del texto:

Tipos de datos: cada columna de una tabla de base de datos como la anterior normalmente está restringida a un tipo de datos específico . Estas restricciones suelen establecerse por convención, pero no se indican formalmente a menos que los datos se transfieran a un sistema de base de datos relacional .
Columnas separadas: en el ejemplo anterior, las columnas individuales se separan mediante caracteres de espacio en blanco . Esto también se denomina sangría o formato de datos de "ancho fijo". Otra convención común es separar columnas usando uno o más caracteres delimitadores , como una tabulación o una coma.
Álgebra relacional: cada fila o registro de la tabla anterior cumple con la definición estándar de tupla en álgebra relacional (el ejemplo anterior muestra una serie de 3 tuplas). Además, la primera fila especifica los nombres de los campos asociados con los valores de cada fila.
Sistema de gestión de bases de datos: dado que las operaciones formales posibles con un archivo de texto suelen ser más limitadas de lo deseado, el texto del ejemplo anterior normalmente representaría un estado intermedio de los datos antes de ser transferidos a un sistema de gestión de bases de datos .

Ver también

/etc/passwd , un archivo plano de uso común, utilizado para detallar a los usuarios en Unix
CSV (valores estándar separados por comas)
Berkeley DB (base de datos típica de archivos planos)
Awk (procesador clásico de archivos planos)
Recfiles (formato de archivo de base de datos de texto sin formato)

Referencias

Wikimedia Commons tiene medios relacionados con los modelos de archivos planos .

^ Glosario de integración de datos Archivado el 20 de marzo de 2009 en Wayback Machine , Departamento de Transporte de EE. UU., agosto de 2001.
^ Fowler, Glenn (1994), "cql: lenguaje de consulta de base de datos de archivos planos", WTEC'94: Actas de la conferencia técnica de USENIX de invierno de 1994 sobre la conferencia técnica de USENIX de invierno de 1994
^ Blodgett, John H.; Schultz, Claire K. (1969). "Herman hollerith: pionero del procesamiento de datos". Documentación americana . 20 (3): 221–226. doi :10.1002/asi.4630200307. ISSN 1936-6108.