Cantidades, caracteres o símbolos sobre los que se realizan operaciones mediante un ordenador
En informática , los datos (tratados como singular, plural o como sustantivo colectivo ) son cualquier secuencia de uno o más símbolos ; dato es un símbolo único de datos. Los datos requieren interpretación para convertirse en información . Los datos digitales son datos que se representan utilizando el sistema numérico binario de unos (1) y ceros (0), en lugar de la representación analógica . En los sistemas informáticos modernos (posteriores a 1960), todos los datos son digitales.
Los elementos de la memoria física de la computadora consisten en una dirección y un byte/palabra de almacenamiento de datos. Los datos digitales a menudo se almacenan en bases de datos relacionales , como tablas o bases de datos SQL, y generalmente se pueden representar como pares abstractos de clave/valor. Los datos se pueden organizar en muchos tipos diferentes de estructuras de datos , incluidas matrices, gráficos y objetos . Las estructuras de datos pueden almacenar datos de muchos tipos diferentes , incluidos números , cadenas e incluso otras estructuras de datos .
Características
Los metadatos ayudan a traducir los datos en información. Los metadatos son datos sobre los datos. Los metadatos pueden ser implícitos, especificados o dados.
Los datos relacionados con eventos o procesos físicos tendrán un componente temporal. Este componente temporal puede ser implícito. Este es el caso cuando un dispositivo como un registrador de temperatura recibe datos de un sensor de temperatura . Cuando se recibe la temperatura, se supone que los datos tienen una referencia temporal de ahora . Por lo tanto, el dispositivo registra la fecha, la hora y la temperatura juntas. Cuando el registrador de datos comunica temperaturas, también debe informar la fecha y la hora como metadatos para cada lectura de temperatura.
Básicamente, las computadoras siguen una secuencia de instrucciones que se les dan en forma de datos. Un conjunto de instrucciones para realizar una tarea (o tareas) dada se llama programa . Un programa son datos en forma de instrucciones codificadas para controlar el funcionamiento de una computadora u otra máquina. [2] En el caso nominal, el programa, tal como lo ejecuta la computadora, consistirá en código de máquina . Los elementos de almacenamiento manipulados por el programa, pero no ejecutados realmente por la unidad central de procesamiento (CPU), también son datos. En su forma más esencial, un solo dato es un valor almacenado en una ubicación específica. Por lo tanto, es posible que los programas de computadora operen sobre otros programas de computadora, manipulando sus datos programáticos.
Para almacenar bytes de datos en un archivo, estos deben serializarse en un formato de archivo . Normalmente, los programas se almacenan en tipos de archivos especiales, diferentes de los que se utilizan para otros datos. Los archivos ejecutables contienen programas; todos los demás archivos también son archivos de datos . Sin embargo, los archivos ejecutables también pueden contener datos utilizados por el programa que están integrados en el programa. En particular, algunos archivos ejecutables tienen un segmento de datos , que nominalmente contiene constantes y valores iniciales para variables, los cuales pueden considerarse datos.
Por ejemplo, un usuario podría indicarle primero al sistema operativo que cargue un programa de procesamiento de textos desde un archivo y luego usar el programa en ejecución para abrir y editar un documento almacenado en otro archivo. En este ejemplo, el documento se consideraría como un dato. Si el procesador de textos también incluye un corrector ortográfico , entonces el diccionario (lista de palabras) del corrector ortográfico también se consideraría como un dato. Los algoritmos utilizados por el corrector ortográfico para sugerir correcciones serían datos de código de máquina o texto en algún lenguaje de programación interpretable .
Se estimó que la cantidad total de datos digitales en 2007 fue de 281 mil millones de gigabytes (281 exabytes ). [4] [5]
Claves y valores de datos, estructuras y persistencia
Las claves de los datos proporcionan el contexto para los valores. Independientemente de la estructura de los datos, siempre hay un componente clave presente. Las claves de los datos y las estructuras de datos son esenciales para dar significado a los valores de los datos. Sin una clave que esté asociada directa o indirectamente con un valor o un conjunto de valores en una estructura, los valores pierden significado y dejan de ser datos. Es decir, tiene que haber un componente clave vinculado a un componente de valor para que se lo considere datos. [ cita requerida ]
Los datos se pueden representar en las computadoras de múltiples maneras, como en los siguientes ejemplos:
RAM
La memoria de acceso aleatorio (RAM) contiene datos a los que la CPU tiene acceso directo. Una CPU solo puede manipular datos dentro de los registros o la memoria de su procesador . Esto es a diferencia del almacenamiento de datos, donde la CPU debe dirigir la transferencia de datos entre el dispositivo de almacenamiento (disco, cinta...) y la memoria. La RAM es una matriz de ubicaciones lineales contiguas que un procesador puede leer o escribir proporcionando una dirección para la operación de lectura o escritura. El procesador puede operar en cualquier ubicación de la memoria en cualquier momento y en cualquier orden. En la RAM, el elemento de datos más pequeño es el bit binario . Las capacidades y limitaciones de acceso a la RAM son específicas del procesador. En general, la memoria principal está organizada como una matriz de ubicaciones que comienzan en la dirección 0 ( hexadecimal 0). Cada ubicación puede almacenar normalmente 8 o 32 bits, dependiendo de la arquitectura de la computadora .
Llaves
Las claves de datos no necesitan ser una dirección de hardware directa en la memoria. Los códigos de claves indirectas , abstractas y lógicas se pueden almacenar en asociación con valores para formar una estructura de datos . Las estructuras de datos tienen desplazamientos predeterminados (o enlaces o rutas) desde el inicio de la estructura, en la que se almacenan los valores de los datos. Por lo tanto, la clave de datos consiste en la clave de la estructura más el desplazamiento (o enlaces o rutas) hacia la estructura. Cuando se repite una estructura de este tipo, almacenando variaciones de los valores de los datos y las claves de datos dentro de la misma estructura repetitiva, el resultado puede considerarse similar a una tabla , en la que cada elemento de la estructura repetitiva se considera una columna y cada repetición de la estructura se considera una fila de la tabla. En una organización de datos de este tipo, la clave de datos suele ser un valor en una (o una combinación de los valores en varias) de las columnas.
Estructuras de datos recurrentes organizadas
La vista tabular de estructuras de datos repetidas es sólo una de las muchas posibilidades. Las estructuras de datos repetidas se pueden organizar jerárquicamente , de modo que los nodos estén vinculados entre sí en una cascada de relaciones padre-hijo. Los valores y las estructuras de datos potencialmente más complejas se vinculan a los nodos. De este modo, la jerarquía nodal proporciona la clave para abordar las estructuras de datos asociadas con los nodos. Esta representación puede considerarse como un árbol invertido . Los sistemas de archivos de los sistemas operativos de las computadoras modernas son un ejemplo común; y XML es otro.
Datos ordenados o clasificados
Los datos tienen algunas características inherentes cuando se ordenan según una clave . Todos los valores de los subconjuntos de la clave aparecen juntos. Cuando se pasa secuencialmente por grupos de datos con la misma clave, o cambia un subconjunto de la clave, esto se conoce en los círculos de procesamiento de datos como una interrupción o una interrupción de control . Facilita particularmente la agregación de valores de datos en subconjuntos de una clave.
Almacenamiento periférico
Hasta la llegada de la memoria no volátil masiva como flash , el almacenamiento persistente de datos se lograba tradicionalmente escribiendo los datos en dispositivos de bloques externos como cintas magnéticas y unidades de disco . Estos dispositivos normalmente buscan una ubicación en el medio magnético y luego leen o escriben bloques de datos de un tamaño predeterminado. En este caso, la ubicación de búsqueda en el medio es la clave de datos y los bloques son los valores de los datos. Los primeros sistemas de archivos de datos en disco sin procesar o sistemas operativos de disco reservaban bloques contiguos en la unidad de disco para los archivos de datos . En esos sistemas, los archivos podían llenarse, quedándose sin espacio de datos antes de que se hubieran escrito todos los datos en ellos. Por lo tanto, mucho espacio de datos sin usar se reservaba de forma improductiva para garantizar un espacio libre adecuado para cada archivo. Los sistemas de archivos posteriores introdujeron las particiones . Reservaban bloques de espacio de datos de disco para particiones y usaban los bloques asignados de forma más económica, asignando dinámicamente bloques de una partición a un archivo según fuera necesario. Para lograr esto, el sistema de archivos tenía que realizar un seguimiento de qué bloques usaban o no los archivos de datos en un catálogo o tabla de asignación de archivos. Aunque esto permitió un mejor uso del espacio de datos del disco, generó fragmentación de archivos en el disco y una sobrecarga de rendimiento concomitante debido al tiempo de búsqueda adicional para leer los datos. Los sistemas de archivos modernos reorganizan los archivos fragmentados de forma dinámica para optimizar los tiempos de acceso a los mismos. Los desarrollos posteriores en los sistemas de archivos dieron como resultado la virtualización de las unidades de disco, es decir, una unidad lógica puede definirse como particiones de varias unidades físicas.
Datos indexados
La recuperación de un pequeño subconjunto de datos de un conjunto mucho más grande puede implicar una búsqueda ineficiente en los datos de forma secuencial. Los índices son una forma de copiar claves y direcciones de ubicación de estructuras de datos en archivos, tablas y conjuntos de datos, y luego organizarlas utilizando estructuras de árbol invertido para reducir el tiempo necesario para recuperar un subconjunto de los datos originales. Para ello, se debe conocer la clave del subconjunto de datos que se va a recuperar antes de que comience la recuperación. Los índices más populares son el árbol B y los métodos de indexación de clave hash dinámica . La indexación es una sobrecarga para archivar y recuperar datos. Existen otras formas de organizar los índices, por ejemplo, ordenar las claves y utilizar un algoritmo de búsqueda binaria .
La estructura de rango taxonómico de clases , que es un ejemplo de una estructura de datos jerárquica; y
en tiempo de ejecución, la creación de referencias a estructuras de datos en memoria de objetos que han sido instanciados desde una biblioteca de clases .
Un objeto de una clase específica solo existe después de la instanciación. Una vez que se borra la referencia de un objeto, el objeto también deja de existir. Las ubicaciones de memoria donde se almacenaron los datos del objeto son basura y se reclasifican como memoria no utilizada disponible para su reutilización.
Las tecnologías modernas de persistencia de datos escalables y de alto rendimiento, como Apache Hadoop , se basan en el procesamiento de datos distribuidos en paralelo de forma masiva entre muchos ordenadores de consumo en una red de gran ancho de banda. En estos sistemas, los datos se distribuyen entre varios ordenadores y, por lo tanto, cualquier ordenador concreto del sistema debe estar representado en la clave de los datos, ya sea de forma directa o indirecta. Esto permite diferenciar entre dos conjuntos de datos idénticos, cada uno de los cuales se procesa en un ordenador diferente al mismo tiempo.
^ "Datos". Lexico . Archivado desde el original el 23 de junio de 2019 . Consultado el 14 de enero de 2022 .
^ "Programa informático". Diccionario Oxford de bolsillo del inglés actual . Archivado desde el original el 28 de noviembre de 2011. Consultado el 11 de octubre de 2012 .
^ "file(1)". Páginas del manual de OpenBSD . 24 de diciembre de 2015. Archivado desde el original el 5 de febrero de 2018 . Consultado el 4 de febrero de 2018 .
^ Paul, Ryan (12 de marzo de 2008). «Estudio: cantidad de información digital > capacidad de almacenamiento global». Ars Technics. Archivado desde el original el 13 de marzo de 2008. Consultado el 13 de marzo de 2008 .
^ Gantz, John F.; et al. (2008). "El universo digital diverso y explosivo". International Data Corporation vía EMC. Archivado desde el original el 11 de marzo de 2008. Consultado el 12 de marzo de 2008 .