Datos (informática)

En informática , datos (tratados como singular, plural o como sustantivo masivo ) son cualquier secuencia de uno o más símbolos ; datum es un símbolo único de datos. Los datos requieren interpretación para convertirse en información . Los datos digitales son datos que se representan utilizando el sistema numérico binario de unos (1) y ceros (0), en lugar de una representación analógica . En los sistemas informáticos modernos (posteriores a 1960), todos los datos son digitales.

Los datos existen en tres estados: datos en reposo , datos en tránsito y datos en uso . Los datos dentro de una computadora, en la mayoría de los casos, se mueven como datos paralelos . Los datos que se mueven hacia o desde una computadora, en la mayoría de los casos, se mueven como datos en serie . Los datos obtenidos de un dispositivo analógico, como un sensor de temperatura, se pueden convertir a digitales mediante un convertidor de analógico a digital . Los datos que representan cantidades , caracteres o símbolos sobre los cuales realiza operaciones una computadora se almacenan y registran en medios de registro magnéticos , ópticos , electrónicos o mecánicos, y se transmiten en forma de señales eléctricas u ópticas digitales. ^[1] Los datos entran y salen de las computadoras a través de dispositivos periféricos .

Los elementos físicos de la memoria de la computadora constan de una dirección y un byte/palabra de almacenamiento de datos. Los datos digitales a menudo se almacenan en bases de datos relacionales , como tablas o bases de datos SQL, y generalmente se pueden representar como pares clave/valor abstractos. Los datos se pueden organizar en muchos tipos diferentes de estructuras de datos , incluidas matrices, gráficos y objetos . Las estructuras de datos pueden almacenar datos de muchos tipos diferentes , incluidos números , cadenas e incluso otras estructuras de datos .

Características

Los metadatos ayudan a traducir datos en información. Los metadatos son datos sobre los datos. Los metadatos pueden ser implícitos, especificados o proporcionados.

Los datos relativos a eventos o procesos físicos tendrán un componente temporal. Este componente temporal puede estar implícito. Este es el caso cuando un dispositivo como un registrador de temperatura recibe datos de un sensor de temperatura . Cuando se recibe la temperatura se supone que el dato tiene una referencia temporal de ahora . De este modo, el dispositivo registra la fecha, la hora y la temperatura juntas. Cuando el registrador de datos comunica temperaturas, también debe informar la fecha y la hora como metadatos para cada lectura de temperatura.

Básicamente, las computadoras siguen una secuencia de instrucciones que se les dan en forma de datos. Un conjunto de instrucciones para realizar una tarea (o tareas) determinada se denomina programa . Un programa son datos en forma de instrucciones codificadas para controlar el funcionamiento de una computadora u otra máquina. ^[2] En el caso nominal, el programa, tal como lo ejecuta la computadora, consistirá en código de máquina . También son datos los elementos de almacenamiento manipulados por el programa, pero que realmente no ejecutados por la unidad central de procesamiento (CPU). En su forma más esencial, un dato único es un valor almacenado en una ubicación específica. Por lo tanto, es posible que los programas informáticos funcionen sobre otros programas informáticos manipulando sus datos programáticos.

Para almacenar bytes de datos en un archivo, deben serializarse en un formato de archivo . Normalmente, los programas se almacenan en tipos de archivos especiales, distintos de los que se utilizan para otros datos. Los archivos ejecutables contienen programas; todos los demás archivos también son archivos de datos . Sin embargo, los archivos ejecutables también pueden contener datos utilizados por el programa integrado en el programa. En particular, algunos archivos ejecutables tienen un segmento de datos , que nominalmente contiene constantes y valores iniciales para variables, los cuales pueden considerarse datos.

La línea entre el programa y los datos puede volverse borrosa. Un intérprete , por ejemplo, es un programa. Los datos de entrada a un intérprete son en sí mismos un programa, pero no uno expresado en lenguaje de máquina nativo . En muchos casos, el programa interpretado será un archivo de texto legible por humanos , que se manipula con un programa editor de texto . De manera similar, la metaprogramación implica programas que manipulan otros programas como datos. Programas como compiladores , enlazadores , depuradores , actualizadores de programas , escáneres de virus y similares utilizan otros programas como datos.

Por ejemplo, un usuario podría primero indicarle al sistema operativo que cargue un programa de procesador de textos desde un archivo y luego usar el programa en ejecución para abrir y editar un documento almacenado en otro archivo. En este ejemplo, el documento se consideraría datos. Si el procesador de textos también incluye un corrector ortográfico , entonces el diccionario (lista de palabras) del corrector ortográfico también se considerará datos. Los algoritmos utilizados por el corrector ortográfico para sugerir correcciones serían datos de código de máquina o texto en algún lenguaje de programación interpretable .

En un uso alternativo, los archivos binarios (que no son legibles por humanos ) a veces se denominan datos para distinguirlos del texto legible por humanos . ^[3]

La cantidad total de datos digitales en 2007 se estimó en 281 mil millones de gigabytes (281 exabytes ). ^[4]^[5]

Claves y valores de datos, estructuras y persistencia.

Las claves de los datos proporcionan el contexto para los valores. Independientemente de la estructura de los datos, siempre hay un componente clave presente. Las claves en los datos y las estructuras de datos son esenciales para dar significado a los valores de los datos. Sin una clave que esté directa o indirectamente asociada con un valor, o una colección de valores en una estructura, los valores pierden sentido y dejan de ser datos. Es decir, tiene que haber un componente clave vinculado a un componente de valor para que se considere dato. ^{[ cita necesaria ]}

Los datos se pueden representar en computadoras de múltiples maneras, según los siguientes ejemplos:

RAM

La memoria de acceso aleatorio (RAM) contiene datos a los que la CPU tiene acceso directo. Una CPU sólo puede manipular datos dentro de los registros o la memoria de su procesador . Esto es lo opuesto al almacenamiento de datos, donde la CPU debe dirigir la transferencia de datos entre el dispositivo de almacenamiento (disco, cinta...) y la memoria. La RAM es una matriz de ubicaciones lineales contiguas que un procesador puede leer o escribir proporcionando una dirección para la operación de lectura o escritura. El procesador puede operar en cualquier ubicación de la memoria en cualquier momento y en cualquier orden. En la RAM el elemento de datos más pequeño es el bit binario . Las capacidades y limitaciones de acceso a la RAM son específicas del procesador. En general, la memoria principal está organizada como una matriz de ubicaciones que comienzan en la dirección 0 ( hexadecimal 0). Cada ubicación puede almacenar normalmente 8 o 32 bits dependiendo de la arquitectura de la computadora .

Llaves

Las claves de datos no necesitan ser una dirección de hardware directa en la memoria. Los códigos de claves indirectas , abstractas y lógicas se pueden almacenar en asociación con valores para formar una estructura de datos . Las estructuras de datos tienen desplazamientos (o enlaces o rutas) predeterminados desde el inicio de la estructura, en la que se almacenan los valores de los datos. Por lo tanto, la clave de datos consta de la clave de la estructura más el desplazamiento (o enlaces o rutas) dentro de la estructura. Cuando se repite una estructura de este tipo, almacenando variaciones de los valores de datos y las claves de datos dentro de la misma estructura repetitiva, se puede considerar que el resultado se asemeja a una tabla , en la que cada elemento de la estructura repetitiva se considera una columna y cada repetición de la estructura se considera como una fila de la tabla. En tal organización de datos, la clave de datos suele ser un valor en una (o una combinación de los valores en varias) de las columnas.

Estructuras de datos recurrentes organizadas.

La vista tabular de estructuras de datos repetidas es sólo una de muchas posibilidades. Las estructuras de datos repetidas se pueden organizar jerárquicamente , de modo que los nodos estén vinculados entre sí en una cascada de relaciones padre-hijo. Los valores y estructuras de datos potencialmente más complejas están vinculados a los nodos. Por tanto, la jerarquía nodal proporciona la clave para abordar las estructuras de datos asociadas con los nodos. Esta representación puede considerarse como un árbol invertido . Los sistemas de archivos de los sistemas operativos de computadora modernos son un ejemplo común; y XML es otro.

Datos ordenados u ordenados

Los datos tienen algunas características inherentes cuando se clasifican según una clave . Todos los valores de los subconjuntos de la clave aparecen juntos. Cuando se pasa secuencialmente a través de grupos de datos con la misma clave, o un subconjunto de cambios de clave, esto se conoce en los círculos de procesamiento de datos como una interrupción o una interrupción de control . Facilita particularmente la agregación de valores de datos en subconjuntos de una clave.

Almacenamiento periférico

Hasta la llegada de la memoria no volátil masiva como la flash , el almacenamiento persistente de datos se lograba tradicionalmente escribiendo los datos en dispositivos de bloque externos como cintas magnéticas y unidades de disco . Estos dispositivos normalmente buscan una ubicación en el medio magnético y luego leen o escriben bloques de datos de un tamaño predeterminado. En este caso, la ubicación de búsqueda en el medio es la clave de datos y los bloques son los valores de datos. Los primeros sistemas de archivos de datos de disco sin procesar o sistemas operativos de disco utilizaban bloques contiguos en la unidad de disco para archivos de datos . En esos sistemas, los archivos podían llenarse y quedarse sin espacio para datos antes de que se hubieran escrito todos los datos en ellos. Por lo tanto, gran parte del espacio de datos no utilizado se reservó de manera improductiva para garantizar el espacio libre adecuado para cada archivo. Los sistemas de archivos posteriores introdujeron particiones . Reservaron bloques de espacio de datos en disco para particiones y utilizaron los bloques asignados de manera más económica, asignando dinámicamente bloques de una partición a un archivo según fuera necesario. Para lograr esto, el sistema de archivos tenía que realizar un seguimiento de qué bloques usaban o no los archivos de datos en un catálogo o tabla de asignación de archivos. Aunque esto hizo un mejor uso del espacio de datos del disco, resultó en la fragmentación de archivos en todo el disco y una sobrecarga de rendimiento concomitante debido al tiempo de búsqueda adicional para leer los datos. Los sistemas de archivos modernos reorganizan los archivos fragmentados de forma dinámica para optimizar los tiempos de acceso a los archivos. Otros avances en los sistemas de archivos dieron como resultado la virtualización de las unidades de disco, es decir, donde una unidad lógica puede definirse como particiones de varias unidades físicas.

Datos indexados

Recuperar un pequeño subconjunto de datos de un conjunto mucho más grande puede implicar una búsqueda ineficiente de los datos de forma secuencial. Los índices son una forma de copiar claves y direcciones de ubicación de estructuras de datos en archivos, tablas y conjuntos de datos, y luego organizarlos utilizando estructuras de árbol invertidas para reducir el tiempo necesario para recuperar un subconjunto de los datos originales. Para hacer esto, se debe conocer la clave del subconjunto de datos que se van a recuperar antes de que comience la recuperación. Los índices más populares son el árbol B y los métodos de indexación de clave hash dinámica . La indexación es una tarea indirecta para archivar y recuperar datos. Hay otras formas de organizar índices, por ejemplo, ordenar las claves y utilizar un algoritmo de búsqueda binaria .

Abstracción e indirección

La programación orientada a objetos utiliza dos conceptos básicos para comprender los datos y el software:

La estructura de rango taxonómica de clases , que es un ejemplo de estructura de datos jerárquica; y
en tiempo de ejecución, la creación de referencias a estructuras de datos en memoria de objetos que han sido instanciados desde una biblioteca de clases .

Sólo después de la creación de instancias existe un objeto de una clase específica. Una vez que se borra la referencia de un objeto, el objeto también deja de existir. Las ubicaciones de memoria donde se almacenaron los datos del objeto son basura y se reclasifican como memoria no utilizada disponible para su reutilización.

Datos de la base de datos

La llegada de las bases de datos introdujo una capa adicional de abstracción para el almacenamiento de datos persistente. Las bases de datos utilizan metadatos y un protocolo de lenguaje de consulta estructurado entre los sistemas cliente y servidor , se comunican a través de una red informática y utilizan un sistema de registro de confirmación de dos fases para garantizar la integridad de las transacciones al guardar datos.

Procesamiento de datos distribuido en paralelo

Las tecnologías modernas de persistencia de datos, escalables y de alto rendimiento, como Apache Hadoop , se basan en un procesamiento de datos distribuido masivamente en paralelo a través de muchas computadoras básicas en una red de gran ancho de banda. En tales sistemas, los datos se distribuyen entre varias computadoras y, por lo tanto, cualquier computadora particular del sistema debe estar representada en la clave de los datos, ya sea directa o indirectamente. Esto permite diferenciar entre dos conjuntos de datos idénticos, cada uno de los cuales se procesa en una computadora diferente al mismo tiempo.

Ver también

Referencias

^ "Datos". Léxico . Archivado desde el original el 23 de junio de 2019 . Consultado el 14 de enero de 2022 .
^ "Programa de computadora". El diccionario de bolsillo de Oxford de inglés actual . Archivado desde el original el 28 de noviembre de 2011 . Consultado el 11 de octubre de 2012 .
^ "archivo (1)". Páginas del manual de OpenBSD . 24 de diciembre de 2015. Archivado desde el original el 5 de febrero de 2018 . Consultado el 4 de febrero de 2018 .
^ Paul, Ryan (12 de marzo de 2008). "Estudio: cantidad de información digital> capacidad de almacenamiento global". Técnicas Ars. Archivado desde el original el 13 de marzo de 2008 . Consultado el 13 de marzo de 2008 .
^ Gantz, John F.; et al. (2008). "El universo digital diverso y en expansión". Corporación Internacional de Datos a través de EMC. Archivado desde el original el 11 de marzo de 2008 . Consultado el 12 de marzo de 2008 .