Los datos binarios son datos cuya unidad puede adoptar solo dos estados posibles. Estos suelen etiquetarse como 0 y 1 de acuerdo con el sistema de numeración binario y el álgebra de Boole .
Los datos binarios aparecen en muchos campos técnicos y científicos diferentes, donde pueden recibir distintos nombres, entre ellos, bit (dígito binario) en informática , valor de verdad en lógica matemática y dominios relacionados, y variable binaria en estadística.
Una variable discreta que solo puede tomar un estado contiene información cero , y 2 es el siguiente número natural después de 1. Es por eso que el bit , una variable con solo dos valores posibles, es una unidad primaria estándar de información .
Una colección de n bits puede tener 2 n estados: vea el número binario para más detalles. El número de estados de una colección de variables discretas depende exponencialmente del número de variables, y solo como una ley de potencia del número de estados de cada variable. Diez bits tienen más ( 1024 ) estados que tres dígitos decimales ( 1000 ). 10 k bits son más que suficientes para representar una información (un número o cualquier otra cosa) que requiere 3 k dígitos decimales, por lo que la información contenida en variables discretas con 3 , 4, 5, 6, 7, 8, 9, 10 ... estados puede ser reemplazada mediante la asignación de dos, tres o cuatro veces más bits. Por lo tanto, el uso de cualquier otro número pequeño que 2 no proporciona una ventaja.
Además, el álgebra de Boole proporciona una estructura matemática conveniente para la colección de bits, con una semántica de una colección de variables proposicionales . Las operaciones del álgebra de Boole se conocen como " operaciones bit a bit " en informática. Las funciones booleanas también están bien estudiadas teóricamente y son fácilmente implementables, ya sea con programas informáticos o mediante las llamadas puertas lógicas en electrónica digital . Esto contribuye al uso de bits para representar diferentes datos, incluso aquellos originalmente no binarios.
En estadística , los datos binarios son un tipo de datos estadísticos que consisten en datos categóricos que pueden tomar exactamente dos valores posibles, como "A" y "B", o "cara" y "cruz". También se denominan datos dicotómicos y un término más antiguo es datos cuánticos . [1] A los dos valores se los suele denominar de forma genérica como "éxito" y "fracaso". [1] Como forma de datos categóricos, los datos binarios son datos nominales , lo que significa que los valores son cualitativamente diferentes y no se pueden comparar numéricamente. Sin embargo, los valores se representan con frecuencia como 1 o 0, lo que corresponde a contar el número de éxitos en un solo ensayo: 1 (éxito...) o 0 (fracaso); consulte § Conteo.
A menudo, se utilizan datos binarios para representar uno de dos valores conceptualmente opuestos, por ejemplo:
Sin embargo, también se puede utilizar para datos que se supone que tienen solo dos valores posibles, incluso si no son conceptualmente opuestos o representan conceptualmente todos los valores posibles en el espacio. Por ejemplo, los datos binarios se utilizan a menudo para representar las opciones partidarias de los votantes en las elecciones de los Estados Unidos, es decir, republicano o demócrata . En este caso, no hay una razón inherente por la que solo deban existir dos partidos políticos y, de hecho, existen otros partidos en los EE. UU., pero son tan menores que generalmente simplemente se ignoran. Modelar datos continuos (o datos categóricos de más de 2 categorías) como una variable binaria para fines de análisis se llama dicotomización (crear una dicotomía ). Como toda discretización, implica un error de discretización , pero el objetivo es aprender algo valioso a pesar del error: tratarlo como insignificante para el propósito en cuestión, pero recordar que no se puede asumir que sea insignificante en general.
Una variable binaria es una variable aleatoria de tipo binario, es decir, con dos valores posibles. Las variables binarias independientes e idénticamente distribuidas (iid) siguen una distribución de Bernoulli , pero en general los datos binarios no necesariamente deben proceder de variables iid. Los recuentos totales de variables binarias iid (equivalentemente, las sumas de las variables binarias iid codificadas como 1 o 0) siguen una distribución binomial , pero cuando las variables binarias no son iid, la distribución no necesariamente debe ser binomial.
Al igual que los datos categóricos, los datos binarios se pueden convertir en un vector de datos de conteo escribiendo una coordenada para cada valor posible y contando 1 para el valor que ocurre y 0 para el valor que no ocurre. [2] Por ejemplo, si los valores son A y B, entonces el conjunto de datos A, A, B se puede representar en conteos como (1, 0), (1, 0), (0, 1). Una vez convertidos a conteos, los datos binarios se pueden agrupar y los conteos se pueden sumar. Por ejemplo, si se agrupa el conjunto A, A, B, los conteos totales son (2, 1): 2 A y 1 B (de 3 ensayos).
Dado que solo hay dos valores posibles, esto se puede simplificar a un solo recuento (un valor escalar) al considerar un valor como "éxito" y el otro como "fracaso", codificando un valor del éxito como 1 y del fracaso como 0 (usando solo la coordenada para el valor de "éxito", no la coordenada para el valor de "fracaso"). Por ejemplo, si el valor A se considera "éxito" (y, por lo tanto, B se considera "fracaso"), el conjunto de datos A, A, B se representaría como 1, 1, 0. Cuando esto se agrupa, los valores se suman, mientras que el número de ensayos generalmente se rastrea de manera implícita. Por ejemplo, A, A, B se agruparía como 1 + 1 + 0 = 2 éxitos (de los ensayos). En el sentido inverso, los datos de recuento son datos binarios, con las dos clases siendo 0 (fracaso) o 1 (éxito).
Los recuentos de variables binarias iid siguen una distribución binomial, con el número total de ensayos (puntos en los datos agrupados).
El análisis de regresión sobre resultados previstos que son variables binarias se conoce como regresión binaria ; cuando los datos binarios se convierten en datos de recuento y se modelan como variables iid (para que tengan una distribución binomial), se puede utilizar la regresión binomial . Los métodos de regresión más comunes para datos binarios son la regresión logística , la regresión probit o tipos relacionados de modelos de elección binaria .
De manera similar, los recuentos de variables categóricas iid con más de dos categorías se pueden modelar con una regresión multinomial . Los recuentos de datos binarios no iid se pueden modelar con distribuciones más complicadas, como la distribución beta-binomial (una distribución compuesta ). Alternativamente, la relación se puede modelar sin necesidad de modelar explícitamente la distribución de la variable de salida utilizando técnicas de modelos lineales generalizados , como la cuasibillomia y un modelo cuasibinomio ; consulte Sobredispersión § Binomial .
En las computadoras modernas , los datos binarios se refieren a cualquier dato representado en forma binaria en lugar de ser interpretado en un nivel superior o convertido a alguna otra forma. En el nivel más bajo, los bits se almacenan en un dispositivo biestable como un flip-flop . Si bien la mayoría de los datos binarios tienen un significado simbólico (excepto los " don't cares" ), no todos los datos binarios son numéricos. Algunos datos binarios corresponden a instrucciones de computadora , como los datos dentro de los registros del procesador decodificados por la unidad de control a lo largo del ciclo de búsqueda-decodificación-ejecución . Las computadoras rara vez modifican bits individuales por razones de rendimiento. En cambio, los datos se alinean en grupos de una cantidad fija de bits, generalmente 1 byte (8 bits). Por lo tanto, los "datos binarios" en las computadoras son en realidad secuencias de bytes. En un nivel superior, se accede a los datos en grupos de 1 palabra (4 bytes) para sistemas de 32 bits y 2 palabras para sistemas de 64 bits .
En informática aplicada y en el campo de la tecnología de la información , el término datos binarios se suele oponer específicamente a datos basados en texto , haciendo referencia a cualquier tipo de datos que no se puedan interpretar como texto . La distinción entre "texto" y "binario" a veces puede referirse al contenido semántico de un archivo (por ejemplo, un documento escrito frente a una imagen digital ). Sin embargo, a menudo se refiere específicamente a si los bytes individuales de un archivo son interpretables como texto (véase codificación de caracteres ) o no pueden interpretarse como tal. Cuando se pretende este último significado, a veces se utilizan los términos más específicos formato binario y formato text(ual) . Los datos semánticamente textuales se pueden representar en formato binario (por ejemplo, cuando se comprimen o en ciertos formatos que entremezclan varios tipos de códigos de formato, como en el formato doc utilizado por Microsoft Word ); por el contrario, los datos de imagen a veces se representan en formato textual (por ejemplo, el formato de imagen X PixMap utilizado en el sistema X Window ).
1 y 0 no son más que dos niveles de voltaje diferentes. Puedes hacer que la computadora entienda que 1 significa un voltaje más alto y 0 significa un voltaje más bajo. Hay muchas formas diferentes de almacenar dos niveles de voltaje. Si has visto disquetes, entonces encontrarás una cinta magnética que tiene un revestimiento de material ferromagnético, este es un tipo de material paramagnético que tiene dominios alineados en una dirección particular para dar un campo magnético remanente incluso después de eliminar las corrientes a través de materiales o campos magnéticos. Durante la carga de datos en la cinta magnética, el campo magnético se pasa en una dirección para llamar a la orientación guardada del dominio 1 y para el campo magnético se pasa en otra dirección, entonces la orientación guardada del dominio es 0. De esta manera, generalmente, se almacenan datos 1 y 0. [3]