Datos binarios

Los datos binarios son datos cuya unidad sólo puede adoptar dos estados posibles. Estos suelen estar etiquetados como 0 y 1 de acuerdo con el sistema numérico binario y el álgebra booleana .

Los datos binarios se producen en muchos campos técnicos y científicos diferentes, donde pueden recibir diferentes nombres, incluido bit (dígito binario) en informática , valor de verdad en lógica matemática y dominios relacionados y variable binaria en estadística.

Fundamentos matemáticos y combinatorios.

Una variable discreta que puede tomar sólo un estado contiene información cero , y 2 es el siguiente número natural después de 1. Por eso el bit , una variable con sólo dos valores posibles, es una unidad primaria estándar de información .

Una colección de $n$ bits puede tener $2 n$ estados: consulte el número binario para obtener más detalles. El número de estados de una colección de variables discretas depende exponencialmente del número de variables, y sólo como una ley potencial sobre el número de estados de cada variable. Diez bits tienen más ( 1024 ) estados que tres dígitos decimales ( 1000 ). $10 k$ bits son más que suficientes para representar una información (un número o cualquier otra cosa) que requiere $3 k$ dígitos decimales, por lo que información contenida en variables discretas con 3 , 4, 5, 6, 7, 8, 9, 10 ... Los estados pueden ser reemplazados alguna vez asignando dos, tres o cuatro veces más bits. Por lo tanto, el uso de cualquier otro número pequeño que no sea 2 no proporciona ninguna ventaja.

Además, el álgebra booleana proporciona una estructura matemática conveniente para la colección de bits, con una semántica de colección de variables proposicionales . Las operaciones de álgebra booleana se conocen como " operaciones bit a bit " en informática. Las funciones booleanas también están bien estudiadas teóricamente y son fácilmente implementables, ya sea con programas informáticos o mediante las denominadas puertas lógicas en la electrónica digital . Esto contribuye al uso de bits para representar diferentes datos, incluso aquellos originalmente no binarios.

en estadística

En estadística , los datos binarios son un tipo de datos estadísticos que consisten en datos categóricos que pueden tomar exactamente dos valores posibles, como "A" y "B", o "cara" y "cruz". También se les llama datos dicotómicos y un término más antiguo es datos cuánticos . ^[1] Los dos valores a menudo se denominan genéricamente "éxito" y "fracaso". ^[1] Como forma de datos categóricos, los datos binarios son datos nominales , lo que significa que los valores son cualitativamente diferentes y no se pueden comparar numéricamente. Sin embargo, los valores se representan frecuentemente como 1 o 0, lo que corresponde a contar el número de éxitos en un solo ensayo: 1 (éxito…) o 0 (fracaso); ver § Contar.

A menudo, los datos binarios se utilizan para representar uno de dos valores conceptualmente opuestos, por ejemplo:

el resultado de un experimento ("éxito" o "fracaso")
la respuesta a una pregunta de sí o no ("sí" o "no")
presencia o ausencia de alguna característica ("está presente" o "no está presente")
la verdad o falsedad de una proposición ("verdadero" o "falso", "correcto" o "incorrecto")

Sin embargo, también se puede utilizar para datos que se supone que tienen solo dos valores posibles, incluso si no son conceptualmente opuestos o no representan conceptualmente todos los valores posibles en el espacio. Por ejemplo, los datos binarios se utilizan a menudo para representar las elecciones partidistas de los votantes en las elecciones de Estados Unidos, es decir, Republicano o Demócrata . En este caso, no hay ninguna razón inherente por la que deban existir sólo dos partidos políticos y, de hecho, existen otros partidos en Estados Unidos, pero son tan menores que generalmente simplemente se ignoran. Modelar datos continuos (o datos categóricos de más de 2 categorías) como una variable binaria con fines de análisis se denomina dicotomización (creación de una dicotomía ). Como toda discretización, implica un error de discretización , pero el objetivo es aprender algo valioso a pesar del error: tratarlo como insignificante para el propósito en cuestión, pero recordando que no se puede suponer que sea insignificante en general.

variables binarias

Una variable binaria es una variable aleatoria de tipo binario, es decir, con dos valores posibles. Las variables binarias independientes e idénticamente distribuidas (iid) siguen una distribución de Bernoulli , pero en general los datos binarios no necesitan provenir de variables iid. Los recuentos totales de variables binarias iid (equivalentemente, sumas de variables binarias iid codificadas como 1 o 0) siguen una distribución binomial , pero cuando las variables binarias no son iid, la distribución no tiene por qué ser binomial.

Contando

Al igual que los datos categóricos, los datos binarios se pueden convertir en un vector de datos de conteo escribiendo una coordenada para cada valor posible y contando 1 para el valor que ocurre y 0 para el valor que no ocurre. ^[2] Por ejemplo, si los valores son A y B, entonces el conjunto de datos A, A, B se puede representar en recuentos como (1, 0), (1, 0), (0, 1). Una vez convertidos en recuentos, los datos binarios se pueden agrupar y agregar los recuentos. Por ejemplo, si se agrupa el conjunto A, A, B, los recuentos totales son (2, 1): 2 A y 1 B (de 3 intentos).

Dado que sólo hay dos valores posibles, esto se puede simplificar a un solo recuento (un valor escalar) considerando un valor como "éxito" y el otro como "fracaso", codificando un valor del éxito como 1 y del fracaso como 0 (usando solo la coordenada para el valor de "éxito", no la coordenada para el valor de "fallo"). Por ejemplo, si el valor A se considera "éxito" (y por lo tanto B se considera "fracaso"), el conjunto de datos A, A, B se representaría como 1, 1, 0. Cuando se agrupa, los valores se suman. , mientras que el número de juicios generalmente se rastrea implícitamente. Por ejemplo, A, A, B se agruparían como 1 + 1 + 0 = 2 éxitos (fuera de pruebas). En el sentido contrario, los datos de conteo son datos binarios, siendo las dos clases 0 (fracaso) o 1 (éxito). $n=3$ $n=1$

Los recuentos de variables binarias iid siguen una distribución binomial, con el número total de ensayos (puntos en los datos agrupados). $n$

Regresión

El análisis de regresión sobre resultados previstos que son variables binarias se conoce como regresión binaria ; cuando los datos binarios se convierten en datos de recuento y se modelan como variables iid (para que tengan una distribución binomial), se puede utilizar la regresión binomial . Los métodos de regresión más comunes para datos binarios son la regresión logística , la regresión probit o tipos relacionados de modelos de elección binaria .

De manera similar, los recuentos de variables categóricas iid con más de dos categorías se pueden modelar con una regresión multinomial . Los recuentos de datos binarios no iid se pueden modelar mediante distribuciones más complicadas, como la distribución beta-binomial (una distribución compuesta ). Alternativamente, la relación se puede modelar sin necesidad de modelar explícitamente la distribución de la variable de salida utilizando técnicas de modelos lineales generalizados , como el modelo de cuasi verosimilitud y el cuasibinomial ; ver Sobredispersión § Binomial .

en informática

Una imagen binaria de un código QR , que representa 1 bit por píxel, a diferencia de una imagen típica en color verdadero de 24 bits .

En las computadoras modernas , los datos binarios se refieren a cualquier dato representado en forma binaria en lugar de interpretarse en un nivel superior o convertirse a alguna otra forma. En el nivel más bajo, los bits se almacenan en un dispositivo biestable como un flip-flop . Si bien la mayoría de los datos binarios tienen un significado simbólico (excepto no me importa ), no todos los datos binarios son numéricos. Algunos datos binarios corresponden a instrucciones de computadora , como los datos dentro de los registros del procesador decodificados por la unidad de control a lo largo del ciclo de búsqueda-decodificación-ejecución . Las computadoras rara vez modifican bits individuales por razones de rendimiento. En cambio, los datos se alinean en grupos de un número fijo de bits, normalmente 1 byte (8 bits). Por tanto, los "datos binarios" en las computadoras son en realidad secuencias de bytes. En un nivel superior, se accede a los datos en grupos de 1 palabra (4 bytes) para sistemas de 32 bits y 2 palabras para sistemas de 64 bits .

En la informática aplicada y en el campo de la tecnología de la información , el término datos binarios a menudo se opone específicamente a datos basados en texto , refiriéndose a cualquier tipo de datos que no puedan interpretarse como texto . La distinción entre "texto" y "binario" a veces puede referirse al contenido semántico de un archivo (por ejemplo, un documento escrito frente a una imagen digital ). Sin embargo, a menudo se refiere específicamente a si los bytes individuales de un archivo son interpretables como texto (ver codificación de caracteres ) o no. Cuando se pretende este último significado, a veces se utilizan los términos más específicos formato binario y formato de texto (ual) . Los datos semánticamente textuales se pueden representar en formato binario (por ejemplo, cuando se comprimen o en ciertos formatos que mezclan varios tipos de códigos de formato, como en el formato doc utilizado por Microsoft Word ); por el contrario, los datos de imagen a veces se representan en formato textual (por ejemplo, el formato de imagen X PixMap utilizado en el sistema X Window ).

1 y 0 no son más que dos niveles de voltaje diferentes. Puede hacer que la computadora entienda 1 para un voltaje más alto y 0 para un voltaje más bajo. Hay muchas formas diferentes de almacenar dos niveles de voltaje. Si ha visto disquetes, entonces encontrará una cinta magnética que tiene una capa de material ferromagnético, este es un tipo de material paramagnético que tiene dominios alineados en una dirección particular para dar un campo magnético remanente incluso después de la eliminación de las corrientes a través de materiales o campo magnético. Durante la carga de datos en la cinta magnética, el campo magnético pasa en una dirección para llamar a la orientación guardada del dominio 1 y para el campo magnético pasa en otra dirección, entonces la orientación guardada del dominio es 0. De esta manera , generalmente, se almacenan datos 1 y 0. ^[3]

Ver también

Referencias

^ ab Collett 2002, pag. 1.
^ Agresti, Alan (2012). "1.2.2 Distribución multinomial". Análisis de datos categóricos (3ª ed.). Wiley. pag. 6.ISBN 978-0470463635.
^ Gul, Najam (18 de agosto de 2022). "¿Cómo se almacenan los diferentes tipos de datos en forma de 0 y 1?". Té de la curiosidad . Consultado el 5 de enero de 2023 .

Collet, David (2002). Modelado de datos binarios (Segunda ed.). Prensa CRC. ISBN 9781420057386.