stringtranslate.com

Datos brutos

Las dos columnas a la derecha de la columna más a la izquierda en esta tabla computarizada son datos sin procesar.

Los datos brutos , también conocidos como datos primarios , son datos (por ejemplo, números, lecturas de instrumentos, cifras, etc.) recopilados de una fuente. En el contexto de los exámenes, los datos brutos pueden describirse como una puntuación bruta (después de las puntuaciones de las pruebas ).

Si un científico instala un termómetro computarizado que registra la temperatura de una mezcla química en un tubo de ensayo cada minuto, la lista de lecturas de temperatura para cada minuto, tal como se imprime en una hoja de cálculo o se ve en una pantalla de computadora, son "datos brutos". Los datos brutos no han sido sometidos a procesamiento, "limpieza" por parte de los investigadores para eliminar valores atípicos , errores obvios de lectura del instrumento o errores de ingreso de datos, ni a ningún análisis (por ejemplo, determinar aspectos de tendencia central como el resultado promedio o mediano ). Además, los datos brutos no han sido sujetos a ninguna otra manipulación por parte de un programa de software o un investigador, analista o técnico humano. También se los conoce como datos primarios . Los datos brutos son un término relativo (ver datos ), porque incluso una vez que los datos brutos han sido "limpiados" y procesados ​​por un equipo de investigadores, otro equipo puede considerar estos datos procesados ​​como "datos brutos" para otra etapa de la investigación. Los datos brutos se pueden ingresar en un programa de computadora o usarse en procedimientos manuales como analizar las estadísticas de una encuesta . El término "datos sin procesar" puede referirse a los datos binarios en dispositivos de almacenamiento electrónico, como unidades de disco duro (también denominados "datos de bajo nivel").

Generando datos

Los datos se crean o se elaboran de dos maneras. La primera es la denominada «datos capturados» [1] , que se obtiene mediante una investigación o un análisis intencionados. La segunda es la denominada «datos de escape» [1] , que suelen recopilarse mediante máquinas o terminales como función secundaria. Por ejemplo, las cajas registradoras, los teléfonos inteligentes y los velocímetros cumplen una función principal, pero pueden recopilar datos como tarea secundaria. Los datos exhaustivos suelen ser demasiado grandes o de poca utilidad para procesarlos y se vuelven «transitorios» o se desechan. [1]

Ejemplos

En informática , los datos sin procesar pueden tener los siguientes atributos: pueden contener errores humanos, de máquina o de instrumento, pueden no estar validados; pueden estar en formatos de área diferentes ( coloquiales ); no codificados o sin formato; o algunas entradas pueden ser "sospechosas" (por ejemplo, valores atípicos ), lo que requiere confirmación o citación . Por ejemplo, una hoja de entrada de datos puede contener fechas como datos sin procesar en muchas formas: "31 de enero de 1999", "31/01/1999", "31/1/99", "31 de enero" o "hoy". Una vez capturados, estos datos sin procesar pueden procesarse y almacenarse como un formato normalizado, tal vez una fecha juliana , para facilitar que las computadoras y los humanos los interpreten durante el procesamiento posterior. Los datos sin procesar (a veces llamados coloquialmente datos "fuentes" o datos "eggy", este último una referencia a que los datos están "sin cocinar", es decir, "sin procesar", como un huevo crudo ) son la entrada de datos para el procesamiento. Se hace una distinción entre datos e información , en el sentido de que la información es el producto final del procesamiento de datos . Los datos en bruto que han sido procesados ​​a veces se denominan datos "cocinados" en un sentido coloquial. [ dudosodiscutir ] Aunque los datos en bruto tienen el potencial de transformarse en " información ", se requiere extracción, organización, análisis y formato para la presentación antes de que los datos en bruto puedan transformarse en información utilizable.

Por ejemplo, una terminal de punto de venta (terminal POS, una caja registradora computarizada ) en un supermercado concurrido recopila enormes volúmenes de datos brutos cada día sobre las compras de los clientes. Sin embargo, esta lista de artículos comestibles y sus precios y la hora y fecha de compra no proporciona mucha información hasta que se procesa. Una vez procesados ​​y analizados por un programa de software o incluso por un investigador que utiliza un bolígrafo, papel y una calculadora , estos datos brutos pueden indicar los artículos particulares que compra cada cliente, cuándo los compra y a qué precio; asimismo, un analista o gerente podría calcular las ventas totales promedio por cliente o el gasto promedio por día de la semana por hora. Estos datos procesados ​​y analizados proporcionan información para el gerente, que luego podría usar para ayudarlo a determinar, por ejemplo, cuántos cajeros contratar y en qué horarios. Dicha información podría luego convertirse en datos para un procesamiento posterior, por ejemplo, como parte de una campaña de marketing predictivo . Como resultado del procesamiento, los datos brutos a veces terminan colocándose en una base de datos , lo que permite que los datos brutos se vuelvan accesibles para un procesamiento y análisis posteriores de varias formas diferentes.

Tim Berners-Lee (inventor de la World Wide Web ) sostiene que compartir datos en bruto es importante para la sociedad. Inspirado por un artículo de Rufus Pollock, de la Open Knowledge Foundation, su llamamiento a la acción es "Datos en bruto ahora", lo que significa que todo el mundo debería exigir que los gobiernos y las empresas compartan los datos que recogen como datos en bruto. Señala que "los datos impulsan una gran cantidad de lo que ocurre en nuestras vidas... porque alguien toma los datos y hace algo con ellos". Para Berners-Lee, es esencialmente a partir de este intercambio de datos en bruto que surgirán los avances en la ciencia. Los defensores de los datos abiertos argumentan que una vez que los ciudadanos y las organizaciones de la sociedad civil tengan acceso a los datos de las empresas y los gobiernos, esto permitirá a los ciudadanos y las ONG realizar su propio análisis de los datos, lo que puede empoderar a las personas y a la sociedad civil. Por ejemplo, un gobierno puede afirmar que sus políticas están reduciendo la tasa de desempleo , pero un grupo de defensa de la pobreza puede tener la posibilidad de hacer que sus econometristas realicen su propio análisis de los datos en bruto, lo que puede llevar a este grupo a sacar conclusiones diferentes sobre el conjunto de datos.

Véase también

Referencias

  1. ^ abc Kitchin, Rob (2014). La revolución de los datos . Estados Unidos: Sage. pág. 6.

Lectura adicional