Datos sin procesar

Busque datos sin procesar en Wikcionario, el diccionario gratuito.

Los datos brutos , también conocidos como datos primarios , son datos (p. ej., números, lecturas de instrumentos, cifras, etc.) recopilados de una fuente. En el contexto de los exámenes, los datos brutos podrían describirse como una puntuación bruta (después de las puntuaciones de las pruebas ).

Si un científico instala un termómetro computarizado que registra la temperatura de una mezcla química en un tubo de ensayo cada minuto, la lista de lecturas de temperatura de cada minuto, impresas en una hoja de cálculo o vistas en una pantalla de computadora, son "datos sin procesar". Los datos brutos no han sido sometidos a procesamiento, "limpieza" por parte de los investigadores para eliminar valores atípicos , errores obvios de lectura de instrumentos o errores de entrada de datos, ni a ningún análisis (por ejemplo, determinación de aspectos de tendencia central como el resultado promedio o mediano ). Además, los datos sin procesar no han sido sujetos a ninguna otra manipulación por parte de un programa de software o de un investigador, analista o técnico humano. También se les conoce como datos primarios . Los datos sin procesar son un término relativo (ver datos ), porque incluso una vez que un equipo de investigadores los ha "limpiado" y procesado, otro equipo puede considerar estos datos procesados como "datos sin procesar" para otra etapa de la investigación. Los datos brutos pueden introducirse en un programa informático o utilizarse en procedimientos manuales, como el análisis de estadísticas de una encuesta . El término "datos sin procesar" puede referirse a los datos binarios en dispositivos de almacenamiento electrónico, como unidades de disco duro (también denominados "datos de bajo nivel").

Generando datos

Los datos tienen dos formas de ser creados o elaborados. El primero es lo que se denomina "datos capturados" ^[1] y se encuentra mediante una investigación o análisis intencionado. El segundo se denomina "datos de escape" ^[1] y normalmente los recopilan máquinas o terminales como función secundaria. Por ejemplo, las cajas registradoras, los teléfonos inteligentes y los velocímetros cumplen una función principal, pero pueden recopilar datos como una tarea secundaria. Los datos exhaustivos suelen ser demasiado grandes o de poca utilidad para procesarlos y se vuelven "transitorios" o se desechan. ^[1]

Ejemplos

En informática , los datos sin procesar pueden tener los siguientes atributos: posiblemente contengan errores humanos, de máquina o de instrumentos, es posible que no estén validados; puede estar en formatos de diferentes áreas ( coloquiales ); sin codificar o sin formato; o algunas entradas pueden ser "sospechosas" (por ejemplo, valores atípicos ) y requerir confirmación o cita . Por ejemplo, una hoja de entrada de datos puede contener fechas como datos sin procesar en muchas formas: "31 de enero de 1999", "31/01/1999", "31/1/99", "31 de enero" o "hoy". Una vez capturados, estos datos sin procesar pueden procesarse y almacenarse en un formato normalizado, tal vez una fecha juliana , para que sea más fácil de interpretar para las computadoras y los humanos durante el procesamiento posterior. Los datos sin procesar (a veces llamados coloquialmente datos de "fuentes" o datos "de huevo", estos últimos son una referencia a que los datos están "crudos", es decir, "sin procesar", como un huevo crudo ) son los datos de entrada para el procesamiento. Se hace una distinción entre datos e información , en el sentido de que la información es el producto final del procesamiento de datos . Los datos sin procesar que han sido procesados a veces se denominan datos "cocidos" en un sentido coloquial. ^{[ dudoso – discutir ]} Aunque los datos sin procesar tienen el potencial de transformarse en " información ", se requiere extracción, organización, análisis y formato para la presentación antes de que los datos sin procesar puedan transformarse en información utilizable.

Por ejemplo, un terminal de punto de venta (terminal POS, una caja registradora computarizada ) en un supermercado concurrido recopila cada día enormes volúmenes de datos sin procesar sobre las compras de los clientes. Sin embargo, esta lista de artículos comestibles y sus precios y la hora y fecha de compra no proporciona mucha información hasta que se procesa. Una vez procesados y analizados por un programa de software o incluso por un investigador que utiliza lápiz, papel y una calculadora , estos datos sin procesar pueden indicar los artículos particulares que compra cada cliente, cuándo los compra y a qué precio; además, un analista o gerente podría calcular las ventas totales promedio por cliente o el gasto promedio por día de la semana por hora. Estos datos procesados y analizados proporcionan información al gerente, que luego podría utilizar para ayudarla a determinar, por ejemplo, cuántos cajeros contratar y en qué horarios. Luego, dicha información podría convertirse en datos para su posterior procesamiento, por ejemplo como parte de una campaña de marketing predictivo . Como resultado del procesamiento, los datos sin procesar a veces terminan siendo colocados en una base de datos , lo que permite que los datos sin procesar sean accesibles para su posterior procesamiento y análisis de muchas maneras diferentes.

Tim Berners-Lee (inventor de la World Wide Web ) sostiene que compartir datos sin procesar es importante para la sociedad. Inspirado por una publicación de Rufus Pollock de Open Knowledge Foundation, su llamado a la acción es "Raw Data Now", lo que significa que todos deberían exigir que los gobiernos y las empresas compartan los datos que recopilan como datos sin procesar. Señala que "los datos impulsan una gran cantidad de lo que sucede en nuestras vidas... porque alguien toma los datos y hace algo con ellos". Para Berners-Lee, es esencialmente a partir de este intercambio de datos sin procesar que surgirán los avances científicos. Los defensores de los datos abiertos argumentan que una vez que los ciudadanos y las organizaciones de la sociedad civil tengan acceso a los datos de las empresas y los gobiernos, permitirán a los ciudadanos y a las ONG realizar sus propios análisis de los datos, lo que puede empoderar a las personas y a la sociedad civil. Por ejemplo, un gobierno puede afirmar que sus políticas están reduciendo la tasa de desempleo , pero un grupo de defensa de la pobreza puede hacer que sus econometristas hagan su propio análisis de los datos brutos, lo que puede llevar a este grupo a sacar conclusiones diferentes sobre los datos. colocar.

Ver también

Puntuación estándar

Referencias

^ abc Kitchin, Rob (2014). La revolución de los datos . Estados Unidos: Sabio. pag. 6.

Otras lecturas

Danos los datos sin procesar y dánoslos ahora: la publicación del blog de Rufus Pollock que inspiró a Tim Berners-Lee
Tim Berners-Lee le da a la Web una nueva definición