stringtranslate.com

Reducción de datos

La reducción de datos es la transformación de información digital numérica o alfabética derivada empírica o experimentalmente en una forma corregida, ordenada y simplificada. El propósito de la reducción de datos puede ser doble: reducir el número de registros de datos eliminando datos no válidos o producir datos resumidos y estadísticas en diferentes niveles de agregación para diversas aplicaciones. [1] La reducción de datos no significa necesariamente pérdida de información. Por ejemplo, el índice de masa corporal reduce dos dimensiones (cuerpo y masa) en una sola medida, sin que se pierda ninguna información en el proceso.

Cuando la información se deriva de las lecturas de los instrumentos, también puede haber una transformación de forma analógica a digital . Cuando los datos ya están en forma digital, la "reducción" de los datos generalmente implica cierta edición, escalado , codificación , clasificación , cotejo y producción de resúmenes tabulares. Cuando las observaciones son discretas pero el fenómeno subyacente es continuo, a menudo se necesitan suavizado e interpolación . La reducción de datos a menudo se lleva a cabo en presencia de errores de lectura o medición . Se necesita alguna idea de la naturaleza de estos errores antes de poder determinar el valor más probable.

Un ejemplo en astronomía es la reducción de datos en el satélite Kepler . Este satélite graba imágenes de 95 megapíxeles una vez cada seis segundos, generando decenas de megabytes de datos por segundo, lo que es órdenes de magnitud más que el ancho de banda de enlace descendente de 550  kB/s . La reducción de datos a bordo comprende la co-adición de los fotogramas sin procesar durante treinta minutos, reduciendo el ancho de banda en un factor de 300. Además, se preseleccionan los objetivos interesantes y solo se procesan los píxeles relevantes, lo que supone el 6% del total. Estos datos reducidos se envían luego a la Tierra, donde se procesan más.

También se han llevado a cabo investigaciones sobre el uso de la reducción de datos en dispositivos portátiles (inalámbricos) para aplicaciones de diagnóstico y monitoreo de la salud. Por ejemplo, en el contexto del diagnóstico de la epilepsia , se ha utilizado la reducción de datos para aumentar la vida útil de la batería de un dispositivo de EEG portátil seleccionando y transmitiendo únicamente datos de EEG que sean relevantes para el diagnóstico y descartando la actividad de fondo. [2]

Tipos de reducción de datos

Reducción de dimensionalidad

Cuando la dimensionalidad aumenta, los datos se vuelven cada vez más escasos mientras que la densidad y la distancia entre los puntos, fundamentales para la agrupación y el análisis de valores atípicos, se vuelven menos significativas. La reducción de la dimensionalidad ayuda a reducir el ruido en los datos y permite una visualización más sencilla, como el ejemplo siguiente, donde los datos tridimensionales se transforman en bidimensionales para mostrar las partes ocultas. Un método de reducción de la dimensionalidad es la transformada wavelet , en la que los datos se transforman para preservar la distancia relativa entre los objetos en diferentes niveles de resolución, y se utiliza a menudo para la compresión de imágenes . [3]

Un ejemplo de reducción de dimensionalidad.

Reducción de numerosidad

Este método de reducción de datos reduce el volumen de datos al elegir formas alternativas y más pequeñas de representación de datos. La reducción de numerosidad se puede dividir en dos grupos: métodos paramétricos y no paramétricos. Los métodos paramétricos (regresión, por ejemplo) suponen que los datos se ajustan a algún modelo, estiman los parámetros del modelo, almacenan solo los parámetros y descartan los datos. Un ejemplo de esto se muestra en la imagen a continuación, donde el volumen de datos a procesar se reduce en función de criterios más específicos. Otro ejemplo sería un modelo log-lineal , que obtiene un valor en un punto en el espacio mD como el producto de los subespacios marginales apropiados. Los métodos no paramétricos no suponen modelos; algunos ejemplos son los histogramas, la agrupación, el muestreo, etc. [4]

Un ejemplo de reducción de datos mediante reducción de numerosidad

Modelado estadístico

La reducción de datos se puede lograr asumiendo un modelo estadístico para los datos. Los principios clásicos de reducción de datos incluyen suficiencia , verosimilitud , condicionalidad y equivarianza . [5]

Véase también

Referencias

  1. ^ "Manual de recopilación de datos sobre tiempos de viaje" (PDF) . Consultado el 6 de diciembre de 2020 .
  2. ^ Iranmanesh, S.; Rodriguez-Villegas, E. (2017). "Un chip de reducción de datos analógico de 950 nW para sistemas de EEG portátiles en epilepsia". IEEE Journal of Solid-State Circuits . 52 (9): 2362–2373. Bibcode :2017IJSSC..52.2362I. doi :10.1109/JSSC.2017.2720636. hdl : 10044/1/48764 . S2CID  24852887.
  3. ^ Han, J.; Kamber, M.; Pei, J. (2011). "Minería de datos: conceptos y técnicas (3.ª ed.)" (PDF) . Consultado el 6 de diciembre de 2020 .
  4. ^ Han, J.; Kamber, M.; Pei, J. (2011). "Minería de datos: conceptos y técnicas (3.ª ed.)" (PDF) . Consultado el 6 de diciembre de 2020 .
  5. ^ Casella, George (2002). Inferencia estadística. Roger L. Berger. Australia: Thomson Learning. pp. 271–309. ISBN 0-534-24312-6.OCLC 46538638  .

Lectura adicional