stringtranslate.com

Análisis visual interactivo

El análisis visual interactivo ( IVA ) es un conjunto de técnicas para combinar el poder computacional de las computadoras con las capacidades perceptivas y cognitivas de los humanos, con el fin de extraer conocimiento de conjuntos de datos grandes y complejos. Las técnicas dependen en gran medida de la interacción del usuario y del sistema visual humano, y existen en la intersección entre el análisis visual y el big data . Es una rama de la visualización de datos . El IVA es una técnica adecuada para analizar datos de alta dimensión que tienen una gran cantidad de puntos de datos, donde los gráficos simples y las técnicas no interactivas brindan una comprensión insuficiente de la información. [1]

Estas técnicas implican observar conjuntos de datos a través de diferentes vistas correlacionadas y seleccionar y examinar iterativamente las características que el usuario considera interesantes. El objetivo de IVA es obtener conocimiento que no es evidente a partir de un conjunto de datos, generalmente en forma de tabla. Esto puede implicar generar, probar o verificar hipótesis, o simplemente explorar el conjunto de datos para buscar correlaciones entre diferentes variables.

Historia

La visualización de Focus + Context y sus técnicas relacionadas se remontan a la década de 1970. [2] Los primeros intentos de combinar estas técnicas para el análisis visual interactivo se produjeron en el sistema de visualización WEAVE para simulación cardíaca [3] en el año 2000. SimVis apareció en 2003, [4] y varios proyectos de doctorado han explorado el concepto desde entonces, en particular Helmut Doleisch en 2004, [5] Johannes Kehrer en 2011 [6] y Zoltan Konyha en 2013. [7] ComVis, que se utiliza en la comunidad de visualización, apareció en 2008. [8]

Lo esencial

El objetivo del análisis visual interactivo es descubrir información en los datos que no es evidente a primera vista. El objetivo es pasar de los datos en sí a la información contenida en ellos, y en última instancia descubrir conocimientos que no eran evidentes al observar los números en bruto.

La forma más básica de IVA es utilizar vistas múltiples coordinadas [9] que muestren diferentes columnas de nuestro conjunto de datos. Se requieren al menos dos vistas para IVA. Las vistas suelen estar entre las herramientas comunes de visualización de información , como histogramas , diagramas de dispersión o coordenadas paralelas , pero también es posible utilizar vistas renderizadas de volumen si esto es apropiado para los datos. [6] Normalmente, una vista mostrará las variables independientes del conjunto de datos (por ejemplo, tiempo o ubicación espacial), mientras que las otras muestran las variables dependientes (por ejemplo, temperatura, presión o densidad de población) en relación entre sí. Si las vistas están vinculadas, el usuario puede seleccionar puntos de datos en una vista y hacer que los puntos de datos correspondientes se resalten automáticamente en las otras vistas. Esta técnica, que permite de forma intuitiva la exploración de propiedades de mayor dimensión de los datos, se conoce como vinculación y cepillado . [10] [11]

La selección realizada en una de las vistas no tiene por qué ser binaria. Los paquetes de software para IVA pueden permitir un “grado de interés” gradual [5] [6] [12] en la selección, donde los puntos de datos se resaltan gradualmente a medida que pasamos de un interés bajo a uno alto. Esto permite un aspecto inherente de “enfoque+contexto” [13] en la búsqueda de información. Por ejemplo, al examinar un tumor en un conjunto de datos de imágenes por resonancia magnética , el tejido que rodea al tumor también puede ser de algún interés para el operador.

El ciclo del IVA

El análisis visual interactivo es un proceso iterativo. Los descubrimientos realizados después de pasar los datos por el histograma y observar las vistas vinculadas se pueden utilizar como punto de partida para repetir el proceso, lo que conduce a una forma de desglose de la información. Como ejemplo, considere el análisis de datos de una simulación de un motor de combustión. El usuario pasa el histograma de la distribución de temperatura y descubre que una parte específica de un cilindro tiene temperaturas peligrosamente altas. Esta información se puede utilizar para formular la hipótesis de que todos los cilindros tienen un problema de disipación de calor. Esto se puede verificar pasando el histograma de la misma región en todos los demás cilindros y viendo en el histograma de temperatura que estos cilindros también tienen temperaturas más altas de lo esperado. [14]

Modelo de datos

La fuente de datos para el IVA suele ser datos tabulares, en los que los datos se representan en columnas y filas. Las variables de datos se pueden dividir en dos categorías diferentes: variables independientes y dependientes . Las variables independientes representan el dominio de los valores observados, como por ejemplo el tiempo y el espacio. Las variables dependientes representan los datos que se observan, por ejemplo la temperatura, la presión o la altura. [14]

IVA puede ayudar al usuario a descubrir información y conocimiento sobre fuentes de datos que tienen menos dimensiones, así como conjuntos de datos que tienen una gran cantidad de dimensiones. [2]

Niveles de IVA

Las herramientas de IVA se pueden dividir en varios niveles de complejidad diferentes. Estos niveles proporcionan al usuario diferentes herramientas de interacción para analizar los datos. Para la mayoría de los usos, el primer nivel será suficiente y también es el nivel que proporciona al usuario la respuesta más rápida a la interacción. Los niveles superiores permiten descubrir relaciones más sutiles en los datos. Sin embargo, esto requiere un mayor conocimiento sobre las herramientas y el proceso de interacción tiene un tiempo de respuesta más largo. [1]

Nivel base

La forma más simple de IVA es el nivel básico, que consiste en aplicar pinceladas y vincular . Aquí el usuario puede configurar varias vistas con diferentes variables del conjunto de datos y marcar un área interesante en una de las vistas. Los puntos de datos correspondientes a la selección se marcan automáticamente en las otras vistas. Se puede obtener mucha información de este nivel de IVA. Para conjuntos de datos donde las relaciones entre las variables son razonablemente simples, esta técnica suele ser suficiente para que el usuario alcance el nivel requerido de comprensión. [7]

Segundo nivel

El uso de pinceles y la vinculación con combinaciones lógicas de pinceles es una forma más avanzada de IVA. Esto permite al usuario marcar varias áreas en una o varias vistas y combinar estas áreas con los operadores lógicos: y, o, no. Esto permite explorar más profundamente el conjunto de datos y ver más información oculta. [7] Un ejemplo simple sería el análisis de datos meteorológicos: el analista podría querer descubrir regiones que tengan temperaturas cálidas y bajas precipitaciones.

Tercer nivel

La combinación lógica de selecciones puede no ser suficiente para descubrir información significativa del conjunto de datos. Existen múltiples técnicas disponibles que hacen que las relaciones ocultas en los datos sean más evidentes. Una de ellas es la derivación de atributos. Esto permite al usuario derivar atributos adicionales de los datos, como derivados, información de agrupamiento u otras propiedades estadísticas . En principio, el operador puede realizar cualquier conjunto de cálculos sobre los datos sin procesar. Los atributos derivados pueden luego vincularse y modificarse como cualquier otro atributo. [7]

La segunda herramienta del nivel tres de IVA son las técnicas avanzadas de cepillado, como el cepillado angular, el cepillado de similitud o el cepillado de percentiles. Estas herramientas de cepillado seleccionan puntos de datos de una manera más avanzada que la selección simple de "apuntar y hacer clic". El cepillado avanzado genera una respuesta más rápida que la derivación de atributos, pero tiene una curva de aprendizaje más alta y requiere una comprensión más profunda del conjunto de datos. [7]

Cuarto nivel

El cuarto nivel de IVA es específico para cada conjunto de datos y varía según el conjunto de datos y el propósito del análisis. Cualquier atributo calculado que sea específico de los datos en consideración pertenece a esta categoría. Un ejemplo del análisis de datos de flujo sería la detección y categorización de vórtices u otras estructuras presentes en los datos de flujo. Esto significa que las técnicas de IVA de cuarto nivel deben adaptarse individualmente a la aplicación específica. Después de la detección de características de orden superior, los atributos calculados se conectarían al conjunto de datos original y se someterían a la técnica normal de vinculación y cepillado. [1]

Patrones de IVA

El concepto de "vinculación y cepillado" (selección) del IVA se puede utilizar entre diferentes tipos de variables en el conjunto de datos. El patrón que debemos utilizar depende de qué aspecto de las correlaciones en el conjunto de datos sea de interés. [1] [15]

Localización de funciones

El hecho de seleccionar puntos de datos del conjunto de variables dependientes (por ejemplo, temperatura) y ver dónde aparecen estos puntos de datos entre las variables independientes (por ejemplo, espacio o tiempo) se denomina "localización de características". Con la localización de características, el usuario puede identificar fácilmente la ubicación de las características en el conjunto de datos. Algunos ejemplos de un conjunto de datos meteorológicos serían qué regiones tienen un clima cálido o qué épocas del año tienen mucha precipitación. [1] [15]

Investigación local

Si se seleccionan las variables independientes y se busca la conexión correspondiente con una vista dependiente, se habla de "investigación local". Esto permite investigar las características de, por ejemplo, una región específica o un momento determinado. En el caso de los datos meteorológicos, podríamos, por ejemplo, descubrir la distribución de la temperatura durante los meses de invierno. [1] [15]

Análisis multivariado

El análisis multivariable consiste en pasar por alto las variables dependientes y observar la conexión con otras variables dependientes. Esto se podría utilizar, por ejemplo, para averiguar si las altas temperaturas están correlacionadas con la presión, pasando por alto las altas temperaturas y observando una vista vinculada de las distribuciones de presión.

Dado que cada una de las vistas vinculadas suele tener dos o más dimensiones, el análisis multivariado puede descubrir implícitamente características de mayor dimensión de los datos que no serían fácilmente evidentes a partir de, por ejemplo, un diagrama de dispersión simple. [1] [15]

Véase también

Referencias

  1. ^ abcdefg Análisis visual interactivo de datos científicos. Steffen Oeltze, Helmut Doleisch, Helwig Hauser, Gunther Weber. Presentación en IEEE VisWeek 2012, Seattle (WA), EE. UU.
  2. ^ ab Hauser, Helwig. "Generalización de la visualización de enfoque y contexto". Visualización científica: la extracción visual de conocimiento a partir de datos. Springer Berlin Heidelberg, 2006. 305-327.
  3. ^ Gresh, Donna L., et al. "WEAVE: Un sistema para vincular visualmente visualizaciones tridimensionales y estadísticas, aplicado a datos de medición y simulación cardíaca". Actas de la conferencia sobre visualización'00. IEEE Computer Society Press, 2000.
  4. ^ Doleisch, Helmut, Martin Gasser y Helwig Hauser. "Especificación de características interactivas para la visualización de contexto y enfoque de datos de simulación complejos". Actas del simposio sobre visualización de datos de 2003. Eurographics Association, 2003.
  5. ^ ab Doleisch, Helmut. Análisis visual de datos de simulación complejos utilizando múltiples vistas heterogéneas. 2004.
  6. ^ abc Kehrer, Johannes. Análisis visual interactivo de datos científicos multifacéticos. Tesis doctoral, Departamento de Informática, Universidad de Bergen, Noruega, 2011.
  7. ^ abcde Konyha, Zoltán, et al. "Análisis visual interactivo de familias de curvas mediante agregación y derivación de datos". Actas de la 12.ª Conferencia internacional sobre gestión del conocimiento y tecnologías del conocimiento. ACM, 2012.
  8. ^ Matkovic, Krešimir, et al. "ComVis: Un sistema de múltiples vistas coordinado para crear prototipos de nuevas tecnologías de visualización". Information Visualisation, 2008. IV'08. 12.ª Conferencia Internacional. IEEE, 2008
  9. ^ Roberts, Jonathan C. "Estado del arte: vistas múltiples y coordinadas en la visualización exploratoria". Vistas múltiples y coordinadas en la visualización exploratoria, 2007. CMV'07. Quinta Conferencia Internacional sobre IEEE, 2007.
  10. ^ Martin, Allen R. y Matthew O. Ward. "Pincelado de alta dimensión para la exploración interactiva de datos multivariados". Actas de la 6.ª Conferencia sobre visualización'95. IEEE Computer Society, 1995.
  11. ^ Keim, Daniel A. "Visualización de información y minería de datos visual". Visualización y gráficos por computadora, IEEE Transactions on 8.1 (2002): 1-8.
  12. ^ Doleisch, Helmut y Helwig Hauser. "Pincelado suave para visualización de datos de simulación en 3D con enfoque y contexto". Journal of WSCG 10.1 (2002): 147-154.
  13. ^ Lamping, John, Ramana Rao y Peter Pirolli. "Una técnica de enfoque y contexto basada en geometría hiperbólica para visualizar grandes jerarquías". Actas de la conferencia SIGCHI sobre factores humanos en sistemas informáticos. ACM Press/Addison-Wesley Publishing Co., 1995.
  14. ^ ab Konyha, Zoltan, et al. "Análisis visual interactivo de familias de gráficos de funciones". Visualización y gráficos por computadora, IEEE Transactions on 12.6 (2006): 1373-1385.
  15. ^ abcd Oeltze, Steffen, et al. "Análisis visual interactivo de datos de perfusión". Visualización y gráficos por computadora, IEEE Transactions on 13.6 (2007): 1392-1399.