stringtranslate.com

Grand Tour (visualización de datos)

El Grand Tour es una técnica desarrollada originalmente por Daniel Asimov entre 1980 y 1985 que se utiliza para explorar datos estadísticos multivariados mediante una animación. La animación, o "película", consiste en una serie de vistas distintas de los datos, vistas desde diferentes direcciones, que se muestran en una pantalla de ordenador y que parecen cambiar continuamente y se acercan cada vez más a todas las vistas posibles. Esto permite una evaluación humana o por ordenador de estas vistas, con el objetivo de detectar patrones que transmitan información útil sobre los datos.

Esta técnica es similar a la que hacen muchos visitantes de museos cuando se encuentran con una escultura abstracta compleja: caminan alrededor de ella para verla desde todas las direcciones y entenderla mejor. El sistema visual humano percibe la información visual como un patrón en la retina, que es bidimensional. Por lo tanto, caminar alrededor de la escultura para entenderla mejor crea una secuencia temporal de imágenes bidimensionales en el cerebro.

Los datos multivariados que constituyen la entrada original para cualquier visualización de un gran recorrido son un conjunto (finito) de puntos en un espacio euclidiano de alta dimensión. Este tipo de conjunto surge de manera natural cuando se recopilan datos. Supongamos que, para una población de 1000 personas, se pide a cada una de ellas que proporcione su edad, altura, peso y cantidad de pelos en la nariz. Por lo tanto, a cada miembro de la población se le asocia un cuádruple ordenado de números. Dado que el espacio euclidiano n -dimensional se define como todas las n-tuplas ordenadas de números, esto significa que los datos de 1000 personas corresponden a 1000 puntos en un espacio euclidiano de cuatro dimensiones.

El gran recorrido convierte la complejidad espacial del conjunto de datos multivariados en complejidad temporal mediante el uso de vistas bidimensionales relativamente simples de los datos proyectados como fotogramas individuales de la película (a veces se las denomina "vistas de datos"). Las proyecciones se elegirán normalmente de modo que no cambien demasiado rápido, lo que significa que la película de los datos parecerá continua para un observador humano.

Un "método" de gran recorrido es un algoritmo para asignar una secuencia de proyecciones sobre planos (normalmente) bidimensionales a cualquier dimensión dada del espacio euclidiano. Esto permite proyectar cualquier conjunto de datos multivariados en particular sobre esa secuencia de planos bidimensionales y, por lo tanto, mostrarlos en la pantalla de una computadora uno tras otro, de modo que el efecto es crear una película de los datos.

(Tenga en cuenta que, una vez que los datos se han proyectado en un plano bidimensional determinado, para mostrarlos en la pantalla de una computadora es necesario elegir las direcciones en ese plano bidimensional que corresponderán a las direcciones horizontal y vertical en la pantalla de la computadora. Este es típicamente un detalle menor. Pero la elección de las direcciones horizontal y vertical debería hacerse idealmente de modo de minimizar cualquier "giro" aparente innecesario de la vista de datos bidimensionales).

Descripción técnica

Cada "vista" (es decir, fotograma) de la animación es una proyección ortogonal del conjunto de datos sobre un subespacio bidimensional (del espacio euclidiano R p donde residen los datos). Los subespacios se seleccionan dando pequeños pasos a lo largo de una curva continua, parametrizada por el tiempo, en el espacio de todos los subespacios bidimensionales de R p (conocido como el Grassmanniano G (2, p )). Para mostrar estas vistas en una pantalla de computadora, es necesario elegir una posición rotada particular de cada vista (en el plano de la pantalla de la computadora) para su visualización. Esto hace que las posiciones de los puntos de datos en la pantalla de la computadora parezcan variar continuamente. Asimov demostró que estos subespacios se pueden seleccionar de modo que el conjunto de ellos (hasta el tiempo  t ) esté cada vez más cerca de todos los puntos en G (2, p ), de modo que si se permitiera que la película del gran recorrido se prolongue indefinidamente, el conjunto de subespacios mostrados correspondería a un subconjunto denso de G (2, p ). [1] [2]

Software

Referencias

  1. ^ Asimov, Daniel. (1985). El gran recorrido: una herramienta para visualizar datos multidimensionales. Revista SIAM sobre computación científica y estadística , 6(1), 128–143.
  2. ^ Huh, Moon Yul y Kiyeol Kim. (2002) Visualización de datos multidimensionales utilizando modificaciones del Grand Tour. Journal of Applied Statistics 29.5: 721–728.