El diagrama de bolsa consta de tres polígonos anidados , llamados "bolsa", "cerca" y "bucle".
El polígono interior, llamado bolsa , se construye sobre la base de la profundidad de Tukey , el menor número de observaciones que puede contener un semiplano que también contenga un punto determinado. [4] Contiene como máximo el 50% de los puntos de datos.
El más externo de los tres polígonos, llamado valla , no se dibuja como parte del diagrama de bolsa, sino que se utiliza para construirlo. Se forma inflando la bolsa en un factor determinado (normalmente 3). Las observaciones fuera de la valla se marcan como valores atípicos . [5]
Las observaciones que no están marcadas como valores atípicos están rodeadas por un bucle , el casco convexo de las observaciones dentro de la valla. [6]
Se utiliza un símbolo de asterisco (*) cerca del centro del gráfico para marcar la mediana de profundidad, el punto con la profundidad de Tukey más alta posible. Las observaciones entre la bolsa y la cerca están marcadas por segmentos de línea, en una línea hasta la mediana de profundidad, que los conecta con la bolsa. La versión tridimensional consta de una bolsa interior y otra exterior. [7] La bolsa exterior debe dibujarse en colores transparentes para que la bolsa interior permanezca visible.
Propiedades
El diagrama de bolsa es invariante ante transformaciones afines del plano y robusto frente a valores atípicos. [8]
Referencias
^ Rousseeuw, Peter J.; Rutinas I.; Tukey JW (1999). "El diagrama de bolsa: un diagrama de caja bivariado". El estadístico estadounidense . 53 (4): 382–387. doi :10.1080/00031305.1999.10474494.
^ Ronald K. Pearson (1 de abril de 2005). Minería de datos imperfectos: cómo lidiar con la contaminación y los registros incompletos. SIAM. págs.204–. ISBN978-0-89871-582-8.
^ Dominique Haughton ; Jonathan Haughton (18 de septiembre de 2011). Análisis de los niveles de vida: desarrollo a través de la lente de los datos de las encuestas de hogares. Saltador. págs.14–. ISBN978-1-4614-0385-2.
^ Sophie Dabo-Niang; Frédéric Ferraty (21 de mayo de 2008). Estadísticas Funcionales y Operativas. Saltador. págs.204–. ISBN978-3-7908-2062-1.
^ John C. Gower; Sugnet Gardner Lubbe; Niel J. Le Roux (23 de febrero de 2011). Comprender los biplots. John Wiley e hijos. págs.59–. ISBN978-1-119-97290-7.
^ Prabhanjan Narayanachar Tattar (24 de julio de 2013). R Desarrollo de aplicaciones estadísticas mediante ejemplo Guía para principiantes. Packt Publishing Ltd. págs. ISBN978-1-84951-945-8.
^ Kruppa, Jochen J.; Jung K. (2017). "Identificación automatizada de valores atípicos multigrupo en datos moleculares de alto rendimiento mediante diagramas de bolsa y diagramas de gemas". Bioinformática BMC . 18 : 232. doi : 10.1186/s12859-017-1645-5 . PMC 5414140 . PMID 28464790.
^ Rajeev Raman; Robert Sedgewick; Matthias F. Stallmann (1 de enero de 2006). Actas del Octavo Taller sobre Experimentos e Ingeniería de Algoritmos y el Tercer Taller sobre Algorítmica Analítica y Combinatoria. SIAM. págs.62–. ISBN978-0-89871-610-8.