stringtranslate.com

Visualización de tallo y hojas

Un diagrama de tallo y hojas de números primos menores de 100 muestra que los dígitos de las decenas más frecuentes son 0 y 1, mientras que el mínimo es 9.

Una visualización de tallo y hojas o diagrama de tallo y hojas es un dispositivo para presentar datos cuantitativos en un formato gráfico , similar a un histograma , para ayudar a visualizar la forma de una distribución . Evolucionaron a partir del trabajo de Arthur Bowley a principios del siglo XX y son herramientas útiles en el análisis exploratorio de datos . Los Stemplots se volvieron más utilizados en la década de 1980 después de la publicación del libro de John Tukey sobre análisis de datos exploratorios en 1977. [1] La popularidad durante esos años se puede atribuir a su uso de estilos tipográficos monoespaciados (máquina de escribir) que permitieron a la tecnología informática de la época para producir fácilmente los gráficos. Las capacidades gráficas superiores de las computadoras modernas han significado que estas técnicas se utilicen con menos frecuencia.

Este gráfico se ha implementado en Octave [2] y R. [3]

Un diagrama de tallo y hojas también se llama diagrama de tallo , pero este último término a menudo se refiere a otro tipo de gráfico. Un diagrama de tallo simple puede referirse a trazar una matriz de valores de y en un eje x común e identificar el valor de x común con una línea vertical y los valores de y individuales con símbolos en la línea. [4]

A diferencia de los histogramas, las presentaciones de tallo y hojas retienen los datos originales con al menos dos dígitos significativos y los ordenan, facilitando así el paso a la inferencia basada en el orden y a las estadísticas no paramétricas .

Construcción

Para construir un diagrama de tallo y hojas, primero se deben ordenar las observaciones en orden ascendente: esto se puede hacer más fácilmente si se trabaja a mano, construyendo un borrador del diagrama de tallo y hojas con las hojas sin clasificar y luego clasificando las hojas para producir la exhibición final de tallo y hojas. A continuación se muestra el conjunto ordenado de valores de datos que se utilizarán en el siguiente ejemplo:

44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106

A continuación, se debe determinar qué representarán los tallos y qué representarán las hojas. Normalmente, la hoja contiene el último dígito del número y el tallo contiene todos los demás dígitos. En el caso de números muy grandes, los valores de los datos se pueden redondear a un valor posicional particular (como las centenas) que se utilizará para las hojas. Los dígitos restantes a la izquierda del valor posicional redondeado se utilizan como raíz.

En este ejemplo, la hoja representa el lugar de las unidades y el tallo representará el resto del número (el lugar de las decenas y más).

La visualización de tallo y hojas se dibuja con dos columnas separadas por una línea vertical. Los tallos se enumeran a la izquierda de la línea vertical. Es importante que cada tallo aparezca solo una vez y que no se omita ningún número, incluso si eso significa que algunos tallos no tienen hojas. Las hojas se enumeran en orden creciente en una fila a la derecha de cada tallo.

Es importante tener en cuenta que cuando hay un número repetido en los datos (como dos 72), entonces el gráfico debe reflejarlo (por lo que el gráfico se vería como 7 | 2 2 5 6 7 cuando tenga los números 72 72 75 76 77).

Llave:
Unidad de hoja: 1,0
Unidad de vástago: 10,0

Es posible que sea necesario redondearlo para crear una exhibición de tallo y hojas. Con base en el siguiente conjunto de datos, se crearía el siguiente diagrama de tallo:

−23,678758, −12,45, −3,4, 4,43, 5,5, 5,678, 16,87, 24,7, 56,8

Para los números negativos, se coloca un negativo delante de la unidad raíz, que sigue siendo el valor X/10. Los números no enteros se redondean. Esto permite que el diagrama de tallo y hoja conserve su forma, incluso para conjuntos de datos más complicados. Como en este ejemplo a continuación:

Llave:

Uso

Las presentaciones de tallo y hojas son útiles para mostrar la densidad relativa y la forma de los datos, brindando al lector una descripción general rápida de la distribución. Conservan (la mayoría de) los datos numéricos sin procesar, a menudo con perfecta integridad. También son útiles para resaltar valores atípicos y encontrar la moda . Sin embargo, las presentaciones de tallo y hojas sólo son útiles para conjuntos de datos de tamaño moderado (alrededor de 15 a 150 puntos de datos). Con conjuntos de datos muy pequeños, una visualización de tallo y hojas puede ser de poca utilidad, ya que se requiere un número razonable de puntos de datos para establecer propiedades de distribución definitivas. Un diagrama de puntos puede ser más adecuado para dichos datos. Con conjuntos de datos muy grandes, una visualización de tallo y hojas quedará muy desordenada, ya que cada punto de datos debe representarse numéricamente. Un diagrama de caja o un histograma pueden resultar más apropiados a medida que aumenta el tamaño de los datos.

Uso no numérico

a│abdeghilmnrstwxyb│aeioyc│hd│aeioe│adefhlmnrstwxf|ayg│iouh│aeimoi│dfnostj│aok│aioyl│aiom│aeimouyn│aeouyo│bdefhikmnoprsuwxyp│aeioq│ir│es│hiott│aeiou│ghmnprstv│w│eox│iutu│aetuz│aeo

Las visualizaciones de tallo y hojas también se pueden utilizar para transmitir información no numérica. En este ejemplo de palabras válidas de dos letras en Collins Scrabble Words (la lista de palabras utilizadas en los torneos de Scrabble fuera de EE. UU.) con sus iniciales como raíces, se puede ver fácilmente que las tres iniciales más comunes son o , a y e . [5]

Notas

  1. ^ Tukey, John W. (1977). Análisis de datos exploratorios (1 ed.). Pearson. ISBN 0-201-07616-0.
  2. ^ Función en octava
  3. ^ Función en R
  4. ^ Ejemplos: funciones raíz de MATLAB y Matplotlib. No crean una exhibición de tallo y hojas.
  5. ^ Gideon Goldin, Palabras de Scrabble de dos letras visualizadas como diagrama de tallo y hoja, 1 de octubre de 2020

Referencias