stringtranslate.com

Conjunto de datos de flores de iris.

Diagrama de dispersión del conjunto de datos.

El conjunto de datos de la flor de Iris o conjunto de datos de Fisher's Iris es un conjunto de datos multivariado utilizado y hecho famoso por el estadístico y biólogo británico Ronald Fisher en su artículo de 1936 El uso de mediciones múltiples en problemas taxonómicos como ejemplo de análisis discriminante lineal . [1] A veces se le llama conjunto de datos de Iris de Anderson porque Edgar Anderson recopiló los datos para cuantificar la variación morfológica de las flores de Iris de tres especies relacionadas. [2] Dos de las tres especies fueron recolectadas en la península de Gaspé "todas del mismo pasto, recolectadas el mismo día y medidas al mismo tiempo por la misma persona con el mismo aparato". [3]

El conjunto de datos consta de 50 muestras de cada una de las tres especies de Iris ( Iris setosa , Iris virginica e Iris versicolor ). De cada muestra se midieron cuatro características : el largo y el ancho de los sépalos y pétalos , en centímetros. Basándose en la combinación de estas cuatro características, Fisher desarrolló un modelo discriminante lineal para distinguir las especies entre sí. El artículo de Fisher se publicó en Annals of Eugenics (hoy Annals of Human Genetics ). [1]

Uso del conjunto de datos

Agrupación de k-medias insatisfactoria (los datos no se pueden agrupar en las clases conocidas) y especies reales visualizadas usando ELKI
Un ejemplo del llamado "mapa metropolitano" para el conjunto de datos Iris [4] Sólo una pequeña fracción de Iris-virginica se mezcla con Iris-versicolor . Todas las demás muestras de las diferentes especies de Iris pertenecen a los diferentes nodos.

Originalmente utilizado como un conjunto de datos de ejemplo al que se aplicó el análisis discriminante lineal de Fisher , se convirtió en un caso de prueba típico para muchas técnicas de clasificación estadística en el aprendizaje automático , como las máquinas de vectores de soporte . [5]

Sin embargo , el uso de este conjunto de datos en el análisis de conglomerados no es común, ya que el conjunto de datos sólo contiene dos conglomerados con una separación bastante obvia. Uno de los grupos contiene Iris setosa , mientras que el otro grupo contiene tanto Iris virginica como Iris versicolor y no es separable sin la información de especies que utilizó Fisher. Esto hace que el conjunto de datos sea un buen ejemplo para explicar la diferencia entre técnicas supervisadas y no supervisadas en la minería de datos : el modelo discriminante lineal de Fisher sólo se puede obtener cuando se conocen las especies del objeto: las etiquetas de clase y los grupos no son necesariamente los mismos. [6]

Sin embargo, las tres especies de Iris son separables en la proyección del componente principal no lineal y ramificado. [7] El conjunto de datos se aproxima mediante el árbol más cercano con alguna penalización por el número excesivo de nodos, flexiones y estiramientos. Luego se construye el llamado "mapa del metro". [4] Los puntos de datos se proyectan en el nodo más cercano. Para cada nodo se elabora el diagrama circular de los puntos proyectados. El área del pastel es proporcional al número de puntos proyectados. Del diagrama (izquierda) se desprende claramente que la mayoría absoluta de las muestras de las diferentes especies de Iris pertenecen a los diferentes nodos. Sólo una pequeña fracción de Iris-virginica se mezcla con Iris-versicolor (los nodos mixtos de color azul verdoso en el diagrama). Por lo tanto, las tres especies de Iris ( Iris setosa , Iris virginica e Iris versicolor ) son separables mediante procedimientos no supervisados ​​de análisis de componentes principales no lineales . Para discriminarlos, basta con seleccionar los nodos correspondientes en el árbol principal.

conjunto de datos

Iris setosa

El conjunto de datos contiene un conjunto de 150 registros bajo cinco atributos: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo y especie.

iris versicolor
iris virginica
Biplot de mapa de espectro del conjunto de datos del iris de Fisher

El conjunto de datos del iris se utiliza ampliamente como conjunto de datos para principiantes con fines de aprendizaje automático. El conjunto de datos está incluido en R base y Python en la biblioteca de aprendizaje automático scikit-learn , para que los usuarios puedan acceder a él sin tener que buscar una fuente.

Se han publicado varias versiones del conjunto de datos. [8]

Código R que ilustra el uso

El código R de ejemplo que se muestra a continuación reproduce el diagrama de dispersión que se muestra en la parte superior de este artículo:

# Mostrar el iris del conjunto de datos # ¿Mostrar la página de ayuda con información sobre el conjunto de datos ? iris# Crear diagramas de dispersión de todas las combinaciones por pares de las 4 variables en los pares del conjunto de datos ( iris [ 1 : 4 ], main = "Iris Data (red=setosa,green=versicolor,blue=virginica)" , pch = 21 , bg = c ( "rojo" , "verde3" , "azul" ) [ sin clase ( iris $ Especie )])   

Código Python que ilustra el uso

desde  sklearn.datasets  importar  load_irisiris  =  cargar_iris () iris

Este código da:

{ 'datos' :  matriz ([[ 5.1 ,  3.5 ,  1.4 ,  0.2 ],  [ 4.9 ,  3. ,  1.4 ,  0.2 ],  [ 4.7 ,  3.2 ,  1.3 ,  0.2 ],  [ 4.6 ,  3.1 ,  1.5 ,  0.2 ], . .. 'objetivo' :  matriz ([ 0 ,  0 ,  0 ,  ...  1 ,  1 ,  1 ,  ...  2 ,  2 ,  2 ,  ... 'target_names' :  matriz ([ 'setosa' ,  'versicolor' ,  'virginica' ],  dtype = '<U10' ), ... }

Ver también

Referencias

  1. ^ ab RA Fisher (1936). "El uso de múltiples mediciones en problemas taxonómicos". Anales de la eugenesia . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
  2. ^ Édgar Anderson (1936). "El problema de las especies en Iris". Anales del Jardín Botánico de Missouri . 23 (3): 457–509. doi :10.2307/2394164. JSTOR  2394164.
  3. ^ Édgar Anderson (1935). "Los lirios de la península de Gaspé". Boletín de la Sociedad Estadounidense del Iris . 59 : 2–5.
  4. ^ ab AN Gorban , A. Zinovyev. Principales variedades y gráficos en la práctica: de la biología molecular a los sistemas dinámicos, Revista Internacional de Sistemas Neurales, vol. 20, núm. 3 (2010) 219–232.
  5. ^ "Repositorio de aprendizaje automático de la UCI: conjunto de datos de Iris". archive.ics.uci.edu . Consultado el 1 de diciembre de 2017 .
  6. ^ Inés Färber; Stephan Günnemann; Hans-Peter Kriegel ; Peer Kröger; Emmanuel Muller; Erich Schubert; Thomas Seidl; Arturo Zimek (2010). "Sobre el uso de etiquetas de clase en la evaluación de agrupaciones" (PDF) . En Xiaoli Z. Fern; Ian Davidson; Jennifer Dy (eds.). MultiClust: descubrimiento, resumen y uso de múltiples agrupaciones . ACM SIGKDD .
  7. ^ AN Gorban, NR Sumner y AY Zinovyev, Gramáticas topológicas para la aproximación de datos, Applied Mathematics Letters Volumen 20, Número 4 (2007), 382-386.
  8. ^ Bezdek, JC; Keller, JM; Krishnapuram, R.; Kuncheva, LI ; Pal, NR (1999). "¿Se mantendrán los datos reales del iris?". Transacciones IEEE en sistemas difusos . 7 (3): 368–369. doi : 10.1109/91.771092.

Seliyana