El conjunto de datos de la flor de Iris o conjunto de datos de Fisher's Iris es un conjunto de datos multivariado utilizado y hecho famoso por el estadístico y biólogo británico Ronald Fisher en su artículo de 1936 El uso de mediciones múltiples en problemas taxonómicos como ejemplo de análisis discriminante lineal . [1] A veces se le llama conjunto de datos de Iris de Anderson porque Edgar Anderson recopiló los datos para cuantificar la variación morfológica de las flores de Iris de tres especies relacionadas. [2] Dos de las tres especies fueron recolectadas en la península de Gaspé "todas del mismo pasto, recolectadas el mismo día y medidas al mismo tiempo por la misma persona con el mismo aparato". [3]
El conjunto de datos consta de 50 muestras de cada una de las tres especies de Iris ( Iris setosa , Iris virginica e Iris versicolor ). De cada muestra se midieron cuatro características : el largo y el ancho de los sépalos y pétalos , en centímetros. Basándose en la combinación de estas cuatro características, Fisher desarrolló un modelo discriminante lineal para distinguir las especies entre sí. El artículo de Fisher se publicó en Annals of Eugenics (hoy Annals of Human Genetics ). [1]
Originalmente utilizado como un conjunto de datos de ejemplo al que se aplicó el análisis discriminante lineal de Fisher , se convirtió en un caso de prueba típico para muchas técnicas de clasificación estadística en el aprendizaje automático , como las máquinas de vectores de soporte . [5]
Sin embargo , el uso de este conjunto de datos en el análisis de conglomerados no es común, ya que el conjunto de datos sólo contiene dos conglomerados con una separación bastante obvia. Uno de los grupos contiene Iris setosa , mientras que el otro grupo contiene tanto Iris virginica como Iris versicolor y no es separable sin la información de especies que utilizó Fisher. Esto hace que el conjunto de datos sea un buen ejemplo para explicar la diferencia entre técnicas supervisadas y no supervisadas en la minería de datos : el modelo discriminante lineal de Fisher sólo se puede obtener cuando se conocen las especies del objeto: las etiquetas de clase y los grupos no son necesariamente los mismos. [6]
Sin embargo, las tres especies de Iris son separables en la proyección del componente principal no lineal y ramificado. [7] El conjunto de datos se aproxima mediante el árbol más cercano con alguna penalización por el número excesivo de nodos, flexiones y estiramientos. Luego se construye el llamado "mapa del metro". [4] Los puntos de datos se proyectan en el nodo más cercano. Para cada nodo se elabora el diagrama circular de los puntos proyectados. El área del pastel es proporcional al número de puntos proyectados. Del diagrama (izquierda) se desprende claramente que la mayoría absoluta de las muestras de las diferentes especies de Iris pertenecen a los diferentes nodos. Sólo una pequeña fracción de Iris-virginica se mezcla con Iris-versicolor (los nodos mixtos de color azul verdoso en el diagrama). Por lo tanto, las tres especies de Iris ( Iris setosa , Iris virginica e Iris versicolor ) son separables mediante procedimientos no supervisados de análisis de componentes principales no lineales . Para discriminarlos, basta con seleccionar los nodos correspondientes en el árbol principal.
El conjunto de datos contiene un conjunto de 150 registros bajo cinco atributos: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo y especie.
El conjunto de datos del iris se utiliza ampliamente como conjunto de datos para principiantes con fines de aprendizaje automático. El conjunto de datos está incluido en R base y Python en la biblioteca de aprendizaje automático scikit-learn , para que los usuarios puedan acceder a él sin tener que buscar una fuente.
Se han publicado varias versiones del conjunto de datos. [8]
El código R de ejemplo que se muestra a continuación reproduce el diagrama de dispersión que se muestra en la parte superior de este artículo:
# Mostrar el iris del conjunto de datos # ¿Mostrar la página de ayuda con información sobre el conjunto de datos ? iris# Crear diagramas de dispersión de todas las combinaciones por pares de las 4 variables en los pares del conjunto de datos ( iris [ 1 : 4 ], main = "Iris Data (red=setosa,green=versicolor,blue=virginica)" , pch = 21 , bg = c ( "rojo" , "verde3" , "azul" ) [ sin clase ( iris $ Especie )])
desde sklearn.datasets importar load_irisiris = cargar_iris () iris
Este código da:
{ 'datos' : matriz ([[ 5.1 , 3.5 , 1.4 , 0.2 ], [ 4.9 , 3. , 1.4 , 0.2 ], [ 4.7 , 3.2 , 1.3 , 0.2 ], [ 4.6 , 3.1 , 1.5 , 0.2 ], . .. 'objetivo' : matriz ([ 0 , 0 , 0 , ... 1 , 1 , 1 , ... 2 , 2 , 2 , ... 'target_names' : matriz ([ 'setosa' , 'versicolor' , 'virginica' ], dtype = '<U10' ), ... }