El conjunto de datos de flores de iris o conjunto de datos de iris de Fisher es un conjunto de datos multivariados utilizado y hecho famoso por el estadístico y biólogo británico Ronald Fisher en su artículo de 1936 El uso de múltiples mediciones en problemas taxonómicos como un ejemplo de análisis discriminante lineal . [1] A veces se lo llama conjunto de datos de iris de Anderson porque Edgar Anderson recopiló los datos para cuantificar la variación morfológica de las flores de iris de tres especies relacionadas. [2] Dos de las tres especies fueron recolectadas en la península de Gaspé "todas del mismo pasto, y recogidas el mismo día y medidas al mismo tiempo por la misma persona con el mismo aparato". [3]
El conjunto de datos consta de 50 muestras de cada una de las tres especies de iris ( Iris setosa , Iris virginica e Iris versicolor ). Se midieron cuatro características de cada muestra: la longitud y el ancho de los sépalos y los pétalos , en centímetros. Basándose en la combinación de estas cuatro características, Fisher desarrolló un modelo discriminante lineal para distinguir cada especie. El artículo de Fisher fue publicado en Annals of Eugenics (hoy Annals of Human Genetics ). [1]
Originalmente utilizado como un conjunto de datos de ejemplo en el que se aplicó el análisis discriminante lineal de Fisher, se convirtió en un caso de prueba típico para muchas técnicas de clasificación estadística en el aprendizaje automático, como las máquinas de vectores de soporte . [5]
Sin embargo, el uso de este conjunto de datos en el análisis de conglomerados no es común, ya que el conjunto de datos solo contiene dos conglomerados con una separación bastante obvia. Uno de los conglomerados contiene Iris setosa , mientras que el otro conglomerado contiene tanto Iris virginica como Iris versicolor y no es separable sin la información de especies que utilizó Fisher. Esto hace que el conjunto de datos sea un buen ejemplo para explicar la diferencia entre las técnicas supervisadas y no supervisadas en la minería de datos : el modelo discriminante lineal de Fisher solo se puede obtener cuando se conocen las especies del objeto: las etiquetas de clase y los conglomerados no son necesariamente los mismos. [6]
Sin embargo, las tres especies de Iris son separables en la proyección sobre el componente principal no lineal y ramificado. [7] El conjunto de datos se aproxima mediante el árbol más cercano con cierta penalización por el número excesivo de nodos, curvaturas y estiramientos. Luego se construye el llamado "mapa del metro". [4] Los puntos de datos se proyectan en el nodo más cercano. Para cada nodo se prepara el diagrama circular de los puntos proyectados. El área del gráfico circular es proporcional al número de puntos proyectados. Está claro en el diagrama (izquierda) que la mayoría absoluta de las muestras de las diferentes especies de Iris pertenecen a los diferentes nodos. Solo una pequeña fracción de Iris-virginica está mezclada con Iris-versicolor (los nodos azul-verdes mezclados en el diagrama). Por lo tanto, las tres especies de Iris ( Iris setosa , Iris virginica e Iris versicolor ) son separables mediante los procedimientos no supervisados del análisis de componentes principales no lineales . Para discriminarlas, es suficiente simplemente seleccionar los nodos correspondientes en el árbol principal.
El conjunto de datos contiene un conjunto de 150 registros bajo cinco atributos: longitud del sépalo, ancho del sépalo, longitud del pétalo, ancho del pétalo y especie.
El conjunto de datos de iris se utiliza ampliamente como conjunto de datos para principiantes con fines de aprendizaje automático. El conjunto de datos está incluido en la biblioteca de aprendizaje automático scikit-learn en R base y Python , de modo que los usuarios pueden acceder a él sin tener que buscar una fuente.
Se han publicado varias versiones del conjunto de datos. [8]
El código R de ejemplo que se muestra a continuación reproduce el diagrama de dispersión que se muestra en la parte superior de este artículo:
# Mostrar el conjunto de datos iris # Mostrar la página de ayuda, con información sobre el conjunto de datos ? iris# Crear diagramas de dispersión de todas las combinaciones por pares de las 4 variables en los pares de conjuntos de datos ( iris [ 1 : 4 ], main = "Iris Data (red=setosa,green=versicolor,blue=virginica)" , pch = 21 , bg = c ( "red" , "green3" , "blue" ) [ unclass ( iris $ Species )])
desde sklearn.datasets importar load_irisiris = cargar_iris () iris
Este código da:
{ 'datos' : matriz ([[ 5.1 , 3.5 , 1.4 , 0.2 ], [ 4.9 , 3. , 1.4 , 0.2 ], [ 4.7 , 3.2 , 1.3 , 0.2 ], [ 4.6 , 3.1 , 1.5 , 0.2 ], ... 'objetivo' : matriz ([ 0 , 0 , 0 , ... 1 , 1 , 1 , ... 2 , 2 , 2 , ... 'nombres_objetivo' : matriz ([ 'setosa' , 'versicolor' , 'virginica' ], dtype = '<U10' ), ... }