El método de optimización de Jenks , también llamado método de clasificación de rupturas naturales de Jenks , es un método de agrupamiento de datos diseñado para determinar la mejor disposición de valores en diferentes clases. Esto se hace buscando minimizar la desviación promedio de cada clase con respecto a la media de la clase, mientras se maximiza la desviación de cada clase con respecto a las medias de las otras clases. En otras palabras, el método busca reducir la varianza dentro de las clases y maximizar la varianza entre clases. [1] [2]
El método de optimización de Jenks está directamente relacionado con el método de Otsu y el análisis discriminante de Fisher .
George Frederick Jenks fue un cartógrafo estadounidense del siglo XX . Tras graduarse con un doctorado en geografía agrícola en la Universidad de Syracuse en 1947, Jenks comenzó su carrera bajo la tutela de Richard Harrison , cartógrafo de las revistas Time y Fortune . [3] Se unió a la facultad de la Universidad de Kansas en 1949 y comenzó a desarrollar el programa de cartografía. Durante sus 37 años de permanencia en la KU, Jenks convirtió el programa de cartografía en uno de los tres programas reconocidos por su educación de posgrado en el campo; los otros son la Universidad de Wisconsin y la Universidad de Washington . Gran parte de su tiempo lo dedicó a desarrollar y promover técnicas y programas mejorados de capacitación cartográfica. También dedicó un tiempo significativo a investigar mapas tridimensionales, investigación del movimiento ocular, comunicación de mapas temáticos y geoestadística . [2] [3] [4]
Jenks era cartógrafo de profesión. Su trabajo con las estadísticas surgió de un deseo de hacer que los mapas coropléticos fueran visualmente más precisos para el observador. En su artículo, The Data Model Concept in Statistical Mapping (El concepto de modelo de datos en la cartografía estadística ), afirma que al visualizar los datos en un modelo tridimensional, los cartógrafos podrían idear un “método sistemático y racional para preparar mapas coropléticos”. [1] Jenks utilizó la analogía de un “manto de error” para describir la necesidad de utilizar elementos distintos de la media para generalizar los datos. Los modelos tridimensionales se crearon para ayudar a Jenks a visualizar la diferencia entre las clases de datos. Su objetivo era generalizar los datos utilizando la menor cantidad posible de planos y mantener un “manto de error” constante.
El método requiere un proceso iterativo. Es decir, los cálculos deben repetirse utilizando diferentes cortes en el conjunto de datos para determinar qué conjunto de cortes tiene la menor varianza dentro de la clase . El proceso se inicia dividiendo los datos ordenados en clases de alguna manera que puede ser arbitraria. Hay dos pasos que deben repetirse:
Luego se calculan nuevas desviaciones de clase y el proceso se repite hasta que la suma de las desviaciones dentro de la clase alcanza un valor mínimo. [1] [5]
Como alternativa, se pueden examinar todas las combinaciones de rupturas, calcular el SDCM para cada combinación y seleccionar la combinación con el SDCM más bajo. Dado que se examinan todas las combinaciones de rupturas, se garantiza que se encuentre la que tenga el SDCM más bajo.
Finalmente, se puede calcular la suma de las desviaciones al cuadrado de la media del conjunto de datos completo (SDAM) y la bondad del ajuste de la varianza (GVF). La GVF se define como (SDAM - SDCM) / SDAM. La GVF varía de 0 (peor ajuste) a 1 (ajuste perfecto).
El objetivo de Jenks al desarrollar este método era crear un mapa que fuera absolutamente preciso en términos de la representación de los atributos espaciales de los datos. Siguiendo este proceso, afirma Jenks, la “manta de error” puede distribuirse uniformemente a lo largo de la superficie mapeada. Lo desarrolló con la intención de utilizar relativamente pocas clases de datos, menos de siete, porque ese era el límite al utilizar sombreado monocromático en un mapa coroplético. [1]
El método de clasificación de Jenks se utiliza comúnmente en mapas temáticos, especialmente mapas coropléticos, como uno de los varios métodos de clasificación disponibles. Al crear mapas coropléticos, el método de clasificación de Jenks puede ser ventajoso porque, si hay clústeres en los valores de los datos, los identificará. De hecho, en las versiones actuales del software ArcGIS de Esri, Jenks es el método de clasificación predeterminado. Sin embargo, la clasificación de Jenks no se recomienda para datos que tienen una varianza baja. Las interrupciones naturales de Jenks en los datos se utilizan para proporcionar una visualización más significativa de los datos del mapa en función de las "interrupciones naturales" en los datos identificados por el proceso iterativo.
Otros métodos de clasificación de datos incluyen rupturas de cabeza y cola , rupturas naturales (sin optimización de Jenks), intervalos iguales, cuantiles y desviación estándar.