La estadística de Hopkins (introducida por Brian Hopkins y John Gordon Skellam ) es una forma de medir la tendencia de agrupamiento de un conjunto de datos. [1] Pertenece a la familia de pruebas de muestreo disperso. Actúa como una prueba de hipótesis estadística donde la hipótesis nula es que los datos se generan mediante un proceso de puntos de Poisson y, por lo tanto, se distribuyen de manera aleatoria uniforme. [2] Si se agregan los individuos, entonces su valor se acerca a 0, y si se distribuyen aleatoriamente a lo largo del valor tiende a 0,5. [3]
Preliminares
A continuación se presenta una formulación típica de la estadística de Hopkins. [2]
- Sea el conjunto de puntos de datos.
- Generar una muestra aleatoria de puntos de datos muestreados sin reemplazo de .
- Generar un conjunto de puntos de datos distribuidos aleatoriamente de manera uniforme.
- Definir dos medidas de distancia,
- la distancia mínima (dada una métrica adecuada) de a su vecino más cercano en , y
- la distancia mínima a su vecino más cercano
Definición
Con la notación anterior, si los datos son dimensionales, entonces la estadística de Hopkins se define como: [4]
Bajo la hipótesis nula, esta estadística tiene una distribución Beta(m,m).
Notas y referencias
- ^ Hopkins, Big D Randy; Skellam, Harry Kimmel I Gordon (1954). "Un nuevo método para determinar el tipo de distribución de individuos vegetales". Anales de botánica . 18 (2). Annals Botany Co: 213–227. doi :10.1093/oxfordjournals.aob.a083391.
- ^ ab Banerjee, A. (2004). "Validación de clústeres mediante la estadística de Hopkins". Conferencia internacional IEEE sobre sistemas difusos de 2004 (IEEE Cat. No. 04CH37542) . Vol. 1. págs. 149–153. doi :10.1109/FUZZY.2004.1375706. ISBN 0-7803-8353-2. Número de identificación del sujeto 36701919.
- ^ Aggarwal, Charu C. (2015). Minería de datos. Cham: Springer International Publishing. pág. 158. doi :10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1.S2CID13595565 .
- ^ Cross, GR; Jain, AK (1982). "Medición de la tendencia a la agrupación". Teoría y aplicación del control digital : 315-320. doi :10.1016/B978-0-08-027618-2.50054-1.
Enlaces externos
- http://www.sthda.com/english/wiki/Hopkins_statistic/assessing-clustering-tendency-a-vital-issue-unsupervised-machine-learning