stringtranslate.com

Distancia de Bhattacharyya

En estadística , la distancia de Bhattacharyya es una cantidad que representa una noción de similitud entre dos distribuciones de probabilidad . [1] Está estrechamente relacionada con el coeficiente de Bhattacharyya , que es una medida de la cantidad de superposición entre dos muestras o poblaciones estadísticas .

No es una métrica , a pesar de llamarse "distancia", ya que no obedece a la desigualdad del triángulo .

Historia

Tanto la distancia de Bhattacharyya como el coeficiente de Bhattacharyya deben su nombre a Anil Kumar Bhattacharyya , un estadístico que trabajó en la década de 1930 en el Instituto Indio de Estadística . [2] Lo desarrolló a través de una serie de artículos. [3] [4] [5] Desarrolló el método para medir la distancia entre dos distribuciones no normales y lo ilustró con las poblaciones multinomiales clásicas, [3] este trabajo, a pesar de haber sido enviado para su publicación en 1941, apareció casi cinco años después en Sankhya . [3] [2] En consecuencia, el profesor Bhattacharyya comenzó a trabajar para desarrollar una métrica de distancia para distribuciones de probabilidad que sean absolutamente continuas con respecto a la medida de Lebesgue y publicó su progreso en 1942, en las Actas del Congreso de Ciencias de la India [4] y el trabajo final apareció en 1943 en el Boletín de la Sociedad Matemática de Calcuta . [5]

Definición

Para distribuciones de probabilidad y en el mismo dominio , la distancia de Bhattacharyya se define como

dónde

es el coeficiente de Bhattacharyya para distribuciones de probabilidad discretas .

Para distribuciones de probabilidad continuas , con y donde y son las funciones de densidad de probabilidad , el coeficiente de Bhattacharyya se define como

.

De manera más general, dadas dos medidas de probabilidad en un espacio medible , sea una medida ( sigma finita ) tal que y son absolutamente continuas con respecto a ie tales que , y para funciones de densidad de probabilidad con respecto a definidas -casi en todas partes. Una medida de este tipo, incluso una medida de probabilidad de este tipo, siempre existe, p. ej . . Luego defina la medida de Bhattacharyya en por

No depende de la medida , ya que si elegimos una medida tal que y otra elección de medida sean absolutamente continuas, es decir y , entonces

,

y lo mismo para . Entonces tenemos

.

Finalmente definimos el coeficiente de Bhattacharyya

.

Por lo anterior, la cantidad no depende de , y por la desigualdad de Cauchy . En particular, si es absolutamente continua con respecto a con la derivada de Radon Nikodym , entonces

Caso gaussiano

Sea , , donde es la distribución normal con media y varianza ; entonces

.

Y en general, dadas dos distribuciones normales multivariadas ,

,

donde [6] Nótese que el primer término es una distancia de Mahalanobis al cuadrado .

Propiedades

y .

no obedece la desigualdad triangular , aunque la distancia de Hellinger sí lo hace.

Límites del error de Bayes

La distancia de Bhattacharyya se puede utilizar para limitar superior e inferiormente la tasa de error de Bayes :

donde y es la probabilidad posterior. [7]

Aplicaciones

El coeficiente de Bhattacharyya cuantifica la “cercanía” de dos muestras estadísticas aleatorias.

Dadas dos secuencias de distribuciones , agrúpelas en grupos y deje que la frecuencia de las muestras de en el grupo sea , y de manera similar para , entonces el coeficiente de Bhattacharyya de la muestra es

que es un estimador de . La calidad de la estimación depende de la elección de los grupos; muy pocos grupos sobrestimarían , mientras que demasiados lo subestimarían.

Una tarea común en la clasificación es estimar la separabilidad de las clases. Hasta un factor multiplicativo, la distancia de Mahalanobis al cuadrado es un caso especial de la distancia de Bhattacharyya cuando las dos clases se distribuyen normalmente con las mismas varianzas. Cuando dos clases tienen medias similares pero varianzas significativamente diferentes, la distancia de Mahalanobis sería cercana a cero, mientras que la distancia de Bhattacharyya no lo sería.

El coeficiente de Bhattacharyya se utiliza en la construcción de códigos polares . [8]

La distancia de Bhattacharyya se utiliza en la extracción y selección de características, [9] procesamiento de imágenes, [10] reconocimiento de hablantes , [11] agrupamiento de teléfonos, [12] y en genética. [13]

Véase también

Referencias

  1. ^ Dodge, Yadolah (2003). Diccionario Oxford de términos estadísticos. Oxford University Press. ISBN 978-0-19-920613-1.
  2. ^ ab Sen, Pranab Kumar (1996). "Anil Kumar Bhattacharyya (1915-1996): Un recuerdo reverente". Boletín de la Asociación Estadística de Calcuta . 46 (3–4): 151–158. doi :10.1177/0008068319960301. S2CID  164326977.
  3. ^ abc Bhattacharyya, A. (1946). "Sobre una medida de divergencia entre dos poblaciones multinomiales". Sankhyā . 7 (4): 401–406. JSTOR  25047882.
  4. ^ ab Bhattacharyya, A (1942). "Sobre la discriminación y la divergencia". Actas del Congreso Científico Indio . Sociedad Asiática de Bengala.
  5. ^ ab Bhattacharyya, A. (marzo de 1943). "Sobre una medida de divergencia entre dos poblaciones estadísticas definidas por sus distribuciones de probabilidad". Boletín de la Sociedad Matemática de Calcuta . 35 : 99–109. MR  0010358.
  6. ^ Kashyap, Ravi (2019). "El matrimonio perfecto y mucho más: combinación de reducción de dimensión, medidas de distancia y covarianza". Physica A: Mecánica estadística y sus aplicaciones . 536 : 120938. arXiv : 1603.09060 . doi :10.1016/j.physa.2019.04.174.
  7. ^ Devroye, L., Gyorfi, L. y Lugosi, G. Una teoría probabilística del reconocimiento de patrones. Discrete Appl Math 73, 192–194 (1997).
  8. ^ Arıkan, Erdal (julio de 2009). "Polarización de canales: un método para construir códigos que logren capacidad para canales sin memoria con entrada binaria simétrica". IEEE Transactions on Information Theory . 55 (7): 3051–3073. arXiv : 0807.3917 . doi :10.1109/TIT.2009.2021379. S2CID  889822.
  9. ^ Euisun Choi, Chulhee Lee, "Extracción de características basada en la distancia Bhattacharyya", Pattern Recognition , Volumen 36, Número 8, agosto de 2003, páginas 1703-1709
  10. ^ François Goudail, Philippe Réfrégier, Guillaume Delyon, "La distancia de Bhattacharyya como parámetro de contraste para el procesamiento estadístico de imágenes ópticas ruidosas", JOSA A , vol. 21, número 7, págs. 1231-1240 (2004)
  11. ^ Chang Huai You, "Un núcleo SVM con GMM-Supervector basado en la distancia Bhattacharyya para el reconocimiento de hablantes", Signal Processing Letters , IEEE, vol. 16, n.º 1, págs. 49-52
  12. ^ Mak, B., "Agrupamiento de teléfonos utilizando la distancia Bhattacharyya", Spoken Language , 1996. ICSLP 96. Actas, Cuarta Conferencia Internacional sobre, vol. 4, págs. 2005-2008 vol. 4, 3-6 de octubre de 1996
  13. ^ Chattopadhyay, Aparna; Chattopadhyay, Asis Kumar; B-Rao, Chandrika (1 de junio de 2004). "La medida de distancia de Bhattacharyya como precursora de las medidas de distancia genética". Journal of Biosciences . 29 (2): 135–138. doi :10.1007/BF02703410. ISSN  0973-7138.

Enlaces externos

  1. ^ Nielsen, Frank; Boltz, Sylvain (2011). "Los centroides de Burbea-Rao y Bhattacharyya". IEEE Transactions on Information Theory . 57 (8): 5455–5466. arXiv : 1004.5049 . doi :10.1109/TIT.2011.2159046. ISSN  0018-9448. S2CID  14238708.
  2. ^ Kailath, T. (1967). "Las medidas de divergencia y distancia de Bhattacharyya en la selección de señales". IEEE Transactions on Communications . 15 (1): 52–60. doi :10.1109/TCOM.1967.1089532. ISSN  0096-2244.
  3. ^ Djouadi, A.; Snorrason, O.; Garber, FD (1990). "La calidad de las estimaciones de la muestra de entrenamiento del coeficiente de Bhattacharyya". IEEE Transactions on Pattern Analysis and Machine Intelligence . 12 (1): 92–97. doi :10.1109/34.41388.