stringtranslate.com

mediana geométrica

Ejemplo de mediana geométrica (en amarillo) de una serie de puntos. En azul el Centro de masa .

En geometría , la mediana geométrica de un conjunto discreto de puntos muestrales en un espacio euclidiano es el punto que minimiza la suma de distancias a los puntos muestrales. Esto generaliza la mediana , que tiene la propiedad de minimizar la suma de distancias para datos unidimensionales, y proporciona una tendencia central en dimensiones superiores. También se la conoce como mediana espacial , [1] punto minisum euclidiano , [1] punto de Torricelli , [2] o 1-mediana .

La mediana geométrica es un importante estimador de ubicación en estadística, [3] porque minimiza la suma de las distancias L 2 de las muestras. [4] Debe compararse con la media, que minimiza la suma de las distancias L 2 al cuadrado , y con la mediana por coordenadas que minimiza la suma de las distancias L 1 . También es un problema estándar en ubicación de instalaciones , donde modela el problema de ubicar una instalación para minimizar el costo de transporte. [5] El problema más general de k -mediana solicita la ubicación de k centros de conglomerados minimizando la suma de L 2 distancias desde cada punto de muestra hasta su centro más cercano.

El caso especial del problema de tres puntos en el plano (es decir, m = 3 y n = 2 en la definición siguiente) a veces también se conoce como problema de Fermat ; surge en la construcción de árboles Steiner mínimos , y fue planteado originalmente como un problema por Pierre de Fermat y resuelto por Evangelista Torricelli . [6] Su solución ahora se conoce como el punto de Fermat del triángulo formado por los tres puntos muestrales. [7] La ​​mediana geométrica puede, a su vez, generalizarse al problema de minimizar la suma de distancias ponderadas , conocido como problema de Weber después de la discusión de Alfred Weber sobre el problema en su libro de 1909 sobre ubicación de instalaciones. [1] En cambio, algunas fuentes llaman al problema de Weber el problema de Fermat-Weber , [8] pero otras usan este nombre para el problema de la mediana geométrica no ponderada. [9]

Wesolowsky (1993) ofrece un estudio del problema de la mediana geométrica. Véase Fekete, Mitchell y Beurer (2005) para generalizaciones del problema a conjuntos de puntos no discretos.

Definición

Formalmente, para un conjunto dado de m puntos con cada uno , la mediana geométrica se define como la suma del minimizador de distancias L 2

Aquí, arg min significa el valor del argumento que minimiza la suma. En este caso, es el punto en el espacio euclidiano de n dimensiones desde donde la suma de todas las distancias euclidianas a 's es mínima.

Propiedades

Casos especiales

Cálculo

A pesar de que la mediana geométrica es un concepto fácil de entender, calcularlo plantea un desafío. El centroide o centro de masa , definido de manera similar a la mediana geométrica como minimizando la suma de los cuadrados de las distancias a cada punto, se puede encontrar mediante una fórmula simple (sus coordenadas son los promedios de las coordenadas de los puntos), pero tiene Se ha demostrado que no puede existir en general ninguna fórmula explícita , ni un algoritmo exacto que incluya sólo operaciones aritméticas y k -ésimas raíces, para la mediana geométrica. Por lo tanto, bajo este modelo de cálculo sólo son posibles aproximaciones numéricas o simbólicas a la solución de este problema . [15]

Sin embargo, es sencillo calcular una aproximación a la mediana geométrica mediante un procedimiento iterativo en el que cada paso produce una aproximación más precisa. Procedimientos de este tipo se pueden derivar del hecho de que la suma de distancias a los puntos muestrales es una función convexa , ya que la distancia a cada punto muestral es convexa y la suma de funciones convexas permanece convexa. Por lo tanto, los procedimientos que disminuyen la suma de distancias en cada paso no pueden quedar atrapados en un óptimo local .

Un enfoque común de este tipo, llamado algoritmo de Weiszfeld en honor al trabajo de Endre Weiszfeld , [16] es una forma de mínimos cuadrados reponderados iterativamente . Este algoritmo define un conjunto de ponderaciones que son inversamente proporcionales a las distancias desde la estimación actual hasta los puntos de muestra y crea una nueva estimación que es el promedio ponderado de la muestra según estas ponderaciones. Eso es,

Este método converge para casi todas las posiciones iniciales, pero puede no converger cuando una de sus estimaciones cae en uno de los puntos dados. Se puede modificar para manejar estos casos de modo que converja para todos los puntos iniciales. [12]

Bose, Maheshwari y Morin (2003) describen procedimientos de optimización geométrica más sofisticados para encontrar soluciones aproximadamente óptimas a este problema. Cohen y cols. (2016) muestran cómo calcular la mediana geométrica con precisión arbitraria en un tiempo casi lineal . Tenga en cuenta también que el problema se puede formular como el programa de cono de segundo orden

que se puede resolver en tiempo polinómico utilizando solucionadores de optimización comunes .

Caracterización de la mediana geométrica.

Si y es distinto de todos los puntos dados, x i , entonces y es la mediana geométrica si y sólo si satisface:

Esto equivale a:

que está estrechamente relacionado con el algoritmo de Weiszfeld.

En general, y es la mediana geométrica si y sólo si existen vectores u i tales que:

donde para x iy ,

y para x i = y ,

Una formulación equivalente de esta condición es

Puede verse como una generalización de la propiedad de la mediana, en el sentido de que cualquier partición de los puntos, en particular la inducida por cualquier hiperplano que pasa por y , tiene la misma y opuesta suma de direcciones positivas desde y en cada lado. En el caso unidimensional, el hiperplano es el propio punto y , y la suma de direcciones se simplifica a la medida de conteo (dirigida).

Generalizaciones

La mediana geométrica se puede generalizar desde espacios euclidianos a variedades riemannianas generales (e incluso espacios métricos ) utilizando la misma idea que se utiliza para definir la media de Fréchet en una variedad riemanniana. [17] [18] Sea una variedad de Riemann con la función de distancia correspondiente , sean pesos que sumen 1 y sean observaciones de . Luego definimos la mediana geométrica ponderada (o mediana de Fréchet ponderada) de los puntos de datos como

.

Si todos los pesos son iguales, decimos simplemente que es la mediana geométrica.

Ver también

Notas

  1. ^ abcDrezner et al. (2002)
  2. ^ Cieslik (2006).
  3. ^ Lawera y Thompson (1993).
  4. ^ Esquivar y Rousson (1999).
  5. ^ Eiselt y Marianov (2011).
  6. ^ Krarup y Vajda (1997).
  7. España (1996).
  8. ^ Brimberg (1995).
  9. ^ Bose, Maheshwari y Morin (2003).
  10. ^ abc Haldane (1948)
  11. ^ Reclamación 18.10, Métodos geométricos y problemas de optimización , V. Boltyanski, H. Martini, V. Soltan, Springer, 1999.
  12. ^ ab Vardi y Zhang (2000)
  13. ^ abc Lopuhaä y Rousseeuw (1991)
  14. ^ Cieslik (2006), pág. 6; Plastria (2006). El caso convexo fue probado originalmente por Giovanni Fagnano .
  15. ^ Bajaj (1986); Bajaj (1988). Anteriormente, Cockayne y Melzak (1969) demostraron que el punto Steiner para 5 puntos en el plano no se puede construir con regla y compás.
  16. ^ Weiszfeld (1937); Kuhn (1973); Chandrasekaran y Tamir (1989).
  17. ^ Fletcher, P. Thomas; Venkatasubramanian, Suresh; Joshi, Sarang (23 de junio de 2008). "Estadísticas sólidas sobre variedades de Riemann a través de la mediana geométrica". Conferencia IEEE 2008 sobre visión por computadora y reconocimiento de patrones . Conferencia IEEE sobre visión por computadora y reconocimiento de patrones. Anchorage, Alaska, Estados Unidos: IEEE.
  18. ^ Fletcher, Venkatasubramanian y Joshi (2009).

Referencias