La distribución de rango-tamaño es la distribución del tamaño por rango, en orden decreciente de tamaño. Por ejemplo, si un conjunto de datos consta de elementos de tamaños 5, 100, 5 y 8, la distribución de rango-tamaño es 100, 8, 5, 5 (rangos del 1 al 4). Esto también se conoce como distribución de rango-frecuencia , cuando los datos de origen provienen de una distribución de frecuencia . Estas son particularmente de interés cuando los datos varían significativamente en escalas, como el tamaño de la ciudad o la frecuencia de palabras. Estas distribuciones con frecuencia siguen una distribución de ley de potencia , o menos conocidas, como una función exponencial estirada o una distribución fractal parabólica , al menos aproximadamente para ciertos rangos de rangos; consulte a continuación.
Una distribución de rango-tamaño no es una distribución de probabilidad ni una función de distribución acumulativa . Más bien, es una forma discreta de una función cuantil (distribución acumulativa inversa) en orden inverso, que da el tamaño del elemento en un rango determinado.
En el caso de las poblaciones urbanas, la distribución resultante en un país, una región o el mundo se caracterizará por su ciudad más grande, con otras ciudades que disminuirán en tamaño en relación con ella, inicialmente a un ritmo rápido y luego más lentamente. Esto da como resultado unas pocas ciudades grandes y un número mucho mayor de ciudades de órdenes de magnitud más pequeñas. Por ejemplo, una ciudad de rango 3 tendría un tercio de la población de la ciudad más grande de un país, una ciudad de rango 4 tendría un cuarto de la población de la ciudad más grande, y así sucesivamente. [2]
Una distribución de rango-tamaño (o rango-frecuencia) suele segmentarse en rangos. Esto se hace con frecuencia de manera un tanto arbitraria o debido a factores externos, en particular para la segmentación del mercado , pero también puede deberse a un comportamiento distinto a medida que varía el rango.
De forma más sencilla y habitual, una distribución se puede dividir en dos partes, denominadas cabeza y cola . Si una distribución se divide en tres partes, la tercera (parte central) tiene varios términos, genéricamente medio , [3] también vientre , [4] torso , [5] y cuerpo . [6] A estos con frecuencia se les añaden algunos adjetivos, el más significativo es cola larga , también vientre gordo , [4] medio grueso , etc. En términos más tradicionales, estos pueden llamarse nivel superior , nivel medio y nivel inferior .
Los tamaños y pesos relativos de estos segmentos (cuántos rangos hay en cada segmento y qué proporción de la población total se encuentra en un segmento dado) caracterizan cualitativamente una distribución, de manera análoga a la asimetría o curtosis de una distribución de probabilidad. Es decir: ¿está dominada por unos pocos miembros en la cima (con un peso importante en la cabeza, como las ganancias en la industria de la música grabada), o está dominada por muchos miembros pequeños (con un peso importante en la cola, como las consultas de búsqueda en Internet), o está distribuida de alguna otra manera? En la práctica, esto determina la estrategia: ¿dónde debe centrarse la atención?
Estas distinciones pueden hacerse por varias razones. Por ejemplo, pueden surgir de diferentes propiedades de la población, como en el principio 90-9-1 , que postula que en una comunidad de Internet, el 90% de los participantes de una comunidad solo ve contenido, el 9% de los participantes edita contenido y el 1% de los participantes crea activamente contenido nuevo. Como otro ejemplo, en marketing, uno puede considerar pragmáticamente que la cabeza son todos los miembros que reciben atención personalizada, como llamadas telefónicas personales; mientras que la cola es todo lo demás, que no recibe atención personalizada, por ejemplo, recibir cartas formales ; y la línea simplemente se establece en un punto que los recursos lo permiten, o donde tiene sentido comercial detenerse.
En términos puramente cuantitativos, una forma convencional de dividir una distribución en cabeza y cola es considerar que la cabeza es la primera porción p de los rangos, que representan el 80 % de la población total, como en el principio de Pareto 80:20 , donde el 20% superior (cabeza) comprende el 80% de la población total. El punto de corte exacto depende de la distribución (cada distribución tiene un único punto de corte) y, para la potencia, las leyes se pueden calcular a partir del índice de Pareto .
Los segmentos pueden surgir de forma natural debido a cambios reales en el comportamiento de la distribución a medida que varía el rango. El más común es el efecto rey , donde el comportamiento del puñado de elementos superiores no se ajusta al patrón del resto, como se ilustra en la parte superior para las poblaciones de los países y más arriba para las palabras más comunes en Wikipedia en inglés. Para rangos más altos, el comportamiento puede cambiar en algún momento y estar bien modelado por diferentes relaciones en diferentes regiones; en general, por una función por partes . Por ejemplo, si dos leyes de potencia diferentes se ajustan mejor en diferentes regiones, se puede usar una ley de potencia rota para la relación general; la frecuencia de palabras en Wikipedia en inglés (arriba) también demuestra esto.
La distribución de Yule-Simon que resulta del apego preferencial (intuitivamente, "los ricos se hacen más ricos" y "el éxito genera éxito") simula una ley de potencia rota y se ha demostrado que "capta muy bien" las distribuciones de frecuencia de palabras versus rango. [7] Se originó al intentar explicar la población versus el rango en diferentes especies. También se ha demostrado que se ajusta mejor a la población de la ciudad versus el rango. [8]
La regla (o ley ) del tamaño del rango describe la notable regularidad de muchos fenómenos, incluida la distribución del tamaño de las ciudades, el tamaño de las empresas, el tamaño de las partículas (como la arena), la longitud de los ríos, las frecuencias del uso de palabras y la riqueza entre los individuos.
Todas son observaciones del mundo real que siguen leyes de potencia , como la ley de Zipf , la distribución de Yule o la distribución de Pareto . Si se clasifica el tamaño de la población de las ciudades de un país determinado o del mundo entero y se calcula el logaritmo natural del rango y de la población de la ciudad, el gráfico resultante mostrará un patrón lineal. Esta es la distribución de tamaño de rango. [9]
Aunque la ley de Zipf funciona bien en muchos casos, tiende a no ajustarse a las ciudades más grandes de muchos países; un tipo de desviación se conoce como el efecto King . Un estudio de 2002 encontró que la ley de Zipf fue rechazada en 53 de 73 países, mucho más de lo que se esperaría basándose en el azar. [10] El estudio también encontró que las variaciones del exponente de Pareto se explican mejor por variables políticas que por variables de geografía económica como indicadores de economías de escala o costos de transporte. [11] Un estudio de 2004 mostró que la ley de Zipf no funcionó bien para las cinco ciudades más grandes de seis países. [12] En los países más ricos, la distribución fue más plana de lo previsto. Por ejemplo, en los Estados Unidos , aunque su ciudad más grande, la ciudad de Nueva York , tiene más del doble de población que Los Ángeles , que ocupa el segundo lugar , las áreas metropolitanas de las dos ciudades (también las dos más grandes del país) están mucho más cerca en población. En población del área metropolitana, la ciudad de Nueva York es solo 1,3 veces más grande que Los Ángeles. En otros países, la ciudad más grande dominaría mucho más de lo esperado. Por ejemplo, en la República Democrática del Congo , la capital, Kinshasa , es más de ocho veces más grande que la segunda ciudad más grande, Lubumbashi . Al considerar la distribución completa de las ciudades, incluidas las más pequeñas, la regla del tamaño del rango no se cumple. En cambio, la distribución es log-normal . Esto se desprende de la ley de crecimiento proporcional de Gibrat .
Como las excepciones son tan fáciles de encontrar, la función de la regla para analizar las ciudades hoy es comparar los sistemas de ciudades en diferentes países. La regla del tamaño del rango es un estándar común por el cual se establece la primacía urbana. Una distribución como la de Estados Unidos o China no exhibe un patrón de primacía, pero los países con una " ciudad primada " dominante claramente varían de la regla del tamaño del rango de manera opuesta. Por lo tanto, la regla ayuda a clasificar los sistemas de ciudades nacionales (o regionales) de acuerdo con el grado de dominio exhibido por la ciudad más grande. Los países con una ciudad primada, por ejemplo, típicamente han tenido una historia colonial que explica ese patrón de ciudad. Si se espera que un patrón normal de distribución de ciudades siga la regla del tamaño del rango (es decir, si el principio del tamaño del rango se correlaciona con la teoría del lugar central), entonces sugiere que aquellos países o regiones con distribuciones que no siguen la regla han experimentado algunas condiciones que han alterado el patrón de distribución normal. Por ejemplo, la presencia de múltiples regiones dentro de grandes naciones como China y Estados Unidos tiende a favorecer un patrón en el que aparecen más ciudades grandes de lo que predeciría la regla. Por el contrario, los países pequeños que han estado conectados (por ejemplo, colonial o económicamente) a áreas mucho más grandes exhibirán una distribución en la que la ciudad más grande es mucho más grande de lo que encajaría en la regla, en comparación con las otras ciudades: el tamaño excesivo de la ciudad teóricamente se debe a su conexión con un sistema más grande en lugar de la jerarquía natural que la teoría del lugar central predeciría dentro de ese país o región en particular.