stringtranslate.com

Distribución fractal parabólica

En probabilidad y estadística , la distribución fractal parabólica es un tipo de distribución de probabilidad discreta en la que el logaritmo de la frecuencia o el tamaño de las entidades en una población es un polinomio cuadrático del logaritmo del rango (el ejemplo más grande tiene rango 1). Esto puede mejorar notablemente el ajuste en comparación con una relación de ley de potencia simple (ver referencias a continuación).

En el artículo de Laherrère/Deheuvels que aparece a continuación, se incluyen ejemplos de tamaños de galaxias (ordenados por luminosidad), ciudades (en los EE. UU., Francia y el mundo), idiomas hablados (por número de hablantes) en el mundo y yacimientos petrolíferos del mundo (por tamaño). También mencionan la utilidad de esta distribución para ajustar eventos sísmicos (sin ejemplo). Los autores afirman que la ventaja de esta distribución es que se puede ajustar utilizando los ejemplos más grandes conocidos de la población que se está modelando, que a menudo están disponibles y completos, luego los parámetros ajustados encontrados se pueden utilizar para calcular el tamaño de toda la población. Así, por ejemplo, se pueden ordenar y ajustar las poblaciones de las cien ciudades más grandes del planeta, y los parámetros encontrados se pueden utilizar para extrapolar a los pueblos más pequeños, para estimar la población del planeta. Otro ejemplo es la estimación de las reservas totales de petróleo del mundo utilizando los yacimientos más grandes.

En varias aplicaciones, existe el llamado efecto King , en el que los elementos mejor clasificados tienen una frecuencia o un tamaño significativamente mayor que el que predice el modelo sobre la base de los otros elementos. El artículo de Laherrère/Deheuvels muestra el ejemplo de París, al ordenar los tamaños de las ciudades de Francia. Cuando se escribió el artículo, París era la ciudad más grande con unos diez millones de habitantes, pero la siguiente ciudad más grande tenía solo alrededor de 1,5 millones. Las ciudades de Francia, excluida París, siguen de cerca una distribución parabólica, lo suficientemente bien como para que las 56 más grandes dieran una muy buena estimación de la población del país. Pero esa distribución predeciría que la ciudad más grande tendría alrededor de dos millones de habitantes, no 10 millones. El efecto King recibe su nombre de la noción de que un rey debe derrotar a todos los rivales por el trono y toma su riqueza, propiedades y poder, creando así una barrera entre él y el siguiente más rico de sus súbditos. Ese efecto específico (creado intencionalmente) puede aplicarse a los tamaños de las empresas, donde las empresas más grandes usan su riqueza para comprar rivales más pequeños. En ausencia de intención, el efecto King puede ocurrir como resultado de alguna ventaja de crecimiento persistente debido a la escala, o de alguna ventaja única. Las ciudades más grandes son conectores más eficientes de personas, talento y otros recursos. Las ventajas únicas pueden incluir ser una ciudad portuaria, o una ciudad capital donde se dictan leyes, o un centro de actividad donde la proximidad física aumenta las oportunidades y crea un ciclo de retroalimentación. Un ejemplo es la industria cinematográfica, donde los actores, escritores y otros trabajadores se mudan a donde están la mayoría de los estudios, y se fundan nuevos estudios en el mismo lugar porque es donde reside la mayor parte del talento.

Para comprobar el efecto King, la distribución debe ajustarse excluyendo los 'k' elementos mejor clasificados, pero sin asignar nuevos números de clasificación a los miembros restantes de la población. Por ejemplo, en Francia las clasificaciones son (a partir de 2010):

  1. París, 12,09M
  2. Lyon, 2,12 millones
  3. Marsella, 1,72M
  4. Toulouse, 1,20M
  5. Lille, 1,15 millones

Un algoritmo de ajuste procesaría los pares {(1,12,09), (2,2,12), (3,1,72), (4,1,20), (5,1,15)} y encontraría los parámetros para el mejor ajuste parabólico a través de esos puntos. Para probar el Efecto King, simplemente excluimos el primer par (o los primeros 'k' pares) y encontramos los parámetros parabólicos que se ajusten al resto de los puntos. Entonces, para Francia, ajustaríamos los cuatro puntos {(2,2,12), (3,1,72), (4,1,20), (5,1,15)}. Luego, podemos usar esos parámetros para estimar el tamaño de las ciudades clasificadas [1,k] y determinar si son miembros del Efecto King o miembros normales.

En comparación, la ley de Zipf ajusta una línea a través de los puntos (también usando el logaritmo del rango y el logaritmo del valor). Una parábola (con un parámetro más) se ajustará mejor, pero lejos del vértice la parábola también es casi lineal. Por lo tanto, aunque es una cuestión de criterio del estadístico, si los parámetros ajustados colocan el vértice lejos de los puntos ajustados, o si la curva parabólica no se ajusta significativamente mejor que una línea, eso puede ser sintomático de sobreajuste (también conocido como sobreparametrización). La línea (con dos parámetros en lugar de tres) es probablemente la mejor generalización. Más parámetros siempre se ajustan mejor, pero al costo de agregar parámetros inexplicables o suposiciones injustificadas (como la suposición de que una curva ligeramente parabólica es un modelo más apropiado que una línea).

Como alternativa, es posible forzar que la parábola ajustada tenga su vértice en la posición de rango 1. En ese caso, no es seguro que la parábola se ajuste mejor (tenga menos error) que una línea recta; y la elección podría hacerse entre las dos en función de cuál tenga el menor error.

Definición

La función de masa de probabilidad viene dada, como función del rango n , por

donde b y c son parámetros de la distribución.

Véase también

Referencias