stringtranslate.com

Problema con los tanques alemanes

Durante la Segunda Guerra Mundial , la inteligencia aliada estimó con precisión la producción de tanques alemanes como el Panther utilizando métodos estadísticos.

En la teoría estadística de la estimación , el problema del tanque alemán consiste en estimar el máximo de una distribución uniforme discreta a partir de un muestreo sin reemplazo . En términos simples, supongamos que existe un número desconocido de elementos numerados secuencialmente del 1 al N. Se toma una muestra aleatoria de estos elementos y se observan sus números de secuencia; el problema es estimar N a partir de estos números observados.

El problema se puede abordar mediante inferencia frecuentista o inferencia bayesiana , lo que lleva a resultados diferentes. La estimación del máximo de población basada en una sola muestra produce resultados divergentes, mientras que la estimación basada en múltiples muestras es una pregunta de estimación práctica cuya respuesta es simple (especialmente en el entorno frecuentista) pero no obvia (especialmente en el entorno bayesiano).

El problema lleva el nombre de su aplicación histórica por parte de las fuerzas aliadas en la Segunda Guerra Mundial a la estimación de la tasa mensual de producción de tanques alemanes a partir de datos muy limitados. Esto explotó la práctica de fabricación de asignar y adjuntar secuencias ascendentes de números de serie a los componentes del tanque (chasis, caja de cambios, motor, ruedas), y algunos de los tanques finalmente fueron capturados en batalla por las fuerzas aliadas.

Suposiciones

Se presume que el adversario fabricó una serie de tanques marcados con números enteros consecutivos, comenzando con el número de serie 1. Además, independientemente de la fecha de fabricación, el historial de servicio o el número de serie de un tanque, la distribución entre números de serie se convierte en revelada al análisis es uniforme, hasta el momento en que se realiza el análisis.

Ejemplo

Tamaño estimado de la población (N). El número de observaciones en la muestra es k . El número de serie de muestra más grande es m . El análisis frecuentista se muestra con líneas de puntos. El análisis bayesiano tiene líneas amarillas sólidas con media y sombreado para mostrar el rango desde el valor mínimo posible hasta la media más 1 desviación estándar). El ejemplo muestra que si se observan cuatro tanques y el número de serie más alto es "60", el análisis frecuentista predice 74, mientras que el análisis bayesiano predice una media de 88,5 y una desviación estándar de 138,72 − 88,5 = 50,22, y un mínimo de 60 tanques. En el archivo SVG, coloque el cursor sobre un gráfico para resaltarlo.

Suponiendo que a los tanques se les asignan números de serie secuenciales que comienzan con 1, supongamos que se capturan cuatro tanques y que tienen los números de serie: 19, 40, 42 y 60.

Un enfoque frecuentista (utilizando el estimador insesgado de varianza mínima ) predice que el número total de tanques producidos será:

Un enfoque bayesiano (que utiliza una prioridad uniforme sobre los números enteros para cualquier tamaño adecuadamente grande ) predice que el número medio de tanques producidos será muy similar a la predicción frecuentista:

mientras que la media bayesiana predice que el número de tanques producidos sería:

Sea N igual al número total de tanques que se predice que se habrán producido, m igual al número de serie más alto observado y k igual al número de tanques capturados.

La predicción frecuentista se calcula como:

La mediana bayesiana se calcula como:

La media bayesiana se calcula como:

Estas cantidades bayesianas se derivan de la distribución posterior bayesiana:

Esta función de masa de probabilidad tiene una asimetría positiva , relacionada con el hecho de que hay al menos 60 tanques. Debido a esta asimetría, es posible que la media no sea la estimación más significativa. La mediana en este ejemplo es 74,5, muy de acuerdo con la fórmula frecuentista. Usando la aproximación de Stirling , la parte posterior puede aproximarse mediante una función de n que decae exponencialmente ,

lo que resulta en la siguiente aproximación para la mediana:

y las siguientes aproximaciones para la media y la desviación estándar:

Ejemplo histórico del problema.

Los tanques Panther se cargan para su transporte a las unidades de primera línea, 1943.

Durante el transcurso de la Segunda Guerra Mundial, los aliados occidentales hicieron esfuerzos sostenidos para determinar el alcance de la producción alemana y lo abordaron de dos maneras principales: recopilación de inteligencia convencional y estimación estadística. En muchos casos, el análisis estadístico mejoró sustancialmente la inteligencia convencional. En algunos casos, la inteligencia convencional se utilizó junto con métodos estadísticos, como fue el caso en la estimación de la producción del tanque Panther justo antes del Día D.

La estructura de mando aliada había pensado que los tanques Panzer V (Panther) vistos en Italia, con sus cañones largos de 75 mm/L70 de alta velocidad y cañón largo, eran tanques pesados ​​inusuales y sólo se verían en el norte de Francia en pequeñas cantidades, de la misma manera. De la misma manera que el Tiger I fue visto en Túnez. El ejército estadounidense confiaba en que el tanque Sherman seguiría funcionando bien, como lo había hecho frente a los tanques Panzer III y Panzer IV en el norte de África y Sicilia. [a] Poco antes del Día D, los rumores indicaban que se estaban utilizando grandes cantidades de tanques Panzer V.

Para determinar si esto era cierto, los aliados intentaron estimar el número de tanques que se producían. Para ello, utilizaron los números de serie de los tanques capturados o destruidos. Los principales números utilizados fueron los números de la caja de cambios, ya que se encontraban en dos secuencias ininterrumpidas. También se utilizaron números de chasis y motor, aunque su uso era más complicado. Se utilizaron varios otros componentes para verificar el análisis. Se realizaron análisis similares sobre ruedas, que se observó que estaban numeradas secuencialmente (es decir, 1, 2, 3,...,  N ). [2] [b] [3] [4]

El análisis de las ruedas del tanque arrojó una estimación del número de moldes de ruedas que estaban en uso. Luego, una discusión con los fabricantes británicos de ruedas para carreteras estimó la cantidad de ruedas que se podrían producir a partir de tantos moldes, lo que arrojó la cantidad de tanques que se producían cada mes. El análisis de las ruedas de dos tanques (32 ruedas de carretera cada uno, 64 ruedas de carretera en total) arrojó una estimación de 270 tanques producidos en febrero de 1944, sustancialmente más de lo que se había sospechado anteriormente. [5]

Los registros alemanes después de la guerra mostraron que la producción para el mes de febrero de 1944 fue de 276. [6] [c] El enfoque estadístico demostró ser mucho más preciso que los métodos de inteligencia convencionales, y la frase "problema de los tanques alemanes" se aceptó como descriptor de este tipo de análisis estadístico.

Estimar la producción no fue el único uso de este análisis de números de serie. También se utilizó para comprender la producción alemana de manera más general, incluido el número de fábricas, la importancia relativa de las fábricas, la longitud de la cadena de suministro (basada en el desfase entre la producción y el uso), los cambios en la producción y el uso de recursos como el caucho.

Datos específicos

Según estimaciones convencionales de la inteligencia aliada, los alemanes producían alrededor de 1.400 tanques al mes entre junio de 1940 y septiembre de 1942. Aplicando la siguiente fórmula a los números de serie de los tanques capturados, se calculó que el número era 246 al mes. Después de la guerra, las cifras de producción alemanas obtenidas del ministerio de Albert Speer mostraron que el número real era 245. [3]

Las estimaciones para algunos meses específicos se dan como: [7]

Análisis similares

La producción de cohetes V-2 se estimó con precisión mediante métodos estadísticos.

Se utilizó un análisis de números de serie similar para otros equipos militares durante la Segunda Guerra Mundial, con mayor éxito para el cohete V-2 . [8]

Las marcas de fábrica en el equipo militar soviético fueron analizadas durante la Guerra de Corea y por la inteligencia alemana durante la Segunda Guerra Mundial. [9]

En la década de 1980, algunos estadounidenses tuvieron acceso a la línea de producción de los tanques Merkava de Israel . Los números de producción estaban clasificados, pero los tanques tenían números de serie, lo que permitía estimar la producción. [10]

La fórmula se ha utilizado en contextos no militares, por ejemplo para estimar el número de computadoras Commodore 64 construidas, donde el resultado (12,5 millones) coincide con las estimaciones más bajas. [11]

Contramedidas

Para confundir el análisis de números de serie, se pueden excluir los números de serie o reducir la información auxiliar utilizable. Alternativamente, se pueden utilizar números de serie que resistan el criptoanálisis, de forma más eficaz eligiendo números al azar sin reemplazo de una lista que sea mucho mayor que el número de objetos producidos, o produciendo números aleatorios y cotejándolos con la lista de números ya asignados; es probable que se produzcan colisiones a menos que el número de dígitos posibles sea más del doble del número de dígitos del número de objetos producidos (donde el número de serie puede estar en cualquier base); ver problema de cumpleaños . [d] Para ello, se puede utilizar un generador de números pseudoaleatorios criptográficamente seguro . Todos estos métodos requieren una tabla de búsqueda (o descifrar el cifrado) para retroceder del número de serie al pedido de producción, lo que complica el uso de números de serie: no se puede recuperar un rango de números de serie, por ejemplo, pero cada uno debe buscarse individualmente. o una lista generada.

Alternativamente, los números de serie secuenciales se pueden cifrar con un cifrado de sustitución simple , que permite una fácil decodificación, pero también se descifra fácilmente mediante el análisis de frecuencia : incluso si comienza desde un punto arbitrario, el texto sin formato tiene un patrón (es decir, los números están en secuencia). Un ejemplo se da en la novela Code to Zero de Ken Follett , donde el cifrado de los números de serie del cohete Júpiter-C viene dado por:

La palabra clave aquí es Huntsville (con las letras repetidas omitidas) para obtener una clave de 10 letras. [12] El cohete número 13 era, por tanto, "HN", y el cohete número 24 era "UT".

Análisis frecuentista

Estimador insesgado de varianza mínima

Para la estimación puntual (estimación de un valor único para el total ), el estimador insesgado de varianza mínima (MVUE o estimador UMVU) viene dado por: [e]

donde m es el número de serie más grande observado ( máximo de muestra ) y k es el número de tanques observados ( tamaño de muestra ). [10] [13] Tenga en cuenta que una vez que se ha observado un número de serie, ya no está en el grupo y no se volverá a observar.

Esto tiene una variación [10]

por lo que la desviación estándar es aproximadamente N / k , el tamaño esperado de la brecha entre observaciones ordenadas en la muestra.

La fórmula puede entenderse intuitivamente como el máximo muestral más la brecha promedio entre observaciones en la muestra, eligiéndose el máximo muestral como estimador inicial, por ser el estimador de máxima verosimilitud , [f] sumándose la brecha para compensar la sesgo negativo del máximo muestral como estimador del máximo poblacional, [g] y escrito como

Esto se puede visualizar imaginando que las observaciones en la muestra están espaciadas uniformemente en todo el rango, con observaciones adicionales justo fuera del rango en 0 y N  + 1. Si se comienza con una brecha inicial entre 0 y la observación más baja en la muestra (la mínimo de muestra), la brecha promedio entre observaciones consecutivas en la muestra es ; el ser porque las observaciones mismas no se cuentan al calcular la brecha entre observaciones. [h] . En la página de la distribución uniforme discreta se muestra una derivación del valor esperado y la varianza del máximo de la muestra .

Esta filosofía se formaliza y generaliza en el método de estimación de espaciamiento máximo ; Se utiliza una heurística similar para trazar la posición en un gráfico Q-Q , trazando puntos de muestra en k / ( n + 1) , que está uniformemente en la distribución uniforme, con un espacio al final.

Intervalos de confianza

En lugar de, o además de, la estimación puntual , se puede realizar una estimación de intervalo , como los intervalos de confianza . Estos se calculan fácilmente, basándose en la observación de que la probabilidad de que k observaciones en la muestra caigan en un intervalo que cubra p del rango (0 ≤  p  ≤ 1) es p k (asumiendo en esta sección que los sorteos son con reemplazo, para simplificar los cálculos; si los sorteos no tienen reemplazo, se exagera la probabilidad y los intervalos serán demasiado conservadores).

Así, la distribución muestral del cuantil del máximo muestral es la gráfica x 1/ k de 0 a 1: el p -ésimo al q -ésimo cuantil del máximo muestral m son el intervalo [ p 1/ k Nq 1/ k norte ]. Al invertir esto se obtiene el intervalo de confianza correspondiente para el máximo poblacional de [ m / q 1/ km / p 1/ k ].

Por ejemplo, tomando el intervalo simétrico del 95% p = 2,5% y q = 97,5% para k = 5 se obtiene 0,025 1/5 ≈ 0,48, 0,975 1/5 ≈ 0,995, por lo que el intervalo de confianza es aproximadamente [1,005 m , 2,08 m ] . El límite inferior está muy cerca de m , por lo que es más informativo el intervalo de confianza asimétrico de p = 5% a 100%; para k = 5 esto produce 0,05 1/5 ≈ 0,55 y el intervalo [ m , 1,82 m ].

De manera más general, el intervalo de confianza del 95% (sesgado a la baja) es [ m , m /0.05 1/ k ] = [ m , m ·20 1/k ]. Para un rango de valores k , con el estimador puntual UMVU (más 1 para legibilidad) como referencia, esto produce:

Las observaciones inmediatas son:

Tenga en cuenta que m / k no puede usarse ingenuamente (o más bien ( m  +  m / k  − 1)/ k ) como una estimación del error estándar SE , ya que el error estándar de un estimador se basa en el máximo de la población (un parámetro). y utilizar una estimación para estimar el error en esa misma estimación es un razonamiento circular .

análisis bayesiano

El enfoque bayesiano del problema de los tanques alemanes [14] es considerar la probabilidad posterior de que el número de tanques enemigos sea , cuando el número de tanques observados es , y el número de serie máximo observado es .

La respuesta a este problema depende de la elección de prior . Se puede proceder utilizando una distribución previa adecuada sobre los números enteros positivos, por ejemplo, la distribución de Poisson o binomial negativa, donde se puede obtener una fórmula cerrada para la media posterior y la varianza posterior. [15] A continuación, adoptaremos un prior uniforme acotado.

Para abreviar, a continuación se escribe .

La probabilidad condicional

La regla de probabilidad condicional da

Probabilidad de que M conozca N y K

La expresion

es la probabilidad condicional de que el número de serie máximo observado, , sea igual a , cuando se sabe que el número de tanques enemigos, , es igual a , y se sabe que el número de tanques enemigos observados, , es igual a .

Es

donde es un coeficiente binomial y es un paréntesis de Iverson .

La expresión se puede derivar de la siguiente manera: responde a la pregunta: "¿Cuál es la probabilidad de que un número de serie específico sea el número más alto observado en una muestra de tanques, dado que hay tanques en total?"

Se puede pensar que el tamaño de la muestra es el resultado de sorteos individuales sin reemplazo. Supongamos que se observa en el número del sorteo . La probabilidad de que esto ocurra es:

Como se puede ver en el lado derecho, esta expresión es independiente y, por lo tanto, la misma para cada uno . Como se puede observar en diferentes sorteos, la probabilidad de que cualquier objeto específico sea el más grande observado es multiplicada por la probabilidad anterior:

Probabilidad de que M conozca sólo K

La expresión es la probabilidad de que el número de serie máximo sea igual a una vez que se hayan observado los tanques pero antes de que se hayan observado realmente los números de serie.

La expresión se puede reescribir en términos de otras cantidades marginando todas las posibles .

Probabilidad previa de que N conozca solo K

Suponemos que está fijado de antemano para que no tengamos que considerar ninguna distribución excesiva . Por tanto, nuestro prior puede depender de .

La expresion

es la credibilidad de que el número total de tanques, , es igual a cuando se sabe que el número de tanques observados es , pero antes de que se hayan observado los números de serie. Supongamos que se trata de una distribución uniforme discreta.

El límite superior debe ser finito, porque la función

no es una función de distribución masiva. Nuestro resultado a continuación no dependerá de .

Probabilidad posterior de que N conozca M y K

Disponiéndose que , para que lo anterior sea consistente con los datos observados:

Como , la sumatoria se aproxima (que es finita si k  ≥ 2). Por lo tanto, para , adecuadamente grande , tenemos

Para k  ≥ 1, la moda de distribución del número de tanques enemigos es m .

Para k  ≥ 2, la credibilidad de que el número de tanques enemigos sea igual a , es

La credibilidad de que el número de tanques enemigos, N , sea mayor que n , es

Valor medio y desviación estándar.

Para k  ≥ 3, N tiene el valor medio finito :

Para k  ≥ 4, N tiene la desviación estándar finita :

Estas fórmulas se derivan a continuación.

Fórmula de suma

La siguiente identidad de coeficiente binomial se utiliza a continuación para simplificar series relacionadas con el problema de los tanques alemanes.

Esta fórmula de suma es algo análoga a la fórmula integral

Estas fórmulas se aplican para k  > 1.

un tanque

La observación aleatoria de un tanque de una población de n tanques da el número de serie m con probabilidad 1/ n para m  ≤  n , y probabilidad cero para m  >  n . Usando la notación entre corchetes de Iverson, esto se escribe

Esta es la función de distribución masiva de probabilidad condicional de .

Cuando se considera una función de n para m fija , se trata de una función de verosimilitud.

La estimación de máxima verosimilitud para el número total de tanques es N 0  =  m , claramente una estimación sesgada ya que el número real puede ser mayor, potencialmente muchos más, pero no puede ser menor.

La verosimilitud marginal (es decir, marginada sobre todos los modelos) es infinita , siendo una cola de la serie armónica .

pero

¿Dónde está el número armónico ?

La función de distribución masiva de credibilidad depende del límite anterior :

El valor medio de es

dos tanques

Si se observan dos tanques en lugar de uno, entonces la probabilidad de que el mayor de los dos números de serie observados sea igual a m , es

Cuando se considera una función de n para m fija, esta es una función de verosimilitud

La probabilidad total es

y la función de distribución masiva de credibilidad es

La mediana satisface

entonces

y entonces la mediana es

pero el valor medio de es infinito

Muchos tanques

Función de distribución masiva de credibilidad

La probabilidad condicional de que la mayor de las k observaciones tomadas de los números de serie {1,..., n }, sea igual a m , es

La función de verosimilitud de n es la misma expresión.

La probabilidad total es finita para k ≥ 2:

La función de distribución masiva de credibilidad es

La función de distribución acumulativa complementaria es la credibilidad de que N > x

La función de distribución acumulativa es la credibilidad de que Nx

Orden de magnitud

El orden de magnitud del número de tanques enemigos es

Incertidumbre estadística

La incertidumbre estadística es la desviación estándar , que satisface la ecuación

Entonces

y

La relación varianza-media es simplemente

Ver también

Otras lecturas

Notas

  1. ^ Una declaración de política de las Fuerzas Terrestres Blindadas de noviembre de 1943 concluía: "No se acepta la recomendación de una proporción limitada de tanques que lleven un cañón de 90 mm por las siguientes razones: El tanque M4 ha sido ampliamente aclamado como el mejor tanque del campo de batalla actual ... Parece que nuestras fuerzas no temen al tanque alemán Mark VI (Tiger). No puede haber otra base para el tanque T26 que la concepción de un duelo de tanque contra tanque, lo cual. Se cree que es incorrecto e innecesario." [1]
  2. ^ Se desconocía el límite inferior, pero para simplificar la discusión, este detalle generalmente se omite, tomando el límite inferior como 1.
  3. ^ Ruggles & Brodie es en gran medida un análisis y un resumen práctico, no matemático; el problema de estimación solo se menciona en la nota a pie de página 3 en la página 82, donde estiman el máximo como "muestra máxima + brecha promedio".
  4. ^ Como se analizó en ataque de cumpleaños , se puede esperar una colisión después de números 1,25 H , si se elige entre H posibles salidas. Esta raíz cuadrada corresponde a la mitad de los dígitos. Por ejemplo, en cualquier base, la raíz cuadrada de un número de 100 dígitos es aproximadamente un número de 50 dígitos.
  5. ^ En una distribución continua, no hay ningún término −1.
  6. ^ Dado un conjunto particular de observaciones, es más probable que este conjunto ocurra si el máximo de la población es el máximo de la muestra, no un valor más alto (no puede ser más bajo).
  7. ^ El máximo de la muestra nunca es mayor que el máximo de la población, pero puede ser menor, por lo que es un estimador sesgado : tenderá a subestimar el máximo de la población.
  8. ^ Por ejemplo, la brecha entre 2 y 7 es (7 − 2) − 1 = 4, y consta de 3, 4, 5 y 6.

Referencias

  1. ^ Declaración de política de AGF. Jefe de Gabinete AGF. Noviembre de 1943. MHI
  2. ^ Ruggles y Brodie 1947, págs. 73–74.
  3. ^ ab "Gavyn Davies hace los cálculos: cómo una fórmula estadística ganó la guerra". El guardián . 20 de julio de 2006 . Consultado el 6 de julio de 2014 .
  4. ^ Matthews, Robert (23 de mayo de 1998), "Los detectives de datos van a la guerra, barra lateral en el artículo" Verdades ocultas "", New Scientist , archivado desde el original el 18 de abril de 2001
  5. ^ Bob Carruthers (1 de marzo de 2012). Pantera V en combate. Libros de coda. págs.94–. ISBN 978-1-908538-15-4.
  6. ^ Ruggles y Brodie 1947, págs. 82–83.
  7. ^ Ruggles y Brodie 1947, pág. 89.
  8. ^ Ruggles y Brodie 1947, págs. 90–91.
  9. ^ Volz 2008.
  10. ^ abc Johnson 1994.
  11. ^ "¿Cuántas computadoras Commodore 64 se vendieron realmente?". pagetable.com . 1 de febrero de 2011. Archivado desde el original el 6 de marzo de 2016 . Consultado el 6 de julio de 2014 .
  12. ^ "Cohetes y misiles". www.spaceline.org .
  13. ^ Joyce, inteligente. "Problema de los tanques alemanes". Escuela secundaria Logan . Archivado desde el original el 24 de abril de 2012 . Consultado el 8 de julio de 2014 .
  14. ^ Simón, Cory (2023). "Un tratamiento bayesiano del problema de los tanques alemanes". El inteligente matemático . arXiv : 2301.00046 . doi : 10.1007/s00283-023-10274-6 .
  15. ^ Höhle, M.; Celebrado, L. (2006). "Estimación bayesiana del tamaño de una población" (PDF) . Informe técnico SFB 386, n.º 399, Departamento de Estadística, Universidad de Múnich . Consultado el 17 de abril de 2016 .

Trabajos citados