La paradoja del niño o la niña rodea un conjunto de preguntas en la teoría de la probabilidad , que también se conocen como el problema de los dos niños , [1] los hijos del señor Smith [2] y el problema de la señora Smith . La formulación inicial de la pregunta se remonta al menos a 1959, cuando Martin Gardner la presentó en su columna "Juegos matemáticos " de octubre de 1959 en Scientific American . La tituló El problema de los dos niños y formuló la paradoja de la siguiente manera:
Gardner inicialmente dio las respuestas1/2 y 1/3 , respectivamente, pero luego reconoció que la segunda pregunta era ambigua. [1] Su respuesta podría ser 1/2 , dependiendo del procedimiento por el cual se obtuvo la información "al menos uno de ellos es un niño". La ambigüedad, dependiendo de la redacción exacta y de las posibles suposiciones, fue confirmada por Maya Bar-Hillel y Ruma Falk , [3] y Raymond S. Nickerson . [4]
Otras variantes de esta pregunta, con distintos grados de ambigüedad, han sido popularizadas por Ask Marilyn en Parade Magazine , [5] John Tierney de The New York Times , [6] y Leonard Mlodinow en The Drunkard's Walk . [7] Un estudio científico mostró que cuando se transmitía información idéntica, pero con diferentes redacciones parcialmente ambiguas que enfatizaban diferentes puntos, el porcentaje de estudiantes de MBA que respondieron 1/2 pasó del 85% al 39%. [2]
La paradoja ha estimulado una gran controversia. [4] La paradoja surge de si el planteamiento del problema es similar para las dos preguntas. [2] [7] La respuesta intuitiva es 1/2 . [2] Esta respuesta es intuitiva si la pregunta lleva al lector a creer que hay dos posibilidades igualmente probables para el sexo del segundo hijo (es decir, niño y niña), [2] y que la probabilidad de estos resultados es absoluta, no condicional . [8]
En primer lugar, se supone que el espacio de todos los eventos posibles se puede enumerar fácilmente, lo que proporciona una definición extensional de los resultados: {BB, BG, GB, GG}. [9] Esta notación indica que hay cuatro combinaciones posibles de niños, etiquetando a los niños como B y a las niñas como G, y utilizando la primera letra para representar al niño mayor. En segundo lugar, se supone que estos resultados son igualmente probables. [9] Esto implica el siguiente modelo , un proceso de Bernoulli con p = 1/2:
Bajo los supuestos antes mencionados, en este problema se selecciona una familia aleatoria. En este espacio muestral hay cuatro eventos igualmente probables :
Solo dos de estos posibles eventos cumplen los criterios especificados en la pregunta (es decir, GG, GB). Dado que ambas posibilidades en el nuevo espacio muestral {GG, GB} son igualmente probables, y solo una de las dos, GG, incluye dos niñas, la probabilidad de que el niño más pequeño también sea una niña es 1/2 .
Esta pregunta es idéntica a la pregunta uno, excepto que en lugar de especificar que el hijo mayor es un niño, se especifica que al menos uno de ellos es un niño. En respuesta a las críticas de los lectores a la pregunta planteada en 1959, Gardner dijo que no es posible responder sin información que no se proporcionó. En concreto, que dos procedimientos diferentes para determinar que "al menos uno es un niño" podrían llevar a la misma redacción del problema. Pero conducen a diferentes respuestas correctas:
Grinstead y Snell sostienen que la pregunta es ambigua, de la misma manera que lo hizo Gardner. [10] Dejan al lector la decisión de si el procedimiento que arroja 1/3 como respuesta es razonable para el problema planteado anteriormente. La formulación de la pregunta que estaban considerando específicamente es la siguiente:
En esta formulación la ambigüedad es más evidente, porque no está claro si se nos permite suponer que un niño específico es un niño, dejando al otro niño en la incertidumbre, o si se debe interpretar de la misma manera que "al menos un niño". Esta ambigüedad deja múltiples posibilidades que no son equivalentes y deja la necesidad de hacer suposiciones sobre cómo se obtuvo la información, como sostienen Bar-Hillel y Falk, donde diferentes suposiciones pueden llevar a diferentes resultados (porque el enunciado del problema no estaba lo suficientemente bien definido como para permitir una única interpretación y respuesta directa).
Por ejemplo, supongamos que un observador ve al señor Smith paseando con uno solo de sus hijos. Si tiene dos varones, entonces ese niño debe ser un niño. Pero si tiene un niño y una niña, ese niño podría haber sido una niña. Por lo tanto, verlo con un niño elimina no solo las combinaciones en las que tiene dos niñas, sino también las combinaciones en las que tiene un hijo y una hija y elige a la hija para caminar con ella.
Por lo tanto, si bien es cierto que todo posible Sr. Smith tiene al menos un niño (es decir, la condición es necesaria), no se puede suponer que se pretenda que todo Sr. Smith tenga al menos un niño. Es decir, el enunciado del problema no dice que tener un niño sea una condición suficiente para que se identifique al Sr. Smith como alguien que tiene un niño de esta manera.
Al comentar la versión de Gardner del problema, Bar-Hillel y Falk [3] señalan que "el Sr. Smith, a diferencia del lector, presumiblemente conoce el sexo de sus dos hijos cuando hace esta afirmación", es decir, que "tengo dos hijos y al menos uno de ellos es un niño". Se debe suponer además que el Sr. Smith siempre informaría este hecho si fuera cierto, y permanecería en silencio o diría que tiene al menos una hija, para que la respuesta correcta sea 1/3 como aparentemente pretendía Gardner originalmente. Pero bajo ese supuesto, si permanece en silencio o dice que tiene una hija, hay una probabilidad del 100% de que tenga dos hijas.
Si se supone que esta información se obtuvo observando a ambos hijos para ver si hay al menos un niño, la condición es necesaria y suficiente. Tres de los cuatro eventos igualmente probables para una familia con dos hijos en el espacio muestral anterior cumplen la condición, como se muestra en esta tabla:
Por lo tanto, si se supone que se consideraron ambos niños al buscar un niño, la respuesta a la pregunta 2 es 1/3 . Sin embargo, si primero se seleccionó la familia y luego se hizo una afirmación aleatoria y verdadera sobre el sexo de un niño en esa familia, independientemente de si se consideraron o no ambos, la forma correcta de calcular la probabilidad condicional no es contar todos los casos que incluyen un niño con ese sexo. En cambio, uno debe considerar solo las probabilidades en las que se hará la afirmación en cada caso. [10] Entonces, si ALOB representa el evento donde la afirmación es "al menos un niño", y ALOG representa el evento donde la afirmación es "al menos una niña", entonces esta tabla describe el espacio muestral:
Entonces, si al menos uno es un niño cuando el hecho se elige aleatoriamente, la probabilidad de que ambos sean niños es
La paradoja se produce cuando no se sabe cómo se generó la afirmación “al menos uno es un niño”. Cualquiera de las respuestas podría ser correcta, en función de lo que se suponga. [11]
Sin embargo, el " 1/3 "La respuesta se obtiene sólo suponiendo P(ALOB|BG) = P(ALOB|GB) = 1, lo que implica P(ALOG|BG) = P(ALOG|GB) = 0, es decir, el sexo del otro niño nunca se menciona aunque está presente. Como dicen Marks y Smith, "Sin embargo, esta suposición extrema nunca se incluye en la presentación del problema de los dos niños y seguramente no es lo que la gente tiene en mente cuando lo presenta". [11]
Otra forma de analizar la ambigüedad (para la pregunta 2) es hacer explícito el proceso generativo (todas las extracciones son independientes).
Siguiendo los argumentos de probabilidad clásicos, consideramos una urna grande que contiene dos niños. Suponemos que la probabilidad de que ambos sean niños es igual a la de que sean niñas. Los tres casos discernibles son, por tanto:
Éstas son las probabilidades previas .
Ahora añadimos el supuesto adicional de que "al menos uno es un niño" = B. Utilizando el teorema de Bayes , encontramos
donde P(A|B) significa "probabilidad de A dado B". P(B|BB) = probabilidad de al menos un niño dado que ambos son niños = 1. P(BB) = probabilidad de ambos niños = 1/4 de la distribución anterior. P(B) = probabilidad de que al menos uno sea un niño, que incluye los casos BB y G·B = 1/4 + 1/2 = 3/4 .
Obsérvese que, aunque el supuesto natural parece ser una probabilidad de 1/2 , por lo que el valor derivado de 1/3 parece bajo, el valor "normal" real para P(BB) es 1/4 , entonces el 1/3En realidad es un poco más alto .
La paradoja surge porque la segunda suposición es algo artificial, y al describir el problema en un contexto real las cosas se complican un poco. ¿Cómo sabemos que "al menos" uno es un niño? Una descripción del problema dice que miramos por una ventana, vemos solo un niño y es un niño. Esto parece ser la misma suposición. Sin embargo, es equivalente a "muestrear" la distribución (es decir, sacar un niño de la urna, comprobar que es un niño y luego reemplazarlo). Llamemos proposición "b" a la afirmación "la muestra es un niño". Ahora tenemos:
La diferencia aquí es la P(b), que es simplemente la probabilidad de sacar un niño de todos los casos posibles (es decir, sin el "al menos"), lo cual es claramente1/2 .
El análisis bayesiano se generaliza fácilmente al caso en el que relajamos el supuesto de población 50:50. Si no tenemos información sobre las poblaciones, entonces asumimos una "previa plana", es decir, P(GG) = P(BB) = P(G·B) = 1/3 . En este caso, el supuesto "al menos" produce el resultado P(BB|B) = 1/2 , y el supuesto de muestreo produce P(BB|b) = 2/3 , resultado que también se deriva de la regla de sucesión .
Tras la popularización de la paradoja por parte de Gardner, se la ha presentado y discutido en diversas formas. La primera variante presentada por Bar-Hillel y Falk [3] está redactada de la siguiente manera:
Bar-Hillel y Falk utilizan esta variante para destacar la importancia de considerar los supuestos subyacentes. La respuesta intuitiva es 1/2 y, al hacer las suposiciones más naturales, esto es correcto. Sin embargo, alguien puede argumentar que "...antes de que el Sr. Smith identifique al niño como su hijo, solo sabemos que es el padre de dos niños, BB, o de dos niñas, GG, o de una de cada uno en cualquier orden de nacimiento, es decir, BG o GB. Suponiendo nuevamente independencia y equiprobabilidad, comenzamos con una probabilidad de 1/4 que Smith es padre de dos niños. Descubrir que tiene al menos un niño descarta el evento GG. Como los tres eventos restantes eran equiprobables, obtenemos una probabilidad de 1/3 para BB." [3]
La suposición natural es que el Sr. Smith seleccionó al niño acompañante al azar. Si es así, como la combinación BB tiene el doble de probabilidad que BG o GB de haber dado como resultado que el niño caminara acompañante (y la combinación GG tiene probabilidad cero, lo que la descarta), la unión de los eventos BG y GB se vuelve equiprobable con el evento BB, y por lo tanto la probabilidad de que el otro niño también sea un niño es 1/2 . Sin embargo, Bar-Hillel y Falk sugieren un escenario alternativo. Imaginan una cultura en la que invariablemente se eligen niños en lugar de niñas como compañeros de caminata. En este caso, se supone que las combinaciones de BB, BG y GB tienen la misma probabilidad de haber dado como resultado que el compañero de caminata sea un niño, y por lo tanto la probabilidad de que el otro niño también sea un niño es 1/3 .
En 1991, Marilyn vos Savant respondió a un lector que le pidió que respondiera una variante de la paradoja del niño o la niña que incluía a los beagles. [5] En 1996, volvió a publicar la pregunta en una forma diferente. Las preguntas de 1991 y 1996, respectivamente, estaban formuladas de la siguiente manera:
Con respecto a la segunda formulación, Vos Savant dio la respuesta clásica de que las probabilidades de que la mujer tenga dos hijos son aproximadamente 1/3 mientras que las posibilidades de que el hombre tenga dos hijos son aproximadamente1/2 . En respuesta a la respuesta de un lector que cuestionaba su análisis, Vos Savant realizó una encuesta a lectores con exactamente dos hijos, de los cuales al menos uno es un niño. De 17.946 respuestas, el 35,9 % informó que tenía dos niños. [9]
Los artículos de Vos Savant fueron analizados por Carlton y Stansfield [9] en un artículo de 2005 en The American Statistician . Los autores no analizan la posible ambigüedad de la pregunta y concluyen que su respuesta es correcta desde una perspectiva matemática, dadas las suposiciones de que la probabilidad de que un niño sea niño o niña es igual y que el sexo del segundo niño es independiente del primero. Con respecto a su encuesta, dicen que "al menos valida la afirmación correcta de Vos Savant de que las "posibilidades" planteadas en la pregunta original, aunque suenan similares, son diferentes y que la primera probabilidad es ciertamente más cercana a 1 en 3 que a 1 en 2".
Carlton y Stansfield continúan analizando los supuestos comunes de la paradoja del niño o la niña. Demuestran que, en realidad, los niños varones tienen más probabilidades que las niñas de tener hijos, y que el sexo del segundo hijo no es independiente del sexo del primero. Los autores concluyen que, aunque los supuestos de la pregunta son contrarios a las observaciones, la paradoja sigue teniendo valor pedagógico, ya que "ilustra una de las aplicaciones más intrigantes de la probabilidad condicional". [9] Por supuesto, los valores de probabilidad reales no importan; el propósito de la paradoja es demostrar una lógica aparentemente contradictoria, no las tasas de natalidad reales.
Supongamos que nos dicen no sólo que el señor Smith tiene dos hijos, y uno de ellos es un niño, sino también que el niño nació un martes: ¿cambia esto los análisis anteriores? Una vez más, la respuesta depende de cómo se presentó esta información: qué tipo de proceso de selección produjo este conocimiento.
Siguiendo la tradición del problema, supongamos que en la población de familias con dos hijos, el sexo de los dos niños es independiente entre sí, con la misma probabilidad de ser niño o niña, y que la fecha de nacimiento de cada niño es independiente de la del otro niño. La probabilidad de nacer en un día determinado de la semana es 1/7 .
Del teorema de Bayes se desprende que la probabilidad de tener dos niños, dado que uno de ellos nació un martes, viene dada por:
Supongamos que la probabilidad de nacer un martes es ε = 1/7 que se establecerá después de llegar a la solución general. El segundo factor en el numerador es simplemente 1/4 , la probabilidad de tener dos niños. El primer término del numerador es la probabilidad de que al menos un niño nazca el martes, dado que la familia tiene dos niños, o 1 − (1 − ε ) 2 (uno menos la probabilidad de que ninguno de los niños nazca el martes). Para el denominador, descompongamos:
Cada término está ponderado con probabilidad .1/4 . El primer término ya lo conocemos por la observación anterior, el último término es 0 (no hay niños). y es ε , hay un solo niño, por lo que tiene ε de probabilidad de nacer el martes. Por lo tanto, la ecuación completa es:
Para , esto se reduce a
Si ε ahora se establece en 1/7 , la probabilidad se convierte en 13/27 , o aproximadamente 0,48. De hecho, a medida que ε se acerca a 0, la probabilidad total pasa a 1/2 , que es la respuesta esperada cuando se toma como muestra a un niño (por ejemplo, el hijo mayor es un niño) y, por lo tanto, se lo elimina del grupo de posibles hijos. En otras palabras, a medida que se dan más y más detalles sobre el niño (por ejemplo: nació el 1 de enero), la probabilidad de que el otro niño sea una niña se acerca a la mitad.
Parece que se introdujo información bastante irrelevante, pero la probabilidad del sexo del otro niño ha cambiado drásticamente con respecto a lo que era antes (la probabilidad de que el otro niño fuera una niña era 2/3 , cuando no se sabía que el niño nació el martes).
Para entender por qué es así, imaginemos que la encuesta de Marilyn vos Savant hubiera preguntado a los lectores en qué día de la semana nacían los niños de la familia. Si Marilyn dividiera entonces todo el conjunto de datos en siete grupos (uno por cada día de la semana en que nacía un niño), seis de las siete familias con dos niños se contarían en dos grupos (el grupo del día de la semana en que nació el niño 1 y el grupo del día de la semana en que nació el niño 2), duplicando, en cada grupo, la probabilidad de una combinación de niño-niño.
Sin embargo, ¿es realmente plausible que la familia con al menos un niño nacido un martes se haya formado eligiendo al azar una de esas familias? Es mucho más fácil imaginar el siguiente escenario.
Supongamos que el azar determina cuál de los dos niños abre la puerta. Entonces, el procedimiento fue (1) elegir una familia de dos niños al azar de entre todas las familias de dos niños (2) elegir uno de los dos niños al azar, (3) ver si es un niño y preguntar en qué día nació. La probabilidad de que el otro niño sea una niña es 1/2 . Este es un procedimiento muy diferente de (1) elegir una familia de dos hijos al azar de entre todas las familias con dos hijos, al menos uno varón, nacidos un martes. La probabilidad de que la familia esté formada por un niño y una niña es 14/27 , alrededor de 0,52.
Esta variante del problema del niño y la niña se analiza en muchos blogs de Internet y es el tema de un artículo de Ruma Falk. [12] La moraleja de la historia es que estas probabilidades no dependen únicamente de la información conocida, sino de cómo se obtuvo esa información.
Desde la posición del análisis estadístico, la pregunta relevante es a menudo ambigua y, como tal, no hay una respuesta "correcta". Sin embargo, esto no agota la paradoja del niño o la niña, ya que no es necesariamente la ambigüedad la que explica cómo se deriva la probabilidad intuitiva. Una encuesta como la de Vos Savant sugiere que la mayoría de las personas adoptan una comprensión del problema de Gardner que, si fuera coherente, los llevaría a la1/3Respuesta de probabilidad , pero la mayoría de las personas llegan intuitivamente a la respuesta.1/2Respuesta de probabilidad . A pesar de la ambigüedad, esto hace que el problema sea de interés para los investigadores psicológicos que buscan comprender cómo los humanos estiman la probabilidad.
Fox y Levav (2004) utilizaron el problema (llamado el problema del Sr. Smith , atribuido a Gardner, pero no redactado exactamente igual que la versión de Gardner) para probar teorías sobre cómo las personas estiman probabilidades condicionales. [2] En este estudio, la paradoja se planteó a los participantes de dos maneras:
Los autores argumentan que la primera formulación da al lector la impresión errónea de que hay dos resultados posibles para el "otro niño", [2] mientras que la segunda formulación da al lector la impresión de que hay cuatro resultados posibles, de los cuales uno ha sido rechazado (lo que resulta en 1/3 siendo la probabilidad de que ambos hijos sean varones, ya que quedan 3 resultados posibles, de los cuales solo uno es que ambos hijos sean varones). El estudio encontró que el 85% de los participantes respondió 1/2 para la primera formulación, mientras que solo el 39% respondió de esa manera a la segunda formulación. Los autores argumentaron que la razón por la que las personas responden de manera diferente a cada pregunta (junto con otros problemas similares, como el problema de Monty Hall y la paradoja de la caja de Bertrand ) se debe al uso de heurísticas ingenuas que no definen adecuadamente el número de resultados posibles. [2]