En estadística , el sesgo de muestreo es un sesgo en el que una muestra se recopila de tal manera que algunos miembros de la población prevista tienen una probabilidad de muestreo mayor o menor que otros. Da como resultado una muestra sesgada [1] de una población (o factores no humanos) en la que no todos los individuos, o instancias, tenían la misma probabilidad de haber sido seleccionados. [2] Si esto no se tiene en cuenta, los resultados pueden atribuirse erróneamente al fenómeno en estudio y no al método de muestreo .
Las fuentes médicas a veces se refieren al sesgo de muestreo como sesgo de verificación . [3] [4] El sesgo de verificación tiene básicamente la misma definición, [5] [6] pero a veces todavía se clasifica como un tipo separado de sesgo. [5]
El sesgo de muestreo generalmente se clasifica como un subtipo de sesgo de selección , [7] a veces denominado específicamente sesgo de selección de muestra , [8] [9] [10] pero algunos lo clasifican como un tipo de sesgo separado. [11] Una distinción, aunque no universalmente aceptada, del sesgo de muestreo es que socava la validez externa de una prueba (la capacidad de sus resultados de generalizarse a toda la población), mientras que el sesgo de selección aborda principalmente la validez interna de las diferencias o similitudes. encontrado en la muestra que nos ocupa. En este sentido, los errores que ocurren en el proceso de recolección de la muestra o cohorte causan un sesgo de muestreo, mientras que los errores en cualquier proceso posterior causan un sesgo de selección.
Sin embargo, el sesgo de selección y el sesgo de muestreo suelen utilizarse como sinónimos. [12]
El estudio de las condiciones médicas comienza con informes anecdóticos. Por su naturaleza, dichos informes sólo incluyen aquellos remitidos para diagnóstico y tratamiento. Un niño que no puede funcionar en la escuela tiene más probabilidades de ser diagnosticado con dislexia que un niño que tiene dificultades pero pasa. Un niño examinado por una afección tiene más probabilidades de que se le realicen pruebas y se le diagnostiquen otras afecciones, lo que distorsiona las estadísticas de comorbilidad . A medida que ciertos diagnósticos se asocian con problemas de conducta o discapacidad intelectual , los padres intentan evitar que sus hijos sean estigmatizados con esos diagnósticos, lo que introduce más sesgos. Estudios cuidadosamente seleccionados de poblaciones enteras muestran que muchas afecciones son mucho más comunes y, por lo general, mucho más leves de lo que se creía anteriormente.
Los genetistas tienen limitaciones en cuanto a cómo pueden obtener datos de poblaciones humanas. Como ejemplo, consideremos una característica humana. Nos interesa decidir si la característica se hereda como un rasgo mendeliano simple . Siguiendo las leyes de la herencia mendeliana , si los padres de una familia no tienen la característica, pero portan el alelo correspondiente, son portadores (por ejemplo, un heterocigoto no expresivo ). En este caso, cada uno de sus hijos tendrá un 25% de posibilidades de mostrar la característica. El problema surge porque no podemos saber qué familias tienen a ambos padres como portadores (heterocigotos) a menos que tengan un hijo que presente la característica. La descripción sigue el libro de texto de Sutton. [13]
La figura muestra los pedigríes de todas las posibles familias con dos hijos cuando los padres son portadores (Aa).
Las probabilidades de que cada una de las familias sean seleccionadas se dan en la figura, y también se proporciona la frecuencia de muestra de los niños afectados. En este caso sencillo, el investigador buscará una frecuencia de 4 ⁄ 7 o 5 ⁄ 8 para la característica, dependiendo del tipo de selección truncada utilizada.
Un ejemplo de sesgo de selección se denomina "efecto cavernícola". Gran parte de nuestro conocimiento sobre los pueblos prehistóricos proviene de las cuevas, como las pinturas rupestres realizadas hace casi 40.000 años. Si hubiera habido pinturas contemporáneas sobre árboles, pieles de animales o laderas de colinas, habrían desaparecido hace mucho tiempo. De manera similar, es más probable que la evidencia de fogatas, basureros , lugares de entierro , etc. permanezca intacta hasta la era moderna en las cuevas. Los pueblos prehistóricos están asociados con las cuevas porque es allí donde todavía existen datos, no necesariamente porque la mayoría de ellos vivieron en cuevas durante la mayor parte de sus vidas. [14]
El sesgo de muestreo es problemático porque es posible que una estadística calculada de la muestra sea sistemáticamente errónea. El sesgo de muestreo puede conducir a una sobreestimación o subestimación sistemática del parámetro correspondiente en la población. En la práctica se produce un sesgo de muestreo, ya que es prácticamente imposible garantizar una aleatoriedad perfecta en el muestreo. Si el grado de tergiversación es pequeño, entonces la muestra puede tratarse como una aproximación razonable a una muestra aleatoria. Además, si la muestra no difiere marcadamente en la cantidad que se mide, entonces una muestra sesgada aún puede ser una estimación razonable.
La palabra prejuicio tiene una fuerte connotación negativa. De hecho, los sesgos a veces provienen de una intención deliberada de engañar o de otro tipo de fraude científico . En el uso estadístico, el sesgo representa simplemente una propiedad matemática, sin importar si es deliberado o inconsciente o se debe a imperfecciones en los instrumentos utilizados para la observación. Si bien algunas personas pueden utilizar deliberadamente una muestra sesgada para producir resultados engañosos, lo más frecuente es que una muestra sesgada sea sólo un reflejo de la dificultad para obtener una muestra verdaderamente representativa o de la ignorancia del sesgo en su proceso de medición o análisis. Un ejemplo de cómo puede existir la ignorancia de un sesgo es el uso generalizado de una proporción (también conocida como cambio de veces ) como medida de diferencia en biología. Debido a que es más fácil lograr una razón grande con dos números pequeños con una diferencia dada, y relativamente más difícil lograr una razón grande con dos números grandes con una diferencia mayor, es posible que se pasen por alto grandes diferencias significativas al comparar medidas numéricas relativamente grandes. Algunos han llamado a esto un 'sesgo de demarcación' porque el uso de una razón (división) en lugar de una diferencia (resta) elimina los resultados del análisis de ciencia a pseudociencia (ver Problema de demarcación ).
Algunas muestras utilizan un diseño estadístico sesgado que, sin embargo, permite la estimación de parámetros. El Centro Nacional de Estadísticas de Salud de Estados Unidos , por ejemplo, sobremuestra deliberadamente a partir de poblaciones minoritarias en muchas de sus encuestas nacionales para obtener suficiente precisión en las estimaciones dentro de estos grupos. [15] Estas encuestas requieren el uso de ponderaciones muestrales (ver más adelante) para producir estimaciones adecuadas en todos los grupos étnicos. Siempre que se cumplan ciertas condiciones (principalmente que las ponderaciones se calculen y utilicen correctamente), estas muestras permiten una estimación precisa de los parámetros de la población.
Un ejemplo clásico de muestra sesgada y de los resultados engañosos que produjo ocurrió en 1936. En los primeros días de las encuestas de opinión, la revista American Literary Digest recopiló más de dos millones de encuestas postales y predijo que el candidato republicano en las elecciones presidenciales de Estados Unidos , Alf Landon , derrotaría al presidente en ejercicio, Franklin Roosevelt , por un amplio margen. El resultado fue exactamente lo contrario. La encuesta de Literary Digest representó una muestra recopilada de lectores de la revista, complementada con registros de propietarios de automóviles registrados y usuarios de teléfonos. Esta muestra incluía una representación excesiva de personas ricas que, como grupo, tenían más probabilidades de votar por el candidato republicano. Por el contrario, una encuesta de sólo 50.000 ciudadanos seleccionados por la organización de George Gallup predijo con éxito el resultado, lo que llevó a la popularidad de la encuesta de Gallup .
Otro ejemplo clásico ocurrió en las elecciones presidenciales de 1948 . La noche de las elecciones, el Chicago Tribune publicó el titular DEWEY DERROTA A TRUMAN , que resultó ser erróneo. Por la mañana, el sonriente presidente electo , Harry S. Truman , fue fotografiado sosteniendo un periódico con este titular. La razón por la que el Tribune se equivocó es que su editor confió en los resultados de una encuesta telefónica. La investigación por encuestas estaba entonces en su infancia y pocos académicos se dieron cuenta de que una muestra de usuarios de teléfono no era representativa de la población general. Los teléfonos aún no estaban muy extendidos y quienes los tenían solían ser prósperos y tener direcciones estables. (En muchas ciudades, el directorio telefónico de Bell System contenía los mismos nombres que el Registro Social ). Además, la encuesta de Gallup en la que el Tribune basó su titular tenía más de dos semanas en el momento de su publicación. [17]
En los datos de calidad del aire , los contaminantes (como el monóxido de carbono , el monóxido de nitrógeno , el dióxido de nitrógeno o el ozono ) frecuentemente muestran altas correlaciones , ya que provienen del mismo proceso químico. Estas correlaciones dependen del espacio (es decir, la ubicación) y del tiempo (es decir, el período). Por lo tanto, una distribución de contaminantes no es necesariamente representativa de cada lugar y cada período. Si un instrumento de medición de bajo costo se calibra con datos de campo de manera multivariada, más precisamente colocándolo junto a un instrumento de referencia, las relaciones entre los diferentes compuestos se incorporan al modelo de calibración. Al reubicar el instrumento de medición se pueden producir resultados erróneos. [18]
Un ejemplo del siglo XXI es la pandemia de COVID-19 , donde se ha demostrado que las variaciones en el sesgo de muestreo en las pruebas de COVID-19 explican amplias variaciones tanto en las tasas de letalidad como en la distribución por edad de los casos entre países. [19] [20]
Si se excluyen segmentos enteros de la población de una muestra, entonces no hay ajustes que puedan producir estimaciones que sean representativas de toda la población. Pero si algunos grupos están subrepresentados y el grado de subrepresentación puede cuantificarse, entonces las ponderaciones muestrales pueden corregir el sesgo. Sin embargo, el éxito de la corrección se limita al modelo de selección elegido. Si faltan ciertas variables, los métodos utilizados para corregir el sesgo podrían ser inexactos. [21]
Por ejemplo, una población hipotética podría incluir 10 millones de hombres y 10 millones de mujeres. Supongamos que una muestra sesgada de 100 pacientes incluyera 20 hombres y 80 mujeres. Un investigador podría corregir este desequilibrio asignando un peso de 2,5 a cada hombre y 0,625 a cada mujer. Esto ajustaría cualquier estimación para lograr el mismo valor esperado que una muestra que incluye exactamente 50 hombres y 50 mujeres, a menos que hombres y mujeres difieran en su probabilidad de participar en la encuesta. [ cita necesaria ]
Diccionario médico de Mosby, octava edición