stringtranslate.com

Bioestadística

La bioestadística (también conocida como biometría ) es una rama de la estadística que aplica métodos estadísticos a una amplia gama de temas de biología . Abarca el diseño de experimentos biológicos , la recopilación y análisis de datos de esos experimentos y la interpretación de los resultados.

Historia

Bioestadística y genética.

El modelado bioestadístico forma una parte importante de numerosas teorías biológicas modernas. Los estudios de genética , desde sus inicios, utilizaron conceptos estadísticos para comprender los resultados experimentales observados. Algunos científicos en genética incluso contribuyeron con avances estadísticos con el desarrollo de métodos y herramientas. Gregor Mendel inició los estudios genéticos investigando patrones de segregación genética en familias de guisantes y utilizó estadísticas para explicar los datos recopilados. A principios del siglo XX, después del redescubrimiento del trabajo de Mendel sobre la herencia mendeliana, había lagunas en la comprensión entre la genética y el darwinismo evolutivo. Francis Galton intentó ampliar los descubrimientos de Mendel con datos humanos y propuso un modelo diferente con fracciones de la herencia provenientes de cada ancestro componiendo una serie infinita. A esto lo llamó la teoría de la " Ley de la Herencia Ancestral ". Sus ideas fueron fuertemente discrepadas por William Bateson , quien siguió las conclusiones de Mendel, de que la herencia genética era exclusivamente de los padres, la mitad de cada uno de ellos. Esto llevó a un vigoroso debate entre los biometristas, que apoyaban las ideas de Galton, como Raphael Weldon , Arthur Dukinfield Darbishire y Karl Pearson , y los mendelianos, que apoyaban las ideas de Bateson (y Mendel), como Charles Davenport y Wilhelm Johannsen . Posteriormente, los biometristas no pudieron reproducir las conclusiones de Galton en diferentes experimentos y prevalecieron las ideas de Mendel. En la década de 1930, los modelos basados ​​en el razonamiento estadístico habían ayudado a resolver estas diferencias y a producir la síntesis evolutiva moderna neodarwiniana .

Resolver estas diferencias también permitió definir el concepto de genética de poblaciones y unió genética y evolución. Las tres figuras principales en el establecimiento de la genética de poblaciones y esta síntesis se basaron en las estadísticas y desarrollaron su uso en biología.

Estos y otros bioestadísticos, biólogos matemáticos y genetistas con inclinaciones estadísticas ayudaron a unir la biología evolutiva y la genética en un todo consistente y coherente que podría comenzar a ser modelado cuantitativamente .

Paralelamente a este desarrollo general, el trabajo pionero de D'Arcy Thompson en Sobre el crecimiento y la forma también ayudó a añadir disciplina cuantitativa al estudio biológico.

A pesar de la importancia fundamental y la frecuente necesidad del razonamiento estadístico, es posible que haya habido una tendencia entre los biólogos a desconfiar o desaprobar los resultados que no son cualitativamente aparentes. Una anécdota describe a Thomas Hunt Morgan prohibiendo la calculadora Friden en su departamento de Caltech , diciendo: "Bueno, soy como un tipo que busca oro a lo largo de las orillas del río Sacramento en 1849. Con un poco de inteligencia, puedo agacharme y "Recoger grandes pepitas de oro. Y mientras pueda hacerlo, no voy a permitir que ninguna persona en mi departamento desperdicie recursos escasos en minería de placer ". [3]

Planificación de la investigación

Cualquier investigación en ciencias de la vida se propone responder a una pregunta científica que podamos tener. Para responder a esta pregunta con un alto nivel de certeza, necesitamos resultados precisos . La correcta definición de la hipótesis principal y del plan de investigación reducirá los errores a la hora de tomar una decisión en la comprensión de un fenómeno. El plan de investigación podría incluir la pregunta de investigación, la hipótesis que se probará, el diseño experimental , los métodos de recopilación de datos , las perspectivas del análisis de datos y los costos involucrados. Es fundamental realizar el estudio basándose en los tres principios básicos de la estadística experimental: aleatorización , replicación y control local.

Pregunta de investigación

La pregunta de investigación definirá el objetivo de un estudio. La investigación estará encabezada por la pregunta, por lo que debe ser concisa, al mismo tiempo que se centre en temas interesantes y novedosos que puedan mejorar la ciencia y el conocimiento de ese campo. Para definir la forma de plantear la pregunta científica , podría ser necesaria una revisión exhaustiva de la literatura. Por lo que la investigación puede ser útil para aportar valor a la comunidad científica . [4]

Definición de hipótesis

Una vez definido el objetivo del estudio, se pueden proponer las posibles respuestas a la pregunta de investigación, transformando esta pregunta en una hipótesis . La propuesta principal se denomina hipótesis nula (H 0 ) y suele basarse en un conocimiento permanente sobre el tema o en una ocurrencia evidente del fenómeno, sustentado en una profunda revisión de la literatura. Podemos decir que es la respuesta esperada estándar para los datos en la situación en prueba . En general, H O supone que no hay asociación entre tratamientos . Por otro lado, la hipótesis alternativa es la negación de H O . Asume algún grado de asociación entre el tratamiento y el resultado. Sin embargo, la hipótesis se sustenta en la investigación de preguntas y sus respuestas esperadas e inesperadas. [4]

Como ejemplo, consideremos grupos de animales similares (ratones, por ejemplo) bajo dos sistemas de dieta diferentes. La pregunta de investigación sería: ¿cuál es la mejor dieta? En este caso, H 0 sería que no hay diferencia entre las dos dietas en el metabolismo de los ratones (H 0 : μ 1 = μ 2 ) y la hipótesis alternativa sería que las dietas tienen efectos diferentes sobre el metabolismo de los animales (H 1 : μ 1 ≠ μ 2 ).

La hipótesis la define el investigador, de acuerdo con sus intereses en responder la pregunta principal. Además de eso, la hipótesis alternativa puede ser más de una hipótesis. Puede asumir no sólo diferencias entre los parámetros observados, sino también su grado de diferencias ( es decir, mayor o menor).

Muestreo

Por lo general, un estudio tiene como objetivo comprender el efecto de un fenómeno sobre una población . En biología , una población se define como todos los individuos de una determinada especie , en un área específica en un momento determinado. En bioestadística, este concepto se extiende a una variedad de colecciones posibles de estudio. Aunque, en bioestadística, una población no son sólo los individuos, sino el total de un componente específico de sus organismos , como el genoma completo , o todos los espermatozoides , para los animales, o el área foliar total, para una planta, por ejemplo. .

No es posible tomar las medidas de todos los elementos de una población . Por eso, el proceso de muestreo es muy importante para la inferencia estadística . El muestreo se define como obtener aleatoriamente una parte representativa de toda la población, para hacer inferencias posteriores sobre la población. Por lo tanto, la muestra podría captar la mayor variabilidad en una población. [5] El tamaño de la muestra está determinado por varias cosas, desde el alcance de la investigación hasta los recursos disponibles. En la investigación clínica , el tipo de ensayo, como inferioridad , equivalencia y superioridad, es clave para determinar el tamaño de la muestra . [4]

Diseño experimental

Los diseños experimentales sustentan esos principios básicos de la estadística experimental . Hay tres diseños experimentales básicos para asignar tratamientos aleatoriamente en todas las parcelas del experimento . Son los diseños completamente al azar , los diseños de bloques al azar y los diseños factoriales . Los tratamientos se pueden organizar de muchas maneras dentro del experimento. En agricultura , el correcto diseño experimental es la raíz de un buen estudio y la disposición de los tratamientos dentro del estudio es fundamental porque el ambiente afecta en gran medida a las parcelas ( plantas , ganado , microorganismos ). Estas disposiciones principales se pueden encontrar en la literatura bajo los nombres de " celosías ", "bloques incompletos", " trama dividida ", "bloques aumentados" y muchos otros. Todos los diseños pueden incluir parcelas de control , determinadas por el investigador, para proporcionar una estimación del error durante la inferencia .

En los estudios clínicos , las muestras suelen ser más pequeñas que en otros estudios biológicos y, en la mayoría de los casos, el efecto ambiental se puede controlar o medir. Es común utilizar ensayos clínicos controlados aleatorios , donde los resultados generalmente se comparan con diseños de estudios observacionales como los de casos y controles o de cohortes . [6]

Recopilación de datos

Los métodos de recopilación de datos deben considerarse en la planificación de la investigación, porque influyen en gran medida en el tamaño de la muestra y el diseño experimental.

La recopilación de datos varía según el tipo de datos. Para datos cualitativos , la recopilación se puede realizar con cuestionarios estructurados o mediante observación, considerando la presencia o intensidad de la enfermedad, utilizando criterios de puntuación para categorizar los niveles de aparición. [7] Para datos cuantitativos , la recopilación se realiza midiendo información numérica utilizando instrumentos.

En estudios de agricultura y biología, los datos de rendimiento y sus componentes se pueden obtener mediante medidas métricas . Sin embargo, las lesiones por plagas y enfermedades en las plataformas se obtienen mediante observación, considerando escalas de puntuación para los niveles de daño. Especialmente, en los estudios genéticos, se deben considerar métodos modernos para la recopilación de datos en el campo y en el laboratorio, como plataformas de alto rendimiento para la fenotipificación y el genotipado. Estas herramientas permiten experimentos más grandes y, a su vez, es posible evaluar muchas parcelas en menos tiempo que un método de recopilación de datos únicamente basado en humanos. Finalmente, todos los datos de interés recopilados deben almacenarse en un marco de datos organizado para su posterior análisis.

Análisis e interpretación de datos.

Herramientas descriptivas

Los datos se pueden representar mediante tablas o representaciones gráficas , como gráficos de líneas, gráficos de barras, histogramas y diagramas de dispersión. Además, las medidas de tendencia central y variabilidad pueden resultar muy útiles para describir una descripción general de los datos. Siga algunos ejemplos:

Tablas de frecuencia

Un tipo de tabla es la tabla de frecuencia , que consta de datos organizados en filas y columnas, donde la frecuencia es el número de apariciones o repeticiones de datos. La frecuencia puede ser: [8]

Absoluto : representa el número de veces que aparece un valor determinado;

Relativa : obtenida por la división de la frecuencia absoluta por el número total;

En el siguiente ejemplo, tenemos la cantidad de genes en diez operones del mismo organismo.

Genes = {2,3,3,4,5,3,3,3,3,4}

Gráfico de líneas

Figura A: Ejemplo de gráfico de líneas . La tasa de natalidad en Brasil (2010-2016); [9] Figura B: Ejemplo de gráfico de barras. La tasa de natalidad en Brasil para los meses de diciembre de 2010 a 2016; Figura C: Ejemplo de diagrama de caja : número de glicinas en el proteoma de ocho organismos diferentes (AH); Figura D: Ejemplo de un diagrama de dispersión.

Los gráficos de líneas representan la variación de un valor sobre otra métrica, como el tiempo. En general, los valores se representan en el eje vertical, mientras que la variación temporal se representa en el eje horizontal. [10]

Gráfico de barras

Un gráfico de barras es un gráfico que muestra datos categóricos como barras que presentan alturas (barra vertical) o anchos (barra horizontal) proporcionales para representar valores. Los gráficos de barras proporcionan una imagen que también podría representarse en formato tabular. [10]

En el ejemplo del gráfico de barras, tenemos la tasa de natalidad en Brasil para los meses de diciembre de 2010 a 2016. [9] La fuerte caída en diciembre de 2016 refleja el brote del virus Zika en la tasa de natalidad en Brasil.

Histogramas

Ejemplo de histograma.

El histograma (o distribución de frecuencias) es una representación gráfica de un conjunto de datos tabulado y dividido en clases uniformes o no uniformes. Fue introducido por primera vez por Karl Pearson . [11]

Gráfico de dispersión

Un diagrama de dispersión es un diagrama matemático que utiliza coordenadas cartesianas para mostrar los valores de un conjunto de datos. Un diagrama de dispersión muestra los datos como un conjunto de puntos, cada uno presenta el valor de una variable que determina la posición en el eje horizontal y otra variable en el eje vertical. [12] También se les llama gráfico de dispersión , gráfico de dispersión , diagrama de dispersión o diagrama de dispersión . [13]

Significar

La media aritmética es la suma de una colección de valores ( ) dividida por el número de elementos de esta colección ( ).

Mediana

La mediana es el valor en medio de un conjunto de datos.

Modo

La moda es el valor de un conjunto de datos que aparece con mayor frecuencia. [14]

Diagrama de caja

El diagrama de caja es un método para representar gráficamente grupos de datos numéricos. Los valores máximo y mínimo están representados por las líneas, y el rango intercuartil (IQR) representa entre el 25 y el 75% de los datos. Los valores atípicos se pueden representar como círculos.

Coeficientes de correlación

Aunque las correlaciones entre dos tipos diferentes de datos pueden inferirse mediante gráficos, como el diagrama de dispersión, es necesario validarlo mediante información numérica. Por esta razón, se requieren coeficientes de correlación . Proporcionan un valor numérico que refleja la fuerza de una asociación. [10]

Coeficiente de correlación de Pearson

Diagrama de dispersión que demuestra la correlación de Pearson para diferentes valores de ρ.

El coeficiente de correlación de Pearson es una medida de asociación entre dos variables, X e Y. Este coeficiente, generalmente representado por ρ (rho) para la población y r para la muestra, asume valores entre −1 y 1, donde ρ = 1 representa una relación perfecta. correlación positiva, ρ = −1 representa una correlación negativa perfecta y ρ = 0 no es una correlación lineal. [10]

Estadística inferencial

Se utiliza para hacer inferencias [15] sobre una población desconocida, mediante estimación y/o prueba de hipótesis. En otras palabras, es deseable obtener parámetros para describir la población de interés, pero como los datos son limitados, es necesario hacer uso de una muestra representativa para poder estimarlos. Con ello, es posible probar hipótesis previamente definidas y aplicar las conclusiones a toda la población. El error estándar de la media es una medida de variabilidad crucial para hacer inferencias. [5]

La prueba de hipótesis es esencial para hacer inferencias sobre poblaciones con el objetivo de responder preguntas de investigación, como se establece en la sección "Planificación de la investigación". Los autores definieron cuatro pasos a establecer: [5]

  1. La hipótesis a probar : como se dijo anteriormente, tenemos que trabajar con la definición de una hipótesis nula (H 0 ), que se va a probar, y una hipótesis alternativa . Pero deben definirse antes de la implementación del experimento.
  2. Nivel de significancia y regla de decisión : una regla de decisión depende del nivel de significancia o, en otras palabras, de la tasa de error aceptable (α). Es más fácil pensar que definimos un valor crítico que determina la significancia estadística cuando se compara un estadístico de prueba con él. Entonces, α también debe estar predefinido antes del experimento.
  3. Experimento y análisis estadístico : Es cuando realmente se implementa el experimento siguiendo el diseño experimental adecuado , se recogen los datos y se evalúan las pruebas estadísticas más adecuadas.
  4. Inferencia : Se realiza cuando se rechaza o no se rechaza la hipótesis nula , con base en la evidencia que aporta la comparación de los valores p y α. Se señala que el hecho de no rechazar H 0 simplemente significa que no hay suficiente evidencia para apoyar su rechazo, pero no que esta hipótesis sea cierta.

Un intervalo de confianza es un rango de valores que puede contener el verdadero valor real del parámetro dado un cierto nivel de confianza. El primer paso es estimar la mejor estimación insesgada del parámetro poblacional. El valor superior del intervalo se obtiene mediante la suma de esta estimación con la multiplicación entre el error estándar de la media y el nivel de confianza. El cálculo del valor menor es similar, pero en lugar de una suma, se debe aplicar una resta. [5]

Consideraciones estadísticas

Potencia y error estadístico.

Al probar una hipótesis, hay dos tipos de errores estadísticos posibles: error de tipo I y error de tipo II . El error tipo I o falso positivo es el rechazo incorrecto de una hipótesis nula verdadera y el error tipo II o falso negativo es el no rechazar una hipótesis nula falsa . El nivel de significancia indicado por α es la tasa de error tipo I y debe elegirse antes de realizar la prueba. La tasa de error tipo II se denota por β y el poder estadístico de la prueba es 1 − β.

valor p

El valor p es la probabilidad de obtener resultados tan extremos o más extremos que los observados, suponiendo que la hipótesis nula (H 0 ) sea cierta. También se le llama probabilidad calculada. Es común confundir el valor p con el nivel de significancia (α) , pero α es un umbral predefinido para llamar a resultados significativos. Si p es menor que α, se rechaza la hipótesis nula (H 0 ). [dieciséis]

Pruebas múltiples

En múltiples pruebas de la misma hipótesis, la probabilidad de que ocurran falsos positivos (tasa de error familiar) aumenta y se utiliza alguna estrategia para controlar esta ocurrencia. Esto normalmente se logra mediante el uso de un umbral más estricto para rechazar hipótesis nulas. La corrección de Bonferroni define un nivel de significancia global aceptable, denotado por α* y cada prueba se compara individualmente con un valor de α = α*/m. Esto garantiza que la tasa de error familiar en todas las m pruebas sea menor o igual a α*. Cuando m es grande, la corrección de Bonferroni puede ser demasiado conservadora. Una alternativa a la corrección de Bonferroni es controlar la tasa de descubrimiento falso (FDR) . El FDR controla la proporción esperada de hipótesis nulas rechazadas (los llamados descubrimientos) que son falsas (rechazos incorrectos). Este procedimiento garantiza que, para pruebas independientes, la tasa de descubrimiento falso sea como máximo q*. Así, la FDR es menos conservadora que la corrección de Bonferroni y tiene más poder, a costa de más falsos positivos. [17]

Comprobaciones de robustez y especificaciones erróneas

La hipótesis principal que se está probando (p. ej., no hay asociación entre tratamientos y resultados) suele ir acompañada de otros supuestos técnicos (p. ej., sobre la forma de la distribución de probabilidad de los resultados) que también forman parte de la hipótesis nula. Cuando los supuestos técnicos se violan en la práctica, la hipótesis nula puede rechazarse con frecuencia incluso si la hipótesis principal es cierta. Se dice que estos rechazos se deben a una especificación errónea del modelo. [18] Verificar si el resultado de una prueba estadística no cambia cuando los supuestos técnicos se modifican ligeramente (los llamados controles de robustez) es la principal forma de combatir las especificaciones erróneas.

Criterios de selección del modelo.

La selección de criterios del modelo seleccionará o modelará el modelo verdadero más aproximado. El criterio de información de Akaike (AIC) y el criterio de información bayesiano (BIC) son ejemplos de criterios asintóticamente eficientes.

Desarrollos y big data

Los acontecimientos recientes han tenido un gran impacto en la bioestadística. Dos cambios importantes han sido la capacidad de recopilar datos a una escala de alto rendimiento y la capacidad de realizar análisis mucho más complejos utilizando técnicas computacionales. Esto proviene del desarrollo en áreas como tecnologías de secuenciación , Bioinformática y Aprendizaje automático ( Aprendizaje automático en bioinformática ).

Uso en datos de alto rendimiento

Las nuevas tecnologías biomédicas como los microarrays , los secuenciadores de próxima generación (para genómica) y la espectrometría de masas (para proteómica) generan enormes cantidades de datos, lo que permite realizar muchas pruebas simultáneamente. [19] Se requiere un análisis cuidadoso con métodos bioestadísticos para separar la señal del ruido. Por ejemplo, se podría utilizar una micromatriz para medir miles de genes simultáneamente, determinando cuáles de ellos tienen una expresión diferente en las células enfermas que en las células normales. Sin embargo, sólo una fracción de los genes se expresará diferencialmente. [20]

La multicolinealidad ocurre a menudo en entornos bioestadísticos de alto rendimiento. Debido a la alta intercorrelación entre los predictores (como los niveles de expresión genética ), la información de un predictor podría estar contenida en otro. Podría ser que sólo el 5% de los predictores sean responsables del 90% de la variabilidad de la respuesta. En tal caso, se podría aplicar la técnica bioestadística de reducción de dimensiones (por ejemplo, mediante análisis de componentes principales). Las técnicas estadísticas clásicas como la regresión lineal o logística y el análisis discriminante lineal no funcionan bien para datos de alta dimensión (es decir, cuando el número de observaciones n es menor que el número de características o predictores p: n < p). De hecho, se pueden obtener valores de R 2 bastante altos a pesar del muy bajo poder predictivo del modelo estadístico. Estas técnicas estadísticas clásicas (especialmente la regresión lineal de mínimos cuadrados ) se desarrollaron para datos de baja dimensión (es decir, donde el número de observaciones n es mucho mayor que el número de predictores p: n >> p). En casos de alta dimensionalidad, siempre se debe considerar un conjunto de pruebas de validación independiente y la correspondiente suma de cuadrados residual (RSS) y R 2 del conjunto de pruebas de validación, no los del conjunto de entrenamiento.

A menudo, resulta útil agrupar información de varios predictores. Por ejemplo, el análisis de enriquecimiento de conjuntos de genes (GSEA) considera la perturbación de conjuntos de genes completos (funcionalmente relacionados) en lugar de genes individuales. [21] Estos conjuntos de genes podrían ser vías bioquímicas conocidas o genes funcionalmente relacionados. La ventaja de este enfoque es que es más sólido: es más probable que se encuentre un solo gen falsamente perturbado que una vía completa falsamente perturbada. Además, se puede integrar el conocimiento acumulado sobre las vías bioquímicas (como la vía de señalización JAK-STAT ) utilizando este enfoque.

Avances bioinformáticos en bases de datos, minería de datos e interpretación biológica.

El desarrollo de bases de datos biológicas permite el almacenamiento y gestión de datos biológicos con la posibilidad de garantizar el acceso a usuarios de todo el mundo. Son útiles para investigadores que depositan datos, recuperan información y archivos (en bruto o procesados) originados en otros experimentos o indexan artículos científicos, como PubMed . Otra posibilidad es buscar el término deseado (un gen, una proteína, una enfermedad, un organismo, etc.) y comprobar todos los resultados relacionados con esta búsqueda. Existen bases de datos dedicadas a los SNP ( dbSNP ), el conocimiento sobre la caracterización de genes y sus rutas ( KEGG ) y la descripción de la función de los genes clasificándolos por componente celular, función molecular y proceso biológico ( Gene Ontology ). [22] Además de las bases de datos que contienen información molecular específica, existen otras que son amplias en el sentido de que almacenan información sobre un organismo o grupo de organismos. Como ejemplo de una base de datos dirigida a un solo organismo, pero que contiene muchos datos sobre él, está la base de datos genética y molecular de Arabidopsis thaliana – TAIR. [23] Phytozome, [24] a su vez, almacena los ensamblajes y archivos de anotaciones de docenas de genomas de plantas, y también contiene herramientas de visualización y análisis. Además, existe una interconexión entre algunas bases de datos en el intercambio de información y una iniciativa importante fue la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) [25] que relaciona datos de DDBJ, [26] EMBL-EBI, [27] y NCBI. . [28]

Hoy en día, el aumento del tamaño y la complejidad de los conjuntos de datos moleculares conduce al uso de potentes métodos estadísticos proporcionados por algoritmos informáticos desarrollados por el área de aprendizaje automático . Por tanto, la minería de datos y el aprendizaje automático permiten detectar patrones en datos con una estructura compleja, como los biológicos, mediante el uso de métodos de aprendizaje supervisado y no supervisado , regresión, detección de clusters y minería de reglas de asociación , entre otros. [22] Para indicar algunos de ellos, los mapas autoorganizados y k -medias son ejemplos de algoritmos de cluster; La implementación de redes neuronales y los modelos de máquinas de vectores de soporte son ejemplos de algoritmos comunes de aprendizaje automático.

El trabajo colaborativo entre biólogos moleculares, bioinformáticos, estadísticos e informáticos es importante para realizar correctamente un experimento, desde la planificación, pasando por la generación y análisis de datos, hasta terminar con la interpretación biológica de los resultados. [22]

Uso de métodos computacionalmente intensivos.

Por otro lado, el advenimiento de la tecnología informática moderna y los recursos informáticos relativamente baratos han permitido utilizar métodos bioestadísticos intensivos en informática, como los métodos de arranque y remuestreo.

En los últimos tiempos, los bosques aleatorios han ganado popularidad como método para realizar clasificación estadística . Las técnicas de bosque aleatorio generan un panel de árboles de decisión. Los árboles de decisión tienen la ventaja de que puedes dibujarlos e interpretarlos (incluso con conocimientos básicos de matemáticas y estadística). Por tanto, los bosques aleatorios se han utilizado para sistemas de apoyo a las decisiones clínicas. [ cita necesaria ]

Aplicaciones

Salud pública

Salud pública , incluida epidemiología , investigación de servicios de salud , nutrición , salud ambiental y políticas y gestión de atención médica. En estos contenidos de medicina es importante considerar el diseño y análisis de los ensayos clínicos . Como ejemplo, está la evaluación del estado de gravedad de un paciente con el pronóstico del resultado de una enfermedad.

Con las nuevas tecnologías y los conocimientos genéticos, la bioestadística ahora también se utiliza para la medicina de sistemas , que consiste en una medicina más personalizada. Para ello, se realiza una integración de datos de diferentes fuentes, incluidos datos convencionales de pacientes, parámetros clínico-patológicos, datos moleculares y genéticos, así como datos generados por tecnologías de nueva ómica adicionales. [29]

Genética cuantitativa

El estudio de la genética de poblaciones y la genética estadística con el fin de vincular la variación del genotipo con una variación del fenotipo . En otras palabras, es deseable descubrir la base genética de un rasgo mensurable, un rasgo cuantitativo, que esté bajo control poligénico. Una región del genoma responsable de un rasgo continuo se denomina locus de rasgo cuantitativo (QTL). El estudio de QTL se vuelve factible mediante el uso de marcadores moleculares y la medición de rasgos en poblaciones, pero su mapeo requiere la obtención de una población a partir de un cruce experimental, como una F2 o cepas/líneas endogámicas recombinantes (RIL). Para buscar regiones QTL en un genoma, se debe construir un mapa genético basado en el enlace. Algunos de los algoritmos de mapeo QTL más conocidos son el mapeo de intervalos, el mapeo de intervalos compuesto y el mapeo de intervalos múltiples. [30]

Sin embargo, la resolución del mapeo de QTL se ve afectada por la cantidad de recombinación analizada, un problema para especies en las que es difícil obtener descendencia grande. Además, la diversidad de alelos está restringida a individuos provenientes de padres contrastantes, lo que limita los estudios de diversidad de alelos cuando tenemos un panel de individuos que representan una población natural. [31] Por esta razón, se propuso el estudio de asociación de todo el genoma para identificar QTL en función del desequilibrio de ligamiento , es decir, la asociación no aleatoria entre rasgos y marcadores moleculares. Fue aprovechado por el desarrollo del genotipado de SNP de alto rendimiento . [32]

En el mejoramiento animal y vegetal , el uso de marcadores en la selección con fines de mejoramiento, principalmente moleculares, colaboró ​​al desarrollo de la selección asistida por marcadores . Si bien el mapeo QTL tiene una resolución limitada, GWAS no tiene suficiente potencia cuando se trata de variantes raras de efecto pequeño que también están influenciadas por el medio ambiente. Así, surge el concepto de Selección Genómica (GS) con el fin de utilizar todos los marcadores moleculares en la selección y permitir predecir el desempeño de los candidatos en esta selección. La propuesta es genotipar y fenotipar una población de entrenamiento, desarrollar un modelo que pueda obtener los valores genéticos estimados genómicos (GEBV) de individuos pertenecientes a una población de genotipo pero no de fenotipo, denominada población de prueba. [33] Este tipo de estudio también podría incluir una población de validación, pensando en el concepto de validación cruzada , en la que los resultados fenotípicos reales medidos en esta población se comparan con los resultados fenotípicos basados ​​en la predicción, lo que se utiliza para comprobar la precisión. del modelo.

A modo de resumen, algunos puntos sobre la aplicación de la genética cuantitativa son:

Datos de expresión

Los estudios de expresión diferencial de genes a partir de datos de RNA-Seq , como RT-qPCR y microarrays , exigen una comparación de condiciones. El objetivo es identificar genes que tengan un cambio significativo en abundancia entre diferentes condiciones. Luego, los experimentos se diseñan adecuadamente, con réplicas para cada condición/tratamiento, aleatorización y bloqueo, cuando sea necesario. En RNA-Seq, la cuantificación de la expresión utiliza la información de lecturas mapeadas que se resumen en alguna unidad genética, como exones que forman parte de una secuencia genética. Como los resultados de los microarrays pueden aproximarse mediante una distribución normal, los datos de recuentos de RNA-Seq se explican mejor mediante otras distribuciones. La primera distribución utilizada fue la de Poisson , pero subestima el error muestral, generando falsos positivos. Actualmente, la variación biológica se considera mediante métodos que estiman un parámetro de dispersión de una distribución binomial negativa . Se utilizan modelos lineales generalizados para realizar las pruebas de significación estadística y, como el número de genes es alto, se debe considerar la corrección de múltiples pruebas. [34] Algunos ejemplos de otros análisis de datos genómicos provienen de experimentos de microarrays o proteómica . [35] [36] A menudo se refiere a enfermedades o etapas de la enfermedad. [37]

Otros estudios

Herramientas

Existen muchas herramientas que se pueden utilizar para realizar análisis estadísticos de datos biológicos. La mayoría de ellos son útiles en otras áreas del conocimiento, abarcando un gran número de aplicaciones (alfabéticamente). Aquí hay breves descripciones de algunos de ellos:

Alcance y programas de formación.

Casi todos los programas educativos en bioestadística son de nivel de posgrado . Se encuentran con mayor frecuencia en escuelas de salud pública, afiliadas a escuelas de medicina, silvicultura o agricultura, o como foco de aplicación en departamentos de estadística.

En los Estados Unidos, donde varias universidades tienen departamentos de bioestadística dedicados, muchas otras universidades de primer nivel integran profesores de bioestadística en estadística u otros departamentos, como el de epidemiología . Por tanto, los departamentos que llevan el nombre de "bioestadística" pueden existir bajo estructuras muy diferentes. Por ejemplo, se han fundado departamentos de bioestadística relativamente nuevos centrados en la bioinformática y la biología computacional , mientras que los departamentos más antiguos, típicamente afiliados a escuelas de salud pública , tendrán líneas de investigación más tradicionales que involucran estudios epidemiológicos y ensayos clínicos , así como bioinformática. En las universidades más grandes de todo el mundo, donde existen departamentos de estadística y de bioestadística, el grado de integración entre los dos departamentos puede variar desde el mínimo indispensable hasta una colaboración muy estrecha. En general, la diferencia entre un programa de estadística y un programa de bioestadística es doble: (i) los departamentos de estadística suelen albergar investigaciones teóricas/metodológicas que son menos comunes en los programas de bioestadística y (ii) los departamentos de estadística tienen líneas de investigación que pueden incluir aplicaciones biomédicas pero también otras áreas como la industria ( control de calidad ), los negocios y la economía y áreas biológicas distintas de la medicina.

Revistas especializadas

Ver también

Referencias

  1. ^ Centro de Innovación Transformadora, Universidad Tecnológica de Swinburne. "Allan, Frances Elizabeth (Betty) - Persona - Enciclopedia de ciencia e innovación australiana". www.eoas.info . Consultado el 26 de octubre de 2022 .
  2. ^ Gunter, Chris (10 de diciembre de 2008). "Genética cuantitativa". Naturaleza . 456 (7223): 719. Código bibliográfico : 2008Natur.456..719G. doi : 10.1038/456719a . PMID  19079046.
  3. ^ Charles T. Munger (3 de octubre de 2003). "Economía académica: fortalezas y fallas después de considerar las necesidades interdisciplinarias" (PDF) . Archivado (PDF) desde el original el 9 de octubre de 2022.
  4. ^ abc Nizamuddin, Sarah L.; Nizamuddin, Junaid; Mueller, Ariel; Ramakrishna, Harish; Shahul, Sajid S. (octubre de 2017). "Desarrollo de una hipótesis y planificación estadística". Revista de anestesia cardiotorácica y vascular . 31 (5): 1878–1882. doi :10.1053/j.jvca.2017.04.020. PMID  28778775.
  5. ^ abcd Overholser, Brian R; Sowinski, Kevin M (2017). "Introducción a la bioestadística: parte I". Nutrición en la práctica clínica . 22 (6): 629–35. doi :10.1177/0115426507022006629. PMID  18042950.
  6. ^ Szczech, Lynda Anne; Coladonato, José A.; Owen, William F. (4 de octubre de 2002). "Conceptos clave en bioestadística: uso de la estadística para responder a la pregunta "¿Existe alguna diferencia?"". Seminarios de Diálisis . 15 (5): 347–351. doi :10.1046/j.1525-139X.2002.00085.x. PMID  12358639. S2CID  30875225.
  7. ^ Sandelowski, Margarete (2000). "Combinación de técnicas de análisis, recopilación de datos y muestreo cualitativo y cuantitativo en estudios de métodos mixtos". Investigación en Enfermería y Salud . 23 (3): 246–255. CiteSeerX 10.1.1.472.7825 . doi :10.1002/1098-240X(200006)23:3<246::AID-NUR9>3.0.CO;2-H. PMID  10871540. S2CID  10733556. 
  8. ^ Matemáticas, Sangaku. "Frecuencia absoluta, relativa, acumulada y tablas estadísticas - Probabilidad y Estadística". www.sangakoo.com . Consultado el 10 de abril de 2018 .
  9. ^ ab "DATASUS: TabNet Win32 3.0: Nascidos vivos - Brasil". DATOS: Tecnologia da Informação a Serviço do SUS .
  10. ^ abcdForthofer , Ronald N.; Lee, Eun Sul (1995). Introducción a la Bioestadística. Una guía para el diseño, el análisis y el descubrimiento . Prensa académica. ISBN 978-0-12-262270-0.
  11. ^ Pearson, Karl (1 de enero de 1895). "X. Contribuciones a la teoría matemática de la evolución. —II. Variación sesgada en material homogéneo". Fil. Trans. R. Soc. Londres. A . 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . ISSN  0264-3820.
  12. ^ Utts, Jessica M. (2005). Ver a través de las estadísticas (3ª ed.). Belmont, California: Thomson, Brooks/Cole. ISBN 978-0534394028. OCLC  56568530.
  13. ^ Jarrell, Stephen B. (1994). Estadísticas básicas . Dubuque, Iowa: Wm. C. Pub marrón. ISBN 978-0697215956. OCLC  30301196.
  14. ^ Gujarati, Damodar N. (2006). Econometría . McGraw-Hill Irwin.
  15. ^ Watson, Lyndsey (2009). "Cuadro de trabajo de conceptos básicos de bioestadística en salud pública y conceptos básicos de bioestadística: informática estadística con Excel". Revista de Salud Pública de Australia y Nueva Zelanda . 33 (2): 196–197. doi : 10.1111/j.1753-6405.2009.00372.x . ISSN  1326-0200.
  16. ^ Panadero, Monya (2016). "Los estadísticos advierten sobre el uso indebido de los valores P". Naturaleza . 531 (7593): 151. Bibcode :2016Natur.531..151B. doi : 10.1038/naturaleza.2016.19503 . PMID  26961635.
  17. ^ Benjamini, Y. & Hochberg, Y. Control de la tasa de descubrimientos falsos: un enfoque práctico y poderoso para pruebas múltiples. Revista de la Real Sociedad de Estadística. Serie B (Metodológica) 57, 289–300 (1995).
  18. ^ "Hipótesis nula". www.statlect.com . Consultado el 8 de mayo de 2018 .
  19. ^ Hayden, Erika Check (8 de febrero de 2012). "Bioestadística: análisis revelador". Naturaleza . 482 (7384): 263–265. doi : 10.1038/nj7384-263a . PMID  22329008.
  20. ^ Efron, Bradley (febrero de 2008). "Microarrays, Bayes empírico y el modelo de dos grupos". Ciencia estadística . 23 (1): 1–22. arXiv : 0808.0572 . doi :10.1214/07-STS236. S2CID  8417479.
  21. ^ Subramanian, A.; Tamayo, P.; Mootha, VK; Mukherjee, S.; Ebert, BL; Gillette, MA; Paulovich, A.; Pomeroy, SL; Golub, TR; Lander, ES; Mesirov, JP (30 de septiembre de 2005). "Análisis de enriquecimiento de conjuntos de genes: un enfoque basado en el conocimiento para interpretar perfiles de expresión de todo el genoma". Procedimientos de la Academia Nacional de Ciencias . 102 (43): 15545–15550. Código Bib : 2005PNAS..10215545S. doi : 10.1073/pnas.0506580102 . PMC 1239896 . PMID  16199517. 
  22. ^ abcde Moore, Jason H (2007). "Bioinformática". Revista de fisiología celular . 213 (2): 365–9. doi : 10.1002/jcp.21218 . PMID  17654500. S2CID  221831488.
  23. ^ "TAIR - Página de inicio". www.arabidopsis.org .
  24. ^ "Fitozoma". phytozome.jgi.doe.gov .
  25. ^ "Colaboración internacional de bases de datos de secuencias de nucleótidos - INSDC". www.insdc.org .
  26. ^ "Arriba". www.ddbj.nig.ac.jp. ​11 de enero de 2024.
  27. ^ "El Instituto Europeo de Bioinformática <EMBL-EBI". www.ebi.ac.uk.
  28. ^ "Centro Nacional de Información Biotecnológica". www.ncbi.nlm.nih.gov . Biblioteca Nacional de Medicina de EE. UU. –.
  29. ^ Apweiler, Rolf; et al. (2018). "¿Adónde va la medicina de sistemas?". Medicina experimental y molecular . 50 (3): e453. doi : 10.1038/emm.2017.290. PMC 5898894 . PMID  29497170. 
  30. ^ Zeng, Zhao-Bang (2005). "Mapeo de QTL y la base genética de la adaptación: desarrollos recientes". Genética . 123 (1–2): 25–37. doi :10.1007/s10709-004-2705-0. PMID  15881678. S2CID  1094152.
  31. ^ Korte, Arthur; Farlow, Ashley (2013). "Las ventajas y limitaciones del análisis de rasgos con GWAS: una revisión". Métodos vegetales . 9 : 29. doi : 10.1186/1746-4811-9-29 . PMC 3750305 . PMID  23876160. 
  32. ^ Zhu, Chengsong; Sangre, Michael; Broquel, Edward S; Yu, Jianming (2008). "Estado y perspectivas del mapeo de asociaciones en plantas". El genoma vegetal . 1 : 5–20. doi : 10.3835/plantgenome2008.02.0089 .
  33. ^ Crossa, José; Pérez-Rodríguez, Paulino; Cuevas, Jaime; Montesinos López, Osval; Jarquín, Diego; De Los Campos, Gustavo; Burgueño, Juan; González-Camacho, Juan M; Pérez-Elizalde, Sergio; Beyene, Yosef; Dreisigacker, Susanne; Singh, Ravi; Zhang, Xuecai; Gowda, Manje; Roorkiwal, Manish; Rutkoski, Jessica; Varshney, Rajeev K (2017). "Selección genómica en fitomejoramiento: métodos, modelos y perspectivas" (PDF) . Tendencias en ciencia vegetal . 22 (11): 961–975. doi :10.1016/j.tplants.2017.08.011. PMID  28965742. Archivado (PDF) desde el original el 9 de octubre de 2022.
  34. ^ Oshlack, Alicia; Robinson, Mark D; Joven, Matthew D (2010). "Desde lecturas de RNA-seq hasta resultados de expresión diferencial". Biología del genoma . 11 (12): 220. doi : 10.1186/gb-2010-11-12-220 . PMC 3046478 . PMID  21176179. 
  35. ^ Helen Causton; John Quackenbush; Alvis Brazma (2003). "Análisis estadístico de datos de microarrays de expresión genética" . Wiley-Blackwell.
  36. ^ Velocidad de Terry (2003). Análisis de datos de expresión genética de microarrays: una guía para principiantes . Chapman y Hall/CRC.
  37. ^ Frank Emmert-Streib; Matías Dehmer (2010). Bioestadística Médica para Enfermedades Complejas . Wiley-Blackwell. ISBN 978-3-527-32585-6.
  38. ^ Warren J. Ewens; Gregorio R. Grant (2004). Métodos estadísticos en bioinformática: una introducción . Saltador.
  39. ^ Matías Dehmer; Frank Emmert-Streib; Armin Graber; Armindo Salvador (2011). Estadística Aplicada a la Biología de Redes: Métodos en Biología de Sistemas . Wiley-Blackwell. ISBN 978-3-527-32750-8.
  40. ^ ab "Inicio - VSN Internacional". www.vsni.co.uk.
  41. ^ "CycDesigN - VSN Internacional". www.vsni.co.uk.
  42. ^ Piepho, Hans-Peter; Williams, Emlyn R; Michel, Volker (2015). "Más allá de los cuadrados latinos: un breve recorrido por los diseños de filas y columnas". Revista de Agronomía . 107 (6): 2263. doi :10.2134/agronj15.0144.
  43. ^ "La red integral de archivos de R". cran.r-project.org .
  44. ^ Renganathan V (2021). "Bioestadística explorada a través del software R: una descripción general" . Vinaitherthan Renganathan. ISBN 9789354936586.
  45. ^ Stegmann, Dr. Ralf (1 de julio de 2019). "PLA 3.0". PLA 3.0 – Software para Análisis Bioestadístico . Consultado el 2 de julio de 2019 .
  46. ^ "Bioestadística - Académico de Oxford". OUP Académico .
  47. ^ "La Revista Internacional de Bioestadística".
  48. ^ "Se cerrarán PubMed Journals". 15 de junio de 2018.
  49. ^ https://ebph.it/ Epidemiología
  50. ^ "Biometría". bibliotecaenlínea.wiley.com . doi :10.1111/(ISSN)1541-0420.
  51. ^ "Biometrika - Académico de Oxford". OUP Académico .
  52. ^ "Diario biométrico". bibliotecaenlínea.wiley.com . doi :10.1002/(ISSN)1521-4036.
  53. ^ "Comunicaciones en biometría y ciencia de cultivos". agrobiol.sggw.waw.pl .
  54. ^ "Aplicaciones estadísticas en genética y biología molecular". www.degruyter.com . 1 de mayo de 2002.
  55. ^ "Métodos estadísticos en investigación médica". Revistas SAGE .
  56. ^ "Estadísticas farmacéuticas". bibliotecaenlínea.wiley.com .
  57. ^ "Estadística en Medicina". bibliotecaenlínea.wiley.com . doi :10.1002/(ISSN)1097-0258.

enlaces externos

Medios relacionados con la bioestadística en Wikimedia Commons