Muchos experimentos de este tipo analizan un genoma completo simultáneamente, es decir, cada gen presente en una célula en particular.
Los genes contienen las instrucciones para producir ARN mensajero (ARNm), pero en cualquier momento cada célula produce ARNm a partir de sólo una fracción de los genes que porta.
Hay muchos factores que determinan si un gen está activado o desactivado tales como la hora del día, si la célula se está dividiendo activamente o no, su medio ambiente local y las señales químicas procedentes de otras células.
Un medicamento que interfiera con este receptor podría prevenir o tratar el cáncer de mama.
Esto es debido al corte y splicing alternativo y también debido a que las células llevan a cabo importantes cambios en las proteínas a través de la modificación postraduccional después de haberlas sintetizado primero, por lo que un gen dado sirve como base para muchas versiones posibles de una proteína en particular.
Si bien es más importante saber la proteína exacta que sintetiza la célula (proteómica) que saber cuánto ARN mensajero se fabrica de cada gen, los perfiles de expresión génica ofrecen una imagen global en un único ensayo.
En otras palabras, el científico está haciendo una predicción específica sobre los niveles de expresión que podría resultar ser falsa.
Si no hay una hipótesis, no hay algo que refutar, pero el perfil de expresión puede ayudar a identificar una posible hipótesis para futuros experimentos.
En primer lugar, diferentes células y tejidos expresan un subconjunto de genes como una consecuencia directa de la diferenciación celular, por lo tanto, muchos genes se desactivan.
En cuarto lugar, las limitaciones financieras restringen los experimentos de perfiles de expresión a un pequeño número de observaciones del mismo gen en condiciones idénticas, lo que reduce el poder estadístico del experimento, lo que hace imposible para dicho experimento el poder identificar cambios importantes pero sutiles.
Además, establecer arbitrariamente el margen a una revisión de expresión doble no es biológicamente acertado, ya que no son considerados muchos genes de importancia biológica obvia.
En lugar de identificar los genes expresados diferencialmente utilizando un corte en el cambio en la proporción, se puede utilizar una variedad de pruebas estadísticas o pruebas ómnibus como ANOVA, todos los cuales consideran el “fold change” y la variabilidad para crear un valor p, una estimación de la frecuencia con que se podría observar los datos por pura casualidad.
El Proyecto MAQC[14] da recomendaciones para guiar a los investigadores en la selección de los métodos más estándar (por ejemplo, el uso conjunto del valor p y el fold-change para la selección de los genes expresados diferencialmente), para que los experimentos realizados en diferentes laboratorios sean concordantes.
Algunas anotaciones de genes son más fidedignas que otras, algunas no están presentes.
¿Las proteínas sintetizadas a partir de estos genes realizan funciones similares?
Los genes tienen otros atributos además de la función biológica, las propiedades químicas y la localización celular.
[21] Por ejemplo, podríamos ver la evidencia de que un determinado gen produce una proteína para producir una enzima que activa una proteína para encender un segundo gen en nuestra lista.
En este sentido necesitamos procedimientos rigurosos de estadística para probar que los resultados biológicos obtenidos tienen o no significancia.
Esta expectativa es un promedio, por lo que algunas veces se espera ver más de 1.
La pregunta es, con qué frecuencia veríamos 40 en lugar de 1, por pura casualidad.
Se podría plantear además la hipótesis, que el tratamiento experimental regula el colesterol, ya que el tratamiento parece regular selectivamente los genes asociados con el colesterol.
Es muy posible que la cantidad de estas proteínas relacionadas con el colesterol se mantenga constante bajo las condiciones experimentales.
Por último, las proteínas normalmente desempeñan muchos papeles, por lo que estos genes pueden estar regulados no por su asociación compartida con la recogida de colesterol sino por compartir un papel en un proceso totalmente independiente.
Supongamos que hay 40 genes asociados con un proceso conocido, por ejemplo, una predisposición a la diabetes.
En cualquier caso, estas estadísticas miden qué tan diferente es el comportamiento de un pequeño conjunto de genes comparado con genes que no pertenecen a ese pequeño grupo.
[26] A partir de esta información se pueden generar nuevas hipótesis sobre biología o probar las ya existentes.