En sus primeras etapas, la predicción de genes se basaba en una laboriosa experimentación sobre células y organismos vivos.
Una vez que las secuencias de ADN candidatas han sido determinadas, es un problema algorítmico relativamente sencillo el buscar eficientemente un genoma objetivo para las coincidencias, totales o parciales, exactas o inexactas.
Sin embargo, aplicar esta aproximación sistemáticamente requiere una exhaustiva secuenciación de ARNm y productos proteicos.
No sólo esto resulta caro, sino que en organismos complejos sólo un subconjunto de todos los genes del genoma del organismo se expresan en un determinado momento, lo que significa que la evidencia extrínseca para muchos genes no está accesible fácilmente en cualquier cultivo de una única célula.
Algunos genes humanos, por ejemplo, podrían sólo expresarse durante su desarrollo como embrión o feto, lo que dificultaría su estudio por razones éticas.
Primero, el promotor y otras señales regulatorias en estos genomas son más complicadas y menos comprendidas que en los procariotas, haciéndolas más complicadas de reconocer fidedignamente.
Segundo, los mecanismos de splicing (‘’empalme’’, y también ‘’ayuste’’, en alguna literatura en castellano) empleado por las células eucarióticas suponen que una determinada secuencia codificante (a proteínas) en el genoma es dividida en diversas partes (exones), separadas por secuencias no codificantes (intrones).
Es, por lo tanto, mucho más difícil detectar periodicidades u otras propiedades conocidas del ADN codificante en los eucariotas.
El sistema GLIMMER es un identificador de genes ampliamente usado y muy preciso para organismos procariotas.
Los predictores de genes ‘’ab initio’’, en comparación, han conseguido sólo éxitos limitados.
Ejemplos notables de estos son los programas GENSCAN y geneid.
Estas técnicas juegan ahora un papel central en la anotación de todos los genomas.