Los genes se encuentran físicamente cerca en el genoma y su expresión es generalmente corregulada.
Así, se han desarrollado múltiples herramientas genómicas computacionales para predecir grupos de genes metabólicos.
[9] Este consta de tres genes principales: pcbAB, pcbC y penDE.
La minería genómica para grupos de genes biosintéticos (Genome Mining for Byosynthetic Gene Clusters, o BCGs) se ha convertido en una parte íntegra del descubrimiento de productos naturales.
Los más de 200 mil genomas microbianos disponibles públicamente en la actualidad poseen información nueva, abundante e importante para la química.
Al representarlos en un espacio euclidiano, BiG-SLiCE puede agrupar BCGs en GCFs de una manera no emparejada y casi lineal.
Estos grupos de genes regulan y ejecutan las vías metabólicas, que son esenciales para las funciones celulares importantes como el crecimiento, la reproducción y la respuesta a los estímulos ambientales.En este contexto, las herramientas basadas en machine learning han surgido como aliadas para identificar, clasificar y comprender la función de estos grupos de genes.
[21][22] Desde entonces, se ha demostrado que estos grupos de genes pueden surgir en un genoma mediante el reordenamiento del mismo, duplicación de genes, o por transferencia genética horizontal, y algunos grupos metabólicos han evolucionado convergentemente en múltiples especies.
[28]De igual manera, los genes dentro de un operón comparten una misma secuencia regulatoria, lo que les permite coordinar su expresión en respuesta a ciertos estímulos ambientales.