El nacimiento de genes de novo es el proceso mediante el cual nuevos genes evolucionan a partir de ADN no codificante . [1] [3] Los genes de novo representan un subconjunto de genes nuevos y pueden codificar proteínas o actuar como genes de ARN. [4] Los procesos que gobiernan el nacimiento de genes de novo no se comprenden bien, aunque existen varios modelos que describen posibles mecanismos mediante los cuales puede ocurrir el nacimiento de genes de novo .
Aunque el nacimiento de genes de novo puede haber ocurrido en cualquier punto de la historia evolutiva de un organismo, los eventos de nacimientos de genes de novo antiguos son difíciles de detectar. La mayoría de los estudios de genes de novo hasta la fecha se han centrado en genes jóvenes, típicamente genes taxonómicamente restringidos (TRG) que están presentes en una sola especie o linaje, incluidos los llamados genes huérfanos , definidos como genes que carecen de cualquier homólogo identificable. Es importante señalar, sin embargo, que no todos los genes huérfanos surgen de novo , sino que pueden surgir a través de mecanismos bastante bien caracterizados, como la duplicación de genes (incluida la retroposición) o la transferencia horizontal de genes seguida de divergencia de secuencias o fisión/fusión de genes . [5] [6]
Aunque alguna vez se consideró que el nacimiento de genes de novo era algo muy improbable, [7] ahora se han descrito varios ejemplos inequívocos, [8] y algunos investigadores especulan que el nacimiento de genes de novo podría desempeñar un papel importante en la innovación evolutiva, la especificación morfológica y la adaptación, [9] [10] probablemente promovida por su bajo nivel de pleiotropía .
Ya en la década de 1930, JBS Haldane y otros sugirieron que las copias de genes existentes pueden dar lugar a nuevos genes con funciones novedosas. [6] En 1970, Susumu Ohno publicó el texto fundamental Evolution by Gene Duplication . [11] Durante algún tiempo posteriormente, la opinión consensuada fue que prácticamente todos los genes se derivaban de genes ancestrales, [12] y François Jacob comentó en un ensayo de 1977 que "la probabilidad de que una proteína funcional apareciera de novo por asociación aleatoria de aminoácidos es prácticamente cero." [7]
Sin embargo, ese mismo año, Pierre-Paul Grassé acuñó el término " sobreimpresión " para describir la aparición de genes mediante la expresión de marcos de lectura abiertos (ORF) alternativos que se superponen a genes preexistentes. [13] Estos nuevos ORF pueden estar fuera de marco o ser antisentido con el gen preexistente. También pueden estar en el marco del ORF existente, creando una versión truncada del gen original, o representar extensiones 3' de un ORF existente en un ORF cercano. Los dos primeros tipos de sobreimpresión pueden considerarse como un subtipo particular de nacimiento de genes de novo ; aunque se superpone con una región previamente codificante del genoma, la secuencia de aminoácidos primaria de la nueva proteína es completamente nueva y deriva de un marco que previamente no contenía un gen. Los primeros ejemplos de este fenómeno en bacteriófagos se informaron en una serie de estudios realizados entre 1976 y 1978, [14] [15] [16] y desde entonces se han identificado muchos otros ejemplos en virus, bacterias y varias especies eucariotas. [17] [18] [19] [20] [21] [22]
El fenómeno de la exonización también representa un caso especial de nacimiento de genes de novo , en el que, por ejemplo, secuencias intrónicas a menudo repetitivas adquieren sitios de empalme mediante mutación, lo que conduce a exones de novo . Esto se describió por primera vez en 1994 en el contexto de secuencias de Alu encontradas en las regiones codificantes de los ARNm de primates. [23] Curiosamente, estos exones de novo se encuentran con frecuencia en variantes de empalme menores, lo que puede permitir la "prueba" evolutiva de secuencias nuevas conservando al mismo tiempo la funcionalidad de las variantes de empalme principales. [24]
Aún así, algunos pensaban que la mayoría o todas las proteínas eucariotas se construyeban a partir de un conjunto limitado de exones de "tipo inicial". [25] Utilizando los datos de secuencia disponibles en ese momento, una revisión de 1991 estimó que el número de exones eucariotas ancestrales únicos era <60.000, [25] mientras que en 1992 se publicó un artículo que estimaba que la gran mayoría de las proteínas no pertenecían a más de 1.000 familias. [26] Sin embargo, casi al mismo tiempo, se publicó la secuencia del cromosoma III de la levadura en ciernes Saccharomyces cerevisiae , [27] lo que representa la primera vez que se secuencia un cromosoma completo de cualquier organismo eucariota. A principios de 1996 se completó la secuenciación de todo el genoma nuclear de la levadura mediante un esfuerzo internacional masivo de colaboración. [28] En su revisión del proyecto del genoma de la levadura, Bernard Dujon señaló que la inesperada abundancia de genes que carecían de homólogos conocidos fue quizás el hallazgo más sorprendente de todo el proyecto. [28]
En 2006 y 2007, una serie de estudios proporcionaron posiblemente los primeros ejemplos documentados de nacimiento de genes de novo que no implicaban sobreimpresión. [29] [30] [31] Estos estudios se realizaron utilizando los transcriptomas de las glándulas accesorias de Drosophila yakuba y Drosophila erecta e identificaron 20 genes putativos de linaje restringido que parecía poco probable que hubieran resultado de la duplicación de genes. [31] Levine y sus colegas identificaron y confirmaron cinco genes candidatos de novo específicos de Drosophila melanogaster y/o Drosophila simulans, estrechamente relacionados , mediante un enfoque riguroso que combinaba técnicas bioinformáticas y experimentales. [30]
Desde estos estudios iniciales, muchos grupos han identificado casos específicos de eventos de nacimiento de genes de novo en diversos organismos. [32] El primer gen de novo identificado en levadura, el gen BSC4 , se identificó en S. cerevisiae en 2008. Este gen muestra evidencia de selección purificadora, se expresa tanto a nivel de ARNm como de proteína, y cuando se elimina es sintéticamente letal con otros dos. genes de levadura, todos los cuales indican un papel funcional para el producto del gen BSC4 . [33] Históricamente, un argumento en contra de la noción de un nacimiento generalizado de genes de novo es la complejidad evolucionada del plegamiento de proteínas. Curiosamente, más tarde se demostró que Bsc4 adopta un estado parcialmente plegado que combina propiedades del plegamiento de proteínas nativas y no nativas. [34] En las plantas, el primer gen de novo que se caracterizó funcionalmente fue QQS , un gen de Arabidopsis thaliana identificado en 2009 que regula el metabolismo del carbono y el nitrógeno. [35] El primer gen de novo funcionalmente caracterizado identificado en ratones, un gen de ARN no codificante, también se describió en 2009. [36] En primates, un análisis informático de 2008 estimó que 15/270 genes huérfanos de primates se habían formado de novo . [37] Un informe de 2009 identificó los primeros tres genes humanos de novo , uno de los cuales es un objetivo terapéutico en la leucemia linfocítica crónica. [38] Desde entonces, una gran cantidad de estudios a nivel genómico han identificado una gran cantidad de genes huérfanos en muchos organismos, aunque siguen siendo objeto de debate el grado en que surgieron de novo y el grado en que pueden considerarse funcionales.
Hay dos enfoques principales para la identificación sistemática de genes nuevos: filoestratigrafía genómica [39] y métodos basados en sintenia . [40] Ambos enfoques se utilizan ampliamente, de forma individual o complementaria.
La filoestratigrafía genómica implica examinar cada gen en una especie focal o de referencia e inferir la presencia o ausencia de homólogos ancestrales mediante el uso de algoritmos de alineación de secuencias BLAST [41] o herramientas relacionadas. A cada gen de la especie focal se le puede asignar una edad (también conocida como “nivel de conservación” o “filoestrato genómico”) que se basa en una filogenia predeterminada, correspondiendo la edad a las especies relacionadas más lejanamente en las que se detecta un homólogo. [39] Cuando un gen carece de cualquier homólogo detectable fuera de su propio genoma, o de parientes cercanos, se dice que es un gen nuevo, taxonómicamente restringido o huérfano.
La filoestratigrafía está limitada por el conjunto de genomas estrechamente relacionados que están disponibles y los resultados dependen de los criterios de búsqueda BLAST. [42] Además, a menudo es difícil determinar, basándose en la falta de similitud de secuencia observada, si un nuevo gen ha surgido de novo o ha divergido de un gen ancestral más allá del reconocimiento, por ejemplo, después de un evento de duplicación. Así lo señaló un estudio que simuló la evolución de genes de la misma edad y encontró que los ortólogos distantes pueden ser indetectables para genes que evolucionan rápidamente. [43] Por otro lado, al tener en cuenta los cambios en la tasa de evolución en regiones jóvenes de genes, un enfoque filoestratigráfico fue más preciso al asignar edades de genes en datos simulados. [44] Estudios posteriores que utilizaron evolución simulada encontraron que la filoestratigrafía no logró detectar un ortólogo en las especies más lejanamente relacionadas para el 13,9% de los genes de D. melanogaster y el 11,4% de los genes de S. cerevisiae . [45] [46] Sin embargo, un nuevo análisis de estudios que utilizaron filoestratigrafía en levaduras, moscas de la fruta y humanos encontró que incluso cuando se tenían en cuenta tales tasas de error y se excluyeban genes difíciles de estratificar de los análisis, las conclusiones cualitativas no se vieron afectadas. [47] El impacto del sesgo filoestratigráfico en los estudios que examinan diversas características de los genes de novo sigue siendo debatido.
Los enfoques basados en Synteny utilizan el orden y el posicionamiento relativo de los genes (u otras características) para identificar los ancestros potenciales de los genes candidatos de novo . [10] [42] Las alineaciones sinténicas están ancladas por "marcadores" conservados. Los genes son el marcador más común para definir bloques sinténicos, aunque también se utilizan k-meros y exones. [48] [40] La confirmación de que la región sinténica carece de potencial de codificación en especies externas permite afirmar un origen de novo con mayor confianza. [42] La evidencia más fuerte posible para la aparición de novo es la inferencia de las mutaciones "habilitadoras" específicas que crearon el potencial de codificación, típicamente a través del análisis de regiones de secuencia más pequeñas, denominadas regiones microsinténicas, de especies estrechamente relacionadas.
Un desafío al aplicar métodos basados en sintenia es que la sintenia puede ser difícil de detectar en escalas de tiempo más largas. Para abordar esto, se han creado varias técnicas de optimización, como el uso de exones agrupados independientemente de su orden específico para definir bloques sinténicos [40] o algoritmos que utilizan regiones genómicas bien conservadas para expandir bloques microsintéticos. [49] También existen dificultades asociadas con la aplicación de enfoques basados en sintenia a conjuntos de genomas que están fragmentados [50] o en linajes con altas tasas de reordenamientos cromosómicos, como es común en los insectos. [51] Los enfoques basados en Synteny se pueden aplicar a estudios de genes de novo en todo el genoma [37] [38] [52] [53] [54] [55] [56] [57] y representan un área prometedora de investigación algorítmica. Desarrollo para la datación genética por nacimiento. Algunos han utilizado enfoques basados en sintenia en combinación con búsquedas de similitud en un intento de desarrollar procesos estrictos y estandarizados [58] que puedan aplicarse a cualquier grupo de genomas en un intento de abordar las discrepancias en las diversas listas de genes de novo que se han identificado. generado.
Incluso cuando se ha establecido el origen evolutivo de una secuencia codificante particular, todavía falta consenso sobre lo que constituye un evento genuino de nacimiento de un gen de novo . Una de las razones de esto es la falta de acuerdo sobre si la totalidad de la secuencia debe ser de origen no genético. Para los genes de novo que codifican proteínas , se ha propuesto que los genes de novo se dividan en subtipos según la proporción del ORF en cuestión que se derivó de una secuencia previamente no codificante. [42] Además, para que se produzca el nacimiento de un gen de novo , la secuencia en cuestión debe ser un gen que haya llevado a cuestionar qué constituye un gen, estableciendo algunos modelos una dicotomía estricta entre secuencias genéticas y no genéticas, y otros proponiendo un continuo más fluido. [59]
Todas las definiciones de genes están vinculadas a la noción de función, ya que generalmente se acepta que un gen genuino debería codificar un producto funcional, ya sea ARN o proteína. Sin embargo, existen diferentes puntos de vista sobre lo que constituye una función, dependiendo de si una secuencia determinada se evalúa mediante enfoques genéticos, bioquímicos o evolutivos. [42] [60] [61] [62] La ambigüedad del concepto de "función" es especialmente problemática para el campo del nacimiento de genes de novo , donde los objetos de estudio a menudo están evolucionando rápidamente. [62] Para abordar estos desafíos, el modelo de función de Pittsburgh deconstruye "función" en cinco significados para describir las diferentes propiedades que adquiere un locus que experimenta el nacimiento de un gen de novo : expresión, capacidades, interacciones, implicaciones fisiológicas e implicaciones evolutivas. [62]
Generalmente se acepta que un gen genuino de novo se expresa al menos en algún contexto, [5] permitiendo que opere la selección, y muchos estudios utilizan evidencia de expresión como criterio de inclusión para definir genes de novo . La expresión de secuencias a nivel de ARNm se puede confirmar de forma individual mediante técnicas como la PCR cuantitativa , o de forma global mediante secuenciación de ARN (RNA-seq) . De manera similar, la expresión a nivel de proteína se puede determinar con alta confianza para proteínas individuales utilizando técnicas como la espectrometría de masas o la transferencia Western , mientras que el perfilado de ribosomas (Ribo-seq) proporciona un estudio global de la traducción en una muestra determinada. Idealmente, para confirmar que un gen surgió de novo , también se demostraría una falta de expresión de la región sinténica de especies exógenas. [63]
Los enfoques genéticos para detectar un fenotipo específico o un cambio en la aptitud tras la interrupción de una secuencia particular son útiles para inferir la función. [61] También se pueden emplear otros enfoques experimentales, incluidas las pruebas de detección de interacciones proteína-proteína y/o genéticas, para confirmar un efecto biológico de un ORF de novo particular .
Se pueden emplear enfoques evolutivos para inferir la existencia de una función molecular a partir de firmas de selección derivadas computacionalmente. En el caso de los TRG, una firma común de selección es la proporción de sustituciones no sinónimas y sinónimas ( relación dN/dS ), calculada a partir de diferentes especies del mismo taxón. De manera similar, en el caso de genes específicos de especies, se pueden usar datos de polimorfismo para calcular una relación pN/pS de diferentes cepas o poblaciones de la especie focal. Dado que los genes de novo jóvenes y específicos de especies carecen de una conservación profunda por definición, detectar desviaciones estadísticamente significativas de 1 puede ser difícil sin un número irrealmente grande de cepas/poblaciones secuenciadas. Un ejemplo de esto puede verse en Mus musculus , donde tres genes de novo muy jóvenes carecen de firmas de selección a pesar de sus funciones fisiológicas bien demostradas. [64] Por esta razón, los enfoques pN/pS a menudo se aplican a grupos de genes candidatos, lo que permite a los investigadores inferir que al menos algunos de ellos están conservados evolutivamente, sin poder especificar cuáles. En su lugar, se han empleado otras firmas de selección, como el grado de divergencia de nucleótidos dentro de las regiones sinténicas, la conservación de los límites ORF o, para genes codificadores de proteínas, una puntuación de codificación basada en las frecuencias de hexámeros de nucleótidos. [65] [66]
Las estimaciones de frecuencia y número de genes de novo en varios linajes varían ampliamente y dependen en gran medida de la metodología. Los estudios pueden identificar genes de novo únicamente mediante filoestratigrafía/métodos basados en BLAST, o pueden emplear una combinación de técnicas computacionales, y pueden evaluar o no evidencia experimental de expresión y/o papel biológico. [10] Además, los análisis a escala del genoma pueden considerar todos o la mayoría de los ORF en el genoma, [59] o, en cambio, pueden limitar su análisis a genes previamente anotados.
El linaje de D. melanogaster es ilustrativo de estos diferentes enfoques. Una encuesta inicial que utilizó una combinación de búsquedas BLAST realizadas en secuencias de ADNc junto con búsquedas manuales e información sintética identificó 72 nuevos genes específicos de D. melanogaster y 59 nuevos genes específicos de tres de las cuatro especies del complejo de especies de D. melanogaster . Este informe encontró que sólo 2/72 (~2,8%) de los nuevos genes específicos de D. melanogaster y 7/59 (~11,9%) de los nuevos genes específicos del complejo de especies se derivaron de novo , [56] y el resto surgió mediante duplicación/retroposición. De manera similar, un análisis de 195 genes jóvenes (<35 millones de años) de D. melanogaster identificados a partir de alineamientos sinténicos encontró que solo 16 habían surgido de novo . [54] Por el contrario, un análisis centrado en datos transcriptómicos de los testículos de seis cepas de D. melanogaster identificó 106 genes fijos y 142 genes segregantes de novo . [55] Para muchos de estos, se identificaron ORF ancestrales pero no se expresaron. Un estudio más reciente encontró que hasta el 39 % de los genes huérfanos en el clado de Drosophila pueden haber surgido de novo , ya que se superponen con regiones no codificantes del genoma. [67] Destacando las diferencias entre las comparaciones entre especies e intraespecies, un estudio en poblaciones naturales de Saccharomyces paradoxus encontró que el número de polipéptidos de novo identificados se duplicó con creces al considerar la diversidad intraespecies. [68] En primates, uno de los primeros estudios identificó 270 genes huérfanos (exclusivos de humanos, chimpancés y macacos), de los cuales se pensaba que 15 se habían originado de novo . [37] Informes posteriores identificaron muchos más genes de novo solo en humanos que están respaldados por evidencia transcripcional y proteómica. [57] [69] Los estudios en otros linajes/organismos también han llegado a conclusiones diferentes con respecto al número de genes de novo presentes en cada organismo, así como a los conjuntos específicos de genes identificados. En la siguiente tabla se describe una muestra de estos estudios a gran escala.
En términos generales, sigue debatiéndose si la duplicación y la divergencia o el nacimiento de genes de novo representan el mecanismo dominante para la aparición de nuevos genes, [54] [56] [59] [70] [71] [72] en parte porque los genes de novo Es probable que surjan y se pierdan con más frecuencia que otros genes jóvenes. En un estudio sobre el origen de genes huérfanos en tres linajes eucariotas diferentes, los autores descubrieron que, en promedio, sólo alrededor del 30% de los genes huérfanos pueden explicarse mediante divergencia de secuencias. [72]
Es importante distinguir entre la frecuencia del nacimiento de genes de novo y el número de genes de novo en un linaje determinado. Si el nacimiento de genes de novo es frecuente, se podría esperar que los genomas tiendan a crecer en su contenido genético con el tiempo; sin embargo, el contenido genético de los genomas suele ser relativamente estable. [10] Esto implica que un proceso frecuente de muerte genética debe equilibrar el nacimiento de genes de novo y, de hecho, los genes de novo se distinguen por su rápido recambio en relación con los genes establecidos. En apoyo de esta idea, es mucho más probable que se pierdan genes de Drosophila surgidos recientemente, principalmente a través de pseudogenización , siendo los huérfanos más jóvenes los que se pierden en mayor proporción; [73] esto a pesar del hecho de que se ha demostrado que algunos genes huérfanos de Drosophila se vuelven esenciales rápidamente. [54] Se observó una tendencia similar de pérdida frecuente entre familias de genes jóvenes en el género de nematodos Pristionchus . [74] De manera similar, un análisis de cinco transcriptomas de mamíferos encontró que la mayoría de los ORF en ratones eran muy antiguos o específicos de cada especie, lo que implicaba un nacimiento y muerte frecuentes de transcripciones de novo . [71] Se podría mostrar una tendencia comparable mediante análisis adicionales de seis transcriptomas de primates. [69] En poblaciones silvestres de S. paradoxus , ORF de novo emergen y se pierden a tasas similares. [68] Sin embargo, sigue existiendo una correlación positiva entre el número de genes específicos de una especie en un genoma y la distancia evolutiva desde su ancestro más reciente. [75] [67] También se encontró una rápida ganancia y pérdida de genes de novo a nivel poblacional al analizar nueve poblaciones naturales de espinosos de tres espinas. [76] Además del nacimiento y muerte de genes de novo a nivel del ORF, los procesos mutacionales y de otro tipo también someten a los genomas a un constante "cambio transcripcional". Un estudio en murinos encontró que, si bien todas las regiones del genoma ancestral se transcribieron en algún momento en al menos un descendiente, la porción del genoma bajo transcripción activa en una cepa o subespecie determinada está sujeta a cambios rápidos. [77] El recambio transcripcional de los genes de ARN no codificantes es particularmente rápido en comparación con los genes codificantes. [78]
Los genes de novo surgidos recientemente difieren de los genes establecidos en varios aspectos. En una amplia gama de especies, se ha informado que los genes jóvenes y/o taxonómicamente restringidos tienen una longitud más corta que los genes establecidos, tienen una carga más positiva, evolucionan más rápidamente [88] y se expresan menos. [37] [59] [73] [74] [89] [90] [91] [92] [93] [94] [ 95] [ 96] [71] [69] [67 ] [76] [ excesivo citas ] Aunque estas tendencias podrían ser el resultado de un sesgo de detección de homología, un nuevo análisis de varios estudios que tuvieron en cuenta este sesgo encontró que las conclusiones cualitativas alcanzadas no se vieron afectadas. [47] Otra característica incluye la tendencia de los genes jóvenes a tener sus aminoácidos hidrofóbicos más agrupados uno cerca del otro a lo largo de la secuencia primaria. [97] [98]
También se ha descubierto que la expresión de genes jóvenes es más específica de tejido o condición que la de genes establecidos. [29] [31] [37] [55] [57] [59] [94] [99] [100] [101] [67] [76] En particular, se observó una expresión relativamente alta de genes de novo en hombres tejidos reproductivos en Drosophila , espinosos, ratones y humanos, y en el cerebro humano. [57] [102] [67] [76] En animales con sistemas inmunes adaptativos, una mayor expresión en el cerebro y los testículos puede ser una función de la naturaleza inmune privilegiada de estos tejidos. Un análisis en ratones encontró expresión específica de transcripciones intergénicas en el timo y el bazo (además del cerebro y los testículos). Se ha propuesto que en los vertebrados las transcripciones de novo deben expresarse primero en tejidos que carecen de células inmunitarias antes de que puedan expresarse en tejidos que tienen vigilancia inmunitaria. [101]
Para la evolución de secuencias, los estudios de análisis dN/dS a menudo indican que los genes de novo evolucionan a un ritmo mayor en comparación con otros genes. [103] [88] Para la evolución de la expresión y la evolución estructural, los estudios cuantitativos en diferentes edades evolutivas o ramas filoestratigráficas son muy pocos.
También es interesante comparar características de genes de novo surgidos recientemente con el conjunto de ORF no genéticos de los que emergen. Los modelos teóricos han demostrado que tales diferencias son producto tanto de la selección de características que aumentan la probabilidad de funcionalización como de fuerzas evolutivas neutrales que influyen en el recambio alélico. [104] Los experimentos en S. cerevisiae mostraron que los dominios transmembrana predichos estaban fuertemente asociados con efectos beneficiosos de aptitud física cuando se sobreexpresaban ORF jóvenes, pero no cuando se sobreexpresaban ORF establecidos (más antiguos). [105] Los experimentos en E. coli mostraron que los péptidos aleatorios tendían a tener efectos más benignos cuando estaban enriquecidos con aminoácidos que eran pequeños y que promovían el desorden estructural intrínseco. [106]
Las características de los genes de novo pueden depender de la especie o linaje que se examine. Esto parece ser en parte el resultado de la variación del contenido de GC en los genomas y de que los genes jóvenes tienen más similitudes con secuencias no genéticas del genoma en el que surgieron que los genes establecidos. [107] Las características de la proteína resultante, como el porcentaje de residuos transmembrana y la frecuencia relativa de varias características estructurales secundarias predichas , muestran una fuerte dependencia de GC en genes huérfanos, mientras que en genes más antiguos estas características solo están débilmente influenciadas por el contenido de GC. [107]
La relación entre la edad del gen y la cantidad de trastorno estructural intrínseco (ISD) prevista en las proteínas codificadas ha sido objeto de un debate considerable. Se ha afirmado que la ISD también es una característica dependiente del linaje, ejemplificada por el hecho de que en organismos con un contenido de GC relativamente alto, desde D. melanogaster hasta el parásito Leishmania major , los genes jóvenes tienen una ISD alta, [108] [109] mientras que en un genoma de GC bajo, como el de la levadura en ciernes, varios estudios han demostrado que los genes jóvenes tienen una ISD baja. [59] [89] [96] [107] Sin embargo, un estudio que excluyó genes jóvenes con evidencia dudosa de funcionalidad, definidos en términos binarios como bajo selección para la retención de genes, encontró que los genes de levadura jóvenes restantes tienen una alta ISD, lo que sugiere que el resultado de la levadura puede deberse a la contaminación del conjunto de genes jóvenes con ORF que no cumplen con esta definición y, por lo tanto, es más probable que tengan propiedades que reflejen el contenido de GC y otras características no genéticas del genoma. [110] Más allá de los huérfanos más jóvenes, este estudio encontró que la ISD tiende a disminuir a medida que aumenta la edad del gen, y que esto se debe principalmente a la composición de aminoácidos más que al contenido de GC. [110] En escalas de tiempo más cortas, el uso de genes de novo que tienen la mayor validación sugiere que los genes más jóvenes están más desordenados en Lachancea , pero menos desordenados en Saccharomyces . [96] El desorden estructural intrínseco y la propensión a la agregación no mostraron diferencias significativas con la edad en algunos estudios de mamíferos [71] y primates, [69] pero sí en otros estudios de mamíferos. [110] Un gran estudio de toda la base de datos de dominios de proteínas de Pfam mostró un enriquecimiento del dominio de proteínas más joven para los aminoácidos que promueven trastornos en los animales, pero un enriquecimiento sobre la base de la disponibilidad de aminoácidos en las plantas. [98]
Un examen de genes de novo en A. thaliana encontró que están hipermetilados y, en general, carecen de modificaciones de histonas . [53] De acuerdo con el modelo de protogen o la contaminación con no genes, los niveles de metilación de los genes de novo fueron intermedios entre los genes establecidos y las regiones intergénicas. Los patrones de metilación de estos genes de novo se heredan de manera estable, y los niveles de metilación fueron más altos, y más similares a los genes establecidos, en genes de novo con capacidad verificada de codificación de proteínas. [53] En el hongo patógeno Magnaporthe oryzae , los genes menos conservados tienden a tener patrones de metilación asociados con niveles bajos de transcripción. [111] Un estudio en levaduras también encontró que los genes de novo están enriquecidos en puntos críticos de recombinación , que tienden a ser regiones libres de nucleosomas. [96]
En Pristionchus pacificus , los genes huérfanos con expresión confirmada muestran estados de cromatina que difieren de los de genes establecidos expresados de manera similar. [95] Los sitios de inicio de genes huérfanos tienen firmas epigenéticas que son características de los potenciadores, en contraste con los genes conservados que exhiben promotores clásicos. [95] Muchos genes huérfanos no expresados están decorados con modificaciones represivas de histonas, mientras que la falta de tales modificaciones facilita la transcripción de un subconjunto expresado de huérfanos, lo que respalda la idea de que la cromatina abierta promueve la formación de nuevos genes. [95]
Las proteínas de novo suelen exhibir estructuras secundarias y tridimensionales menos definidas, a menudo carecen de plegamiento rígido pero tienen extensas regiones desordenadas. [103] [110] Aún faltan análisis cuantitativos sobre la evolución de los elementos estructurales secundarios y terciarios a lo largo del tiempo. Como la estructura suele estar más conservada que la secuencia, la comparación de estructuras entre ortólogos podría proporcionar información más profunda sobre la aparición y evolución de genes de novo y ayudar a confirmar que estos genes son verdaderos genes de novo . [112] Sin embargo, hasta ahora sólo se han caracterizado estructural y funcionalmente muy pocas proteínas de novo , especialmente debido a problemas con la purificación de proteínas y su posterior estabilidad. Se han logrado avances utilizando diferentes etiquetas de purificación, tipos de células y acompañantes. [113]
La 'glucoproteína anticongelante' (AFGP) del bacalao ártico evita que su sangre se congele en aguas árticas. [84] [83] Se ha demostrado que Bsc4, una proteína corta no esencial de novo en la levadura, [33] está formada principalmente por láminas β y tiene un núcleo hidrofóbico. [34] Está asociado a la reparación del ADN en condiciones de deficiencia de nutrientes. [114] La proteína Goddard de Drosophila de novo se caracterizó por primera vez en 2017. Las moscas macho Knockdown de Drosophila melanogaster no pudieron producir esperma. [80] Recientemente, se pudo demostrar que esta falta se debía a una falla en la individualización de las espermátidas alargadas. Mediante el uso de predicciones computacionales filogenómicas y estructurales, análisis estructurales experimentales y ensayos biológicos celulares, se propuso que la mitad de la estructura de Goddard está desordenada y la otra mitad está compuesta por aminoácidos alfa-helicoidales. Estos análisis también indicaron que los ortólogos de Goddard muestran resultados similares. Por tanto, la estructura de Goddard parece haberse conservado principalmente desde su aparición. [81]
Con el desarrollo de tecnologías como RNA-seq y Ribo-seq, ahora se sabe que los genomas eucariotas se transcriben y traducen de manera generalizada [115] [116] [117] [118] . [119] Muchos ORF que no están anotados o que están anotados como ARN largos no codificantes (lncRNA) se traducen en algún nivel, ya sea en una condición o de manera específica de tejido. [59] [119] [120] [121] [122] [123] Aunque son poco frecuentes, estos eventos de traducción exponen la secuencia no genética a la selección. Esta expresión generalizada forma la base de varios modelos que describen el nacimiento de genes de novo .
Se ha especulado que el panorama epigenético de los genes de novo en las primeras etapas de formación puede ser particularmente variable entre poblaciones, lo que da como resultado una expresión genética variable, permitiendo así que los genes jóvenes exploren el "paisaje de expresión". [124] El gen QQS en A. thaliana es un ejemplo de este fenómeno; su expresión está regulada negativamente por la metilación del ADN que, si bien es hereditaria durante varias generaciones, varía ampliamente en sus niveles tanto entre muestras naturales como dentro de poblaciones silvestres. [124] La epigenética también es en gran medida responsable del entorno transcripcional permisivo en los testículos, particularmente a través de la incorporación en los nucleosomas de variantes de histonas no canónicas que son reemplazadas por protaminas similares a histonas durante la espermatogénesis. [125]
El análisis de la diversidad potencial de pliegue muestra que se predice que la mayoría de las secuencias de aminoácidos codificadas por los ORF intergénicos de S. cerevisiae serán plegables. [126] Más importante aún, estas secuencias de aminoácidos con potencial de plegamiento pueden servir como bloques de construcción elementales para genes de novo o integrarse en genes preexistentes. [126]
Para que se produzca el nacimiento de un gen codificador de proteínas de novo , una secuencia no genética debe transcribirse y adquirir un ORF antes de traducirse. Estos eventos podrían ocurrir en cualquier orden, y hay evidencia que respalda tanto un modelo de "ORF primero" como de "transcripción primero". [5] [127] Un análisis de genes de novo que se segregan en D. melanogaster encontró que las secuencias que se transcriben tenían un potencial de codificación similar al de las secuencias ortólogas de líneas que carecen de evidencia de transcripción. [55] Este hallazgo respalda la idea de que muchos ORF pueden existir antes de ser transcritos. El gen de la glicoproteína anticongelante AFGP , que surgió de novo en los bacalaos del Ártico, proporciona un ejemplo más definitivo en el que se demostró que la aparición de novo del ORF precede a la región promotora. [83] Además, los ORF supuestamente no genéticos lo suficientemente largos como para codificar péptidos funcionales son numerosos en los genomas eucariotas y se espera que ocurran con alta frecuencia por casualidad. [55] [59] A través del seguimiento de la historia de la evolución de las secuencias ORF y la activación de la transcripción de genes humanos de novo , un estudio demostró que algunos ORF estaban listos para conferir importancia biológica a su nacimiento. [127] Al mismo tiempo, la transcripción de genomas eucariotas es mucho más extensa de lo que se pensaba anteriormente, y hay ejemplos documentados de regiones genómicas que se transcribieron antes de la aparición de un ORF que se convirtió en un gen de novo . [79] Se desconoce la proporción de genes de novo que codifican proteínas, pero la aparición de “primero la transcripción” ha llevado a algunos a postular que los genes de novo codificantes de proteínas pueden existir primero como intermediarios de genes de ARN. El caso de los ARN bifuncionales, que se traducen y funcionan como genes de ARN, muestra que tal mecanismo es plausible. [128]
Los dos eventos pueden ocurrir simultáneamente cuando el reordenamiento cromosómico es el evento que precipita el nacimiento del gen. [129]
Se han descrito varios modelos teóricos y posibles mecanismos del nacimiento de genes de novo . Los modelos generalmente no son mutuamente excluyentes y es posible que múltiples mecanismos puedan dar lugar a genes de novo . [42] Un ejemplo es el gen de la proteína anticongelante tipo III, que se origina a partir de un antiguo gen de la ácido siálico sintasa ( SAS ), en un pez zoárcido antártico.
Un estudio de caso inicial sobre el nacimiento de genes de novo , que identificó cinco genes de novo en D. melanogaster , observó la expresión preferencial de estos genes en los testículos, [30] y se identificaron varios genes de novo adicionales utilizando datos transcriptómicos derivados de los testículos y Glándulas accesorias masculinas de D. yakuba y D. erecta . [29] [31] Esto concuerda con otros estudios que demostraron que existe una rápida evolución de genes relacionados con la reproducción en una variedad de linajes, [130] [131] [132] lo que sugiere que la selección sexual puede desempeñar un papel clave en la adaptación Evolución y nacimiento de genes de novo . Un análisis posterior a gran escala de seis cepas de D. melanogaster identificó 248 genes de novo expresados en testículos , de los cuales ~57% no estaban fijados. [55] Un estudio reciente sobre doce especies de Drosophila identificó además una mayor proporción de genes de novo con expresión sesgada por los testículos en comparación con el proteoma anotado. [67] Se ha sugerido que la gran cantidad de genes de novo con expresión específica masculina identificada en Drosophila probablemente se deba al hecho de que dichos genes se retienen preferentemente en relación con otros genes de novo , por razones que no están del todo claras. [73] Curiosamente, se demostró que dos supuestos genes de novo en Drosophila ( Goddard y Saturn ) eran necesarios para la fertilidad masculina normal. [80] [81] Una evaluación genética de más de 40 supuestos genes de novo con expresión enriquecida en testículos en Drosophila melanogaster reveló que uno de los genes de novo, atlas , era necesario para la condensación adecuada de la cromatina durante las etapas finales de la espermatogénesis en el hombre. atlas evolucionó a partir de la fusión de un gen codificante de proteínas que surgió en la base del género Drosophila y un ARN no codificante conservado. [133] El análisis comparativo de los transcriptomas de los testículos y las glándulas accesorias, un tejido somático de los machos que es importante para la fertilidad, de D. melanogaster sugiere que los genes de novo contribuyen más a la complejidad transcriptómica de los testículos en comparación con las glándulas accesorias. [134] Secuencia de ARN unicelular de D. melanogastertestis reveló que el patrón de expresión de los genes de novo estaba sesgado hacia la espermatogénesis temprana. [135]
En humanos, un estudio que identificó 60 genes de novo específicos de humanos encontró que su expresión promedio, medida por RNA-seq, era más alta en los testículos. [57] Otro estudio que analizó genes específicos de mamíferos de manera más general también encontró una expresión enriquecida en los testículos. [136] Se cree que la transcripción en los testículos de los mamíferos es particularmente promiscua, debido en parte a la expresión elevada de la maquinaria de transcripción [137] [138] y un entorno de cromatina abierto. [139] Junto con la naturaleza inmune privilegiada de los testículos, se cree que esta transcripción promiscua crea las condiciones ideales para la expresión de secuencias no genéticas necesarias para el nacimiento de genes de novo . La expresión específica de los testículos parece ser una característica general de todos los genes nuevos, ya que un análisis de Drosophila y especies de vertebrados encontró que los genes jóvenes mostraban una expresión sesgada por los testículos independientemente de su mecanismo de origen. [99]
El modelo de preadaptación del nacimiento de genes de novo utiliza modelos matemáticos para mostrar que cuando secuencias que normalmente están ocultas se exponen a una selección débil o protegida, el conjunto resultante de secuencias “crípticas” (es decir, protogenes) puede eliminarse de elementos “evidentemente”. variantes nocivas”, como aquellas propensas a conducir a la agregación de proteínas, y por lo tanto enriquecidas en adaptaciones potenciales en relación con un conjunto de secuencias completamente no expresadas y no purgadas. [140] Esta revelación y purga de secuencias crípticas no genéticas perjudiciales es un subproducto de la transcripción y traducción generalizada de secuencias intergénicas, y se espera que facilite el nacimiento de genes codificadores de proteínas funcionales de novo . [122] Esto se debe a que al eliminar las variantes más nocivas, lo que queda, mediante un proceso de eliminación, tiene más probabilidades de ser adaptativo de lo esperado de secuencias aleatorias. Utilizando la definición evolutiva de función (es decir, que un gen está por definición bajo selección purificadora contra pérdida), el modelo de preadaptación supone que “el nacimiento de un gen es una transición repentina a la funcionalidad” [110] que ocurre tan pronto como un ORF adquiere un beneficio neto. efecto. Para evitar ser perjudiciales, se espera que los genes de los recién nacidos muestren versiones exageradas de características genéticas asociadas con la evitación de daños. Esto contrasta con el modelo de protogenes, que espera que los genes recién nacidos tengan características intermedias entre los genes antiguos y los no genes. [110]
Las matemáticas del modelo de preadaptación suponen que la distribución de los efectos de aptitud es bimodal, con nuevas secuencias de mutaciones que tienden a romper algo o a modificar algo, pero rara vez en el medio. [140] [141] Siguiendo esta lógica, las poblaciones pueden desarrollar soluciones locales, en las que la selección opera en cada locus individual y se mantiene una tasa de error relativamente alta, o una solución global con una tasa de error baja que permite la acumulación de datos crípticos nocivos. secuencias. [140] Se cree que el nacimiento de genes de novo se ve favorecido en poblaciones que desarrollan soluciones locales, ya que la tasa de error relativamente alta dará como resultado un conjunto de variación críptica que está "preadaptada" mediante la purga de secuencias nocivas. Las soluciones locales son más probables en poblaciones con un tamaño poblacional efectivo alto .
En apoyo del modelo de preadaptación, un análisis de ISD en ratones y levaduras encontró que los genes jóvenes tienen una ISD más alta que los genes viejos, mientras que las secuencias aleatorias no genéticas tienden a mostrar los niveles más bajos de ISD. [110] Aunque la tendencia observada puede haber resultado en parte de un subconjunto de genes jóvenes derivados de la sobreimpresión, [142] también se observa una ISD más alta en genes jóvenes entre pares de genes virales superpuestos. [143] Con respecto a otras características estructurales predichas, como el contenido de la cadena β y la propensión a la agregación, los péptidos codificados por protogenes son similares a secuencias no genéticas y categóricamente distintos de los genes canónicos. [144]
Este modelo de protogen concuerda con el modelo de preadaptación sobre la importancia de la expresión generalizada y se refiere al conjunto de secuencias expresadas de forma generalizada que no cumplen con todas las definiciones de un gen como "protogenes". [59] En contraste con el modelo de preadaptación, el modelo de protogenes sugiere que los genes recién nacidos tienen características intermedias entre los genes antiguos y los no genes. [110] Específicamente, este modelo prevé un proceso más gradual bajo selección del estado no genético al estado genético, rechazando la clasificación binaria de gen y no gen.
En una extensión del modelo de protogenes, se ha propuesto que a medida que los protogenes se vuelven más parecidos a genes, su potencial de cambio adaptativo da paso a efectos seleccionados; por tanto, el impacto previsto de las mutaciones en la aptitud física depende del estado evolutivo del ORF. [105] Esta noción está respaldada por el hecho de que la sobreexpresión de ORF establecidos en S. cerevisiae tiende a ser menos beneficiosa (y más dañina) que la sobreexpresión de ORF emergentes. [105]
Varias características de los ORF se correlacionan con la edad de los ORF según lo determinado mediante análisis filoestratigráfico, y los ORF jóvenes tienen propiedades intermedias entre los ORF antiguos y los no genes; esto se ha tomado como evidencia a favor del modelo de protogen, en el que el estado del protogen es un continuo. [59] Esta evidencia ha sido criticada, porque también se esperan las mismas tendencias aparentes bajo un modelo en el que la identidad como gen es binaria. Según este modelo, cuando cada grupo de edad contiene una proporción diferente de genes versus no genes, la paradoja de Simpson puede generar correlaciones en la dirección equivocada. [110]
El modelo de “crecer lentamente y mudar” describe un mecanismo potencial de nacimiento de genes de novo , en particular en el caso de los genes que codifican proteínas. En este escenario, los ORF que codifican proteínas existentes se expanden en sus extremos, especialmente en sus extremos 3', lo que lleva a la creación de nuevos dominios N y C-terminales. [145] [146] [147] [148] [149] Los nuevos dominios C-terminales pueden evolucionar primero bajo selección débil a través de expresión ocasional a través de traducción de lectura, como en el modelo de preadaptación, y solo más tarde se expresan constitutivamente a través de una mutación que altera el codón de parada. [140] [146] Los genes que experimentan una alta lectura traduccional tienden a tener extremos C intrínsecamente desordenados. [150] Además, los genes existentes suelen estar cerca de secuencias repetitivas que codifican dominios desordenados. Estos nuevos dominios desordenados pueden inicialmente conferir cierta capacidad de unión no específica que se refina gradualmente mediante selección. Las secuencias que codifican estos nuevos dominios pueden ocasionalmente separarse de su ORF original, lo que lleva o contribuye a la creación de un gen de novo . [146] Curiosamente, un análisis de 32 genomas de insectos encontró que los dominios nuevos (es decir, aquellos exclusivos de los insectos) tienden a evolucionar de manera bastante neutral, con solo unos pocos sitios bajo selección positiva, mientras que sus proteínas huésped permanecen bajo selección purificadora, lo que sugiere que se pueden desarrollar nuevos dominios funcionales. Los dominios emergen de forma gradual y un tanto estocástica. [151]
El modelo evolutivo de escape del conflicto adaptativo (EAC) propone una posible forma de arreglar la duplicación de nuevos genes: el conflicto debido a una función contrastante dentro de un solo gen impulsa la fijación de una nueva duplicación. [152] [153]
El modelo de la 'barrera pleiotropía' sugiere que los genes recientemente evolucionados, incluidos los genes de novo y los genes relacionados con la duplicación, podrían facilitar la innovación evolutiva o la evolución de funciones específicas debido a su bajo (o nulo) efecto pleiotrópico , cuando se enfrenta a una nueva fuerza selectiva, basada en sobre observaciones de datos de enfermedades genéticas humanas.
Además de su importancia para el campo de la biología evolutiva, el nacimiento de genes de novo tiene implicaciones para la salud humana. Se ha especulado que los genes nuevos, incluidos los genes de novo , pueden desempeñar un papel enorme en los rasgos específicos de las especies; [6] [10] [32] [154] Sin embargo, muchos genes específicos de especies carecen de anotación funcional. [136] Sin embargo, hay evidencia que sugiere que genes de novo específicos de humanos están involucrados en enfermedades como el cáncer. NYCM , un gen de novo exclusivo de humanos y chimpancés, regula la patogénesis de los neuroblastomas en modelos de ratón, [155] y la PART1 específica de primates , un gen lncRNA, ha sido identificado como un supresor de tumores y un oncogén en diferentes contextos. [37] [156] [157] Varios otros genes de novo específicos de humanos o primates , incluidos PBOV1 , [158] GR6 , [159] [160] MYEOV , [161] ELFN1-AS1 , [162] y CLLU1 , [38] también están relacionados con el cáncer. Algunos incluso han sugerido considerar genes novedosos evolutivos expresados específicamente en tumores como su propia clase de elementos genéticos, señalando que muchos de esos genes están bajo selección positiva y pueden neofuncionalizarse en el contexto de los tumores. [162]
La expresión específica de muchos genes de novo en el cerebro humano [57] también plantea la intrigante posibilidad de que los genes de novo influyan en los rasgos cognitivos humanos. Un ejemplo de ello es FLJ33706 , un gen de novo que se identificó en GWAS y análisis de ligamiento para la adicción a la nicotina y muestra una expresión elevada en los cerebros de pacientes con Alzheimer. [163] En términos generales, la expresión de genes jóvenes específicos de primates se enriquece en el cerebro humano fetal en relación con la expresión de genes igualmente jóvenes en el cerebro de ratón. [164] La mayoría de estos genes jóvenes, varios de los cuales se originaron de novo , se expresan en la neocorteza, que se cree que es responsable de muchos aspectos de la cognición específica del ser humano. Muchos de estos genes jóvenes muestran firmas de selección positiva y las anotaciones funcionales indican que están involucrados en diversos procesos moleculares, pero están enriquecidos con factores de transcripción. [164]
Además de su papel en los procesos cancerosos, los genes humanos originados de novo han sido implicados en el mantenimiento de la pluripotencia [165] y en la función inmune. [37] [136] [166] La expresión preferencial de genes de novo en los testículos también sugiere un papel en la reproducción. Dado que la función de muchos genes humanos de novo sigue sin caracterizarse, parece probable que siga aumentando la apreciación de su contribución a la salud y el desarrollo humanos.
Nota: Para los fines de esta tabla, los genes se definen como genes huérfanos (cuando son específicos de una especie) o TRG (cuando se limitan a un grupo de especies estrechamente relacionado) cuando no se ha investigado el mecanismo de origen, y como genes de novo cuando no se ha investigado . Se ha inferido el origen novo , independientemente del método de inferencia. La designación de genes de novo como “candidatos” o “protogenes” refleja el lenguaje utilizado por los autores de los respectivos estudios.
Este artículo fue adaptado de la siguiente fuente bajo una licencia CC BY 4.0 (2019) (informes de los revisores): Stephen Branden Van Oss; Anne-Ruxandra Carvunis (23 de mayo de 2019). "Nacimiento de genes de novo". PLOS Genética . 15 (5): e1008160. doi :10.1371/JOURNAL.PGEN.1008160. ISSN 1553-7390. PMC 6542195 . PMID 31120894. Wikidata Q86320144.
{{cite journal}}
: Mantenimiento CS1: DOI gratuito sin marcar ( enlace )