La nomenclatura genética es la denominación científica de los genes , las unidades de herencia en los organismos vivos. También está estrechamente asociada con la nomenclatura de las proteínas , ya que los genes y las proteínas que codifican suelen tener una nomenclatura similar. Un comité internacional publicó recomendaciones para los símbolos genéticos y la nomenclatura en 1957. [1] La necesidad de desarrollar directrices formales para los nombres y símbolos de los genes humanos se reconoció en la década de 1960 y se emitieron directrices completas en 1979 (Reunión del Genoma Humano de Edimburgo). [2] Varias otras comunidades de investigación específicas de género (por ejemplo, moscas de la fruta Drosophila , ratones Mus ) también han adoptado estándares de nomenclatura y los han publicado en los sitios web de organismos modelo relevantes y en revistas científicas, incluida la Guía de nomenclatura genética de Trends in Genetics . [3] [4] Los científicos familiarizados con una familia de genes en particular pueden trabajar juntos para revisar la nomenclatura de todo el conjunto de genes cuando se dispone de nueva información. [5] Para muchos genes y sus proteínas correspondientes, se utiliza una variedad de nombres alternativos en la literatura científica y las bases de datos biológicas públicas , lo que plantea un desafío para la organización y el intercambio efectivos de información biológica. [6] La estandarización de la nomenclatura intenta así lograr los beneficios del control del vocabulario y el control bibliográfico , aunque la adhesión es voluntaria. La llegada de la era de la información ha traído consigo la ontología genética , que en algunos sentidos es un siguiente paso en la nomenclatura genética, porque tiene como objetivo unificar la representación de los atributos de los genes y productos genéticos en todas las especies.
La nomenclatura de genes y la nomenclatura de proteínas no son esfuerzos separados; son aspectos del mismo todo. Cualquier nombre o símbolo usado para una proteína potencialmente también puede usarse para el gen que la codifica, y viceversa. [ cita requerida ] Pero debido a la naturaleza de cómo se ha desarrollado la ciencia (con el conocimiento descubriéndose poco a poco durante décadas), las proteínas y sus genes correspondientes no siempre se han descubierto simultáneamente (y no siempre se han entendido fisiológicamente cuando se descubrieron), que es la razón principal por la que los nombres de proteínas y genes no siempre coinciden, o por qué los científicos tienden a favorecer un símbolo o nombre para la proteína y otro para el gen. [ cita requerida ] Otra razón es que muchos de los mecanismos de la vida son los mismos o muy similares en todas las especies , géneros, órdenes y filos (a través de homología, analogía o algo de ambos ), de modo que una proteína dada puede producirse en muchos tipos de organismos; y por lo tanto, los científicos naturalmente usan a menudo el mismo símbolo y nombre para una proteína dada en una especie (por ejemplo, ratones) que en otra especie (por ejemplo, humanos). En cuanto a la primera dualidad (mismo símbolo y nombre para gen o proteína), el contexto suele dejar claro el sentido a los lectores científicos, y los sistemas de nomenclatura también permiten cierta especificidad al utilizar cursiva para un símbolo cuando se hace referencia al gen y letra simple (romana) para cuando se hace referencia a la proteína. [ cita requerida ] En cuanto a la segunda dualidad (una proteína dada es endógena en muchos tipos de organismos), los sistemas de nomenclatura también permiten al menos una especificidad entre humanos y no humanos al utilizar diferentes mayúsculas , [ cita requerida ] aunque los científicos a menudo ignoran esta distinción, dado que a menudo es biológicamente irrelevante. [ cita requerida ]
Además, debido a la naturaleza de cómo se ha desarrollado el conocimiento científico, las proteínas y sus genes correspondientes a menudo tienen varios nombres y símbolos que son sinónimos . Algunos de los primeros pueden quedar obsoletos en favor de otros más nuevos, aunque dicha desestimación es voluntaria. Algunos nombres y símbolos más antiguos siguen vivos simplemente porque se han utilizado ampliamente en la literatura científica (incluso antes de que se acuñaran los más nuevos) y están bien establecidos entre los usuarios. Por ejemplo, las menciones de HER2 y ERBB2 son sinónimos .
Por último, la correlación entre genes y proteínas no siempre es uno a uno (en cualquier dirección); en algunos casos es varios a uno o uno a varios, y los nombres y símbolos pueden entonces ser específicos del gen o de la proteína hasta cierto punto, o superponerse en su uso:
El Comité de Nomenclatura Genética de HUGO es responsable de proporcionar pautas para la denominación de genes humanos y aprobar nuevos nombres y símbolos genéticos humanos únicos ( identificadores cortos que normalmente se crean mediante abreviaturas). Para algunas especies no humanas, las bases de datos de organismos modelo sirven como repositorios centrales de pautas y recursos de ayuda, incluido el asesoramiento de curadores y comités de nomenclatura. Además de las bases de datos específicas de especies, los nombres y símbolos genéticos aprobados para muchas especies se pueden encontrar en la base de datos "Entrez Gene" [7] del Centro Nacional de Información Biotecnológica .
Existen reglas y convenciones generalmente aceptadas para nombrar genes en bacterias . Demerec et al. propusieron estándares en 1966 [8] .
Cada gen bacteriano se denota mediante una regla mnemotécnica de tres letras minúsculas que indican la vía o proceso en el que está involucrado el producto génico, seguidas de una letra mayúscula que indica el gen en sí. En algunos casos, la letra del gen puede ir seguida de un número de alelo . Todas las letras y números están subrayados o en cursiva. Por ejemplo, leuA es uno de los genes de la vía biosintética de la leucina , y leuA273 es un alelo particular de este gen.
Cuando se conoce la proteína real codificada por el gen, puede convertirse en parte de la base de la mnemotecnia, de este modo:
Algunas designaciones de genes se refieren a una función general conocida:
En un análisis del genoma de E. coli realizado en 1998 , se designó a un gran número de genes con funciones desconocidas con nombres que comenzaban con la letra y , seguida de letras generadas secuencialmente sin un significado mnemónico (por ejemplo, ydiO y ydbK ). [9] Desde que se designaron, se confirmó que algunos genes y tienen una función, [10] y se les asignó un nombre sinónimo (alternativo) en reconocimiento de esto. Sin embargo, como los genes y no siempre se renombran después de ser caracterizados más, esta designación no es un indicador confiable de la importancia de un gen. [10]
La pérdida de actividad genética conduce a un requerimiento nutricional ( auxotrofia ) que no presenta el tipo salvaje ( prototrofia ).
Aminoácidos:
Algunas vías producen metabolitos que son precursores de más de una vía. Por lo tanto, la pérdida de una de estas enzimas dará lugar a la necesidad de más de un aminoácido. Por ejemplo:
Nucleótidos:
Vitaminas:
La pérdida de actividad genética conduce a la pérdida de la capacidad de catabolizar (utilizar) el compuesto.
Si el gen en cuestión es de tipo salvaje se utiliza un signo superíndice '+':
Si un gen es mutante, se indica mediante un superíndice '-':
Por convención, si no se utiliza ninguno, se considera que es mutante.
Hay superíndices y subíndices adicionales que proporcionan más información sobre la mutación:
Otros modificadores:
Al referirse al genotipo (el gen), la regla mnemotécnica se escribe en cursiva y no con mayúscula inicial. Al referirse al producto o fenotipo del gen, la regla mnemotécnica se escribe con mayúscula inicial y no con cursiva ( p. ej. , DnaA: la proteína producida por el gen dnaA ; LeuA − : el fenotipo de un mutante leuA ; Amp R : el fenotipo de resistencia a la ampicilina del gen bla de la β-lactamasa ).
Los nombres de las proteínas son generalmente los mismos que los nombres de los genes, pero los nombres de las proteínas no están en cursiva y la primera letra está en mayúscula. Por ejemplo, el nombre de la ARN polimerasa es RpoB y esta proteína está codificada por el gen rpoB . [11]
Las comunidades de investigación de organismos modelo vertebrados han adoptado directrices según las cuales los genes de estas especies reciben, siempre que sea posible, los mismos nombres que sus ortólogos humanos . Se desaconseja el uso de prefijos en los símbolos de los genes para indicar especies (por ejemplo, "Z" para pez cebra). El formato recomendado de los símbolos de genes y proteínas impresos varía entre especies.
Los genes y proteínas de vertebrados tienen nombres (normalmente cadenas de palabras) y símbolos, que son identificadores cortos (normalmente de 3 a 8 caracteres). Por ejemplo, el gen cytotoxic T-lymphocyte-associated protein 4 tiene el símbolo HGNC CTLA4 . Estos símbolos suelen acuñarse, aunque no siempre, por contracción o abreviatura acrónimo del nombre. Sin embargo, son pseudoacrónimos en el sentido de que son identificadores completos por sí mismos: nombres cortos, esencialmente. Son sinónimos (en lugar de representar) el nombre del gen/proteína (o cualquiera de sus alias), independientemente de si las letras iniciales "coinciden". Por ejemplo, no se puede decir que el símbolo del gen v-akt murine thymoma viral oncogene homolog 1, que es AKT1 , sea un acrónimo del nombre, y tampoco lo puede ser ninguno de sus diversos sinónimos, que incluyen AKT , PKB , PRKBA y RAC . Por lo tanto, la relación de un símbolo genético con el nombre del gen es funcionalmente la relación de un apodo con un nombre formal (ambos son identificadores completos ), no es la relación de un acrónimo con su expansión. En este sentido, son similares a los símbolos de las unidades de medida del sistema SI (como km para el kilómetro ), en el sentido de que pueden considerarse verdaderos logogramas en lugar de simples abreviaturas. A veces la distinción es académica, pero no siempre. Aunque no es incorrecto decir que "VEGFA" es un acrónimo que significa " factor de crecimiento endotelial vascular A ", así como no es incorrecto que "km" sea una abreviatura de "kilómetro", la formalidad de los símbolos implica más que lo que esas afirmaciones captan.
La porción raíz de los símbolos de una familia de genes (como la raíz " SERPIN " en SERPIN1 , SERPIN2 , SERPIN3 , etc.) se denomina símbolo raíz. [12]
El Comité de Nomenclatura Genética de HUGO es responsable de proporcionar pautas de denominación de genes humanos y aprobar nuevos nombres y símbolos de genes humanos únicos ( identificadores cortos creados típicamente mediante abreviaturas). Todos los nombres y símbolos de genes humanos se pueden buscar en línea en el sitio web de HGNC [13] , y las pautas para su formación están disponibles allí. [14] Las pautas para humanos encajan lógicamente en el alcance más amplio de los vertebrados en general, y el mandato de HGNC se ha ampliado recientemente para asignar símbolos a todas las especies de vertebrados sin un comité de nomenclatura existente, para garantizar que los genes de vertebrados se nombren de acuerdo con sus ortólogos/parálogos humanos. Los símbolos de genes humanos generalmente están en cursiva, con todas las letras en mayúsculas (p. ej., SHH , para sonic hedgehog ). Las cursivas no son necesarias en los catálogos de genes. Las designaciones de proteínas son las mismas que el símbolo del gen, excepto que no están en cursiva. Al igual que el símbolo del gen, están en mayúsculas porque son humanos (específicos de humanos u homólogos humanos). Los ARNm y los ADNc utilizan las mismas convenciones de formato que el símbolo del gen. [5] Para nombrar familias de genes , el HGNC recomienda utilizar un "símbolo raíz" [15] como la raíz de los diversos símbolos genéticos. Por ejemplo, para la familia de las peroxirredoxinas , PRDX es el símbolo raíz y los miembros de la familia son PRDX1 , PRDX2 , PRDX3 , PRDX4 , PRDX5 y PRDX6 .
Los símbolos genéticos generalmente se escriben en cursiva, con solo la primera letra en mayúscula y las letras restantes en minúscula ( Shh ). La cursiva no es obligatoria en las páginas web. Las designaciones de proteínas son las mismas que el símbolo del gen, pero no se escriben en cursiva y todas están en mayúscula (SHH). [16]
La nomenclatura generalmente sigue las convenciones de la nomenclatura humana. Los símbolos genéticos generalmente están en cursiva, con todas las letras en mayúsculas (por ejemplo, NLGN1 , para neuroligin1). Las designaciones de proteínas son las mismas que el símbolo del gen, pero no están en cursiva; todas las letras están en mayúsculas (NLGN1). Los ARNm y los ADNc utilizan las mismas convenciones de formato que el símbolo del gen. [17]
Los símbolos genéticos están en cursiva y todas las letras están en minúscula ( shh ). Las designaciones de proteínas son diferentes de su símbolo genético; no están en cursiva y todas las letras están en mayúscula (SHH). [18]
Los símbolos genéticos están en cursiva y todas las letras están en minúscula ( shh ). Las designaciones de proteínas son las mismas que las del símbolo genético, pero no están en cursiva; la primera letra está en mayúscula y las letras restantes están en minúscula (Shh). [19]
Los símbolos genéticos están en cursiva, con todas las letras en minúscula ( shh ). Las designaciones de proteínas son las mismas que las del símbolo genético, pero no están en cursiva; la primera letra está en mayúscula y las letras restantes en minúscula (Shh). [20]
Una regla casi universal en la edición de artículos para revistas médicas y otras publicaciones de ciencias de la salud es que las abreviaturas y los acrónimos deben ampliarse la primera vez que se usan, para proporcionar una explicación de tipo glosa . Por lo general, no se permiten excepciones, salvo pequeñas listas de términos especialmente conocidos (como ADN o VIH ). Aunque los lectores con un alto nivel de conocimiento en la materia no necesitan la mayoría de estas ampliaciones, a aquellos con un nivel de conocimiento intermedio o (especialmente) bajo les resultan apropiadas.
Una complicación que los símbolos de genes y proteínas traen a esta regla general es que no son, hablando con propiedad, abreviaturas o acrónimos, a pesar del hecho de que muchos fueron acuñados originalmente a través de etimología abreviada o acrónimo. Son pseudoacrónimos (como también lo son SAT y KFC ) porque no "representan" ninguna expansión. Más bien, la relación de un símbolo de gen con el nombre de gen es funcionalmente la relación de un apodo con un nombre formal (ambos son identificadores completos ), no es la relación de un acrónimo con su expansión. De hecho, muchos pares oficiales de símbolos de genes-nombres de genes ni siquiera comparten sus secuencias de letras iniciales (aunque algunos sí lo hacen). Sin embargo, los símbolos de genes y proteínas "se parecen" a las abreviaturas y acrónimos, lo que presenta el problema de que "no" al "expandirlos" (aunque en realidad no es un error y no hay verdaderas expansiones) crea la apariencia de violar la regla de deletrear todos los acrónimos.
Una forma habitual de conciliar estas dos fuerzas opuestas es simplemente eximir a todos los símbolos de genes y proteínas de la regla de glosa. Esto es ciertamente rápido y fácil de hacer, y en revistas altamente especializadas, también está justificado porque todos los lectores destinatarios tienen un alto nivel de conocimientos sobre la materia. (Los expertos no se confunden con la presencia de símbolos (ya sean conocidos o nuevos) y saben dónde buscarlos en línea para obtener más detalles si es necesario). Pero para las revistas con lectores destinatarios más amplios y generales, esta acción deja a los lectores sin ninguna anotación explicativa y puede dejarlos preguntándose qué significa la abreviatura aparente y por qué no se explicó. Por lo tanto, una buena solución alternativa es simplemente poner el nombre oficial del gen o una descripción corta adecuada (alias del gen u otra designación) entre paréntesis después del primer uso del símbolo oficial del gen/proteína. Esto cumple tanto el requisito formal (la presencia de una glosa) como el requisito funcional (ayudar al lector a saber a qué se refiere el símbolo). La misma directriz se aplica a los nombres abreviados de las variaciones de secuencia; La AMA dice: "En las publicaciones médicas generales, las explicaciones textuales deben acompañar a los términos abreviados en la primera mención". [21] Por lo tanto, "188del11" se glosa como "una deleción de 11 pb en el nucleótido 188". Esta regla corolaria (que forma un complemento a la regla de deletrear todo) a menudo también sigue el estilo de expansión de "abreviatura inicial" que se está volviendo más frecuente en los últimos años. Tradicionalmente, la abreviatura siempre seguía a la forma completamente expandida entre paréntesis en el primer uso. Esta sigue siendo la regla general. Pero para ciertas clases de abreviaturas o acrónimos (como acrónimos de ensayos clínicos [p. ej., ECOG ] o regímenes de poliquimioterapia estandarizados [p. ej., CHOP ]), este patrón puede invertirse, porque la forma corta se usa más ampliamente y la expansión es meramente entre paréntesis para la discusión en cuestión. Lo mismo es cierto para los símbolos de genes/proteínas.
El Comité de Nomenclatura Genética de HUGO (HGNC) mantiene un símbolo y nombre oficial para cada gen humano, así como una lista de sinónimos y símbolos y nombres anteriores. Por ejemplo, para AFF1 (familia AF4/FMR2, miembro 1), los símbolos y nombres anteriores son MLLT2 ("leucemia mieloide/linfoide o de linaje mixto (homólogo de tritórax (Drosophila)); translocado a, 2") y PBM1 ("leucemia monocítica de células pre-B, pareja 1"), y los sinónimos son AF-4 y AF4 . Los autores de artículos de revistas a menudo utilizan el símbolo y nombre oficial más reciente, pero con la misma frecuencia utilizan sinónimos y símbolos y nombres anteriores, que están bien establecidos por su uso anterior en la literatura. El estilo de la AMA es que "los autores deben utilizar el término más actualizado" [22] y que "en cualquier discusión sobre un gen, se recomienda que el símbolo del gen aprobado se mencione en algún momento, preferiblemente en el título y el resumen si es relevante". [22] Debido a que no se espera ni se permite que los editores reescriban la nomenclatura de genes y proteínas a lo largo de un manuscrito (excepto por instrucciones expresas raras en asignaciones particulares), el punto intermedio en los manuscritos que usan sinónimos o símbolos más antiguos es que el editor agregará una mención del símbolo oficial actual al menos como una glosa entre paréntesis en la primera mención del gen o proteína, y consultará para obtener confirmación.
Algunas convenciones básicas, como (1) que los pares homólogos (ortólogos) animales/humanos difieren en mayúsculas y minúsculas ( título en mayúsculas y minúsculas , respectivamente) y (2) que el símbolo se escribe en cursiva cuando se refiere al gen, pero no en cursiva cuando se refiere a la proteína, a menudo no son respetadas por los colaboradores de las revistas médicas. Muchas revistas hacen que los editores de texto cambien el estilo de mayúsculas y minúsculas y el formato en la medida de lo posible, aunque en discusiones complejas sobre genética solo los expertos en la materia (SMEs) pueden analizarlas todas sin esfuerzo. Un ejemplo que ilustra el potencial de ambigüedad entre los no SMEs es que algunos nombres oficiales de genes tienen la palabra "proteína" dentro de ellos, por lo que la frase "proteína cerebral I3 ( BRI3 )" (que se refiere al gen) y "proteína cerebral I3 (BRI3)" (que se refiere a la proteína) son ambas válidas. El Manual de la AMA ofrece otro ejemplo: tanto "el gen TH" como "el gen TH " pueden analizarse como correctos ("el gen de la tirosina hidroxilasa"), porque el primero menciona el alias (descripción) y el segundo menciona el símbolo. Esto parece confuso a primera vista, aunque es más fácil de entender cuando se explica de la siguiente manera: en el caso de este gen, como en muchos otros, el alias (descripción) "usa la misma cadena de letras" que el símbolo. (La coincidencia de las letras es, por supuesto, de origen acrónimo y, por lo tanto, la frase "usa" implica más coincidencia de la que realmente existe; pero expresarlo de esa manera ayuda a que la explicación sea más clara). No hay forma de que alguien que no sea experto en la materia sepa que este es el caso de una cadena de letras en particular sin buscar todos los genes del manuscrito en una base de datos como NCBI Gene, revisar su símbolo, nombre y lista de alias y hacer algunas referencias cruzadas mentales y comprobaciones dobles (además, es útil tener conocimientos bioquímicos). La mayoría de las revistas médicas no pagan (en algunos casos no pueden pagar) por ese nivel de verificación de datos como parte de su nivel de servicio de edición de textos; por lo tanto, sigue siendo responsabilidad del autor. Sin embargo, como se señaló anteriormente, muchos autores hacen poco esfuerzo por seguir las pautas de mayúsculas y minúsculas o cursiva; y con respecto a los símbolos de las proteínas, a menudo no utilizan el símbolo oficial en absoluto. Por ejemplo, aunque las pautas llamarían a la proteína p53 "TP53" en humanos o "Trp53" en ratones, la mayoría de los autores la llaman "p53" en ambos (e incluso se niegan a llamarla "TP53" si las ediciones o consultas intentan hacerlo), sobre todo debido al principio biológico de que muchas proteínas son esencialmente o exactamente las mismas moléculas independientemente de la especie de mamífero. Con respecto al gen, los autores generalmente están dispuestos a llamarlo por su símbolo y mayúscula específicos para humanos, TP53., e incluso pueden hacerlo sin que se les pida una consulta. Pero el resultado final de todos estos factores es que la literatura publicada a menudo no sigue las pautas de nomenclatura por completo.
Bacterias
: Los símbolos genéticos suelen estar compuestos por tres letras minúsculas en cursiva que sirven como abreviatura del proceso o vía en la que está involucrado el producto génico (p. ej.,
los genes
rpo codifican
la
ARN
polimerasa
). Para distinguir entre diferentes alelos, la abreviatura va seguida de una letra mayúscula (p. ej., el gen
rpoB
codifica la subunidad β de la ARN polimerasa). Los símbolos de proteínas no están en cursiva y la primera letra está en mayúscula (p. ej., RpoB).