Proyecto de anatomía del genoma del cáncer

El Cancer Genome Anatomy Project ( CGAP ), creado por el National Cancer Institute (NCI) en 1997 e introducido por Al Gore , es una base de datos en línea sobre genomas normales, precancerosos y cancerosos. También proporciona herramientas para la visualización y el análisis de los datos, lo que permite la identificación de genes involucrados en varios aspectos de la progresión tumoral. El objetivo del CGAP es caracterizar el cáncer a nivel molecular proporcionando una plataforma con datos actualizados de fácil acceso y un conjunto de herramientas para que los investigadores puedan relacionar fácilmente sus hallazgos con el conocimiento existente. También hay un enfoque en el desarrollo de herramientas de software que mejoren el uso de conjuntos de datos grandes y complejos. ^[1]^[2] El proyecto está dirigido por Daniela S. Gerhard e incluye subproyectos o iniciativas, entre los que se destacan el Cancer Chromosome Aberration Project (CCAP) y la Genetic Annotation Initiative (GAI). El CGAP contribuye a muchas bases de datos y organizaciones como el NCBI contribuyen a las bases de datos del CGAP.

Los resultados finales del CGAP incluyen el establecimiento de una correlación entre la progresión de un cáncer en particular y su resultado terapéutico, una mejor evaluación del tratamiento y el desarrollo de nuevas técnicas para la prevención, detección y tratamiento. Esto se logra mediante la caracterización de productos de ARNm de tejidos biológicos.

Investigación

Fondo

La causa fundamental del cáncer es la incapacidad de una célula para regular su expresión genética. Para caracterizar un tipo específico de cáncer, se pueden examinar las proteínas que se producen a partir de la expresión genética alterada o el ARNm precursor de la proteína. El CGAP trabaja para asociar el perfil de expresión de una célula en particular , su firma molecular o transcriptoma , que es esencialmente la huella digital de la célula, con el fenotipo de la célula. Por lo tanto, los perfiles de expresión existen teniendo en cuenta el tipo de cáncer y la etapa de progresión. ^[3]

Secuenciación

El objetivo inicial del CGAP era establecer un índice de genes tumorales (TGI) para almacenar los perfiles de expresión. Esto contribuiría tanto a las bases de datos nuevas como a las existentes. ^[4] Esto contribuyó a dos tipos de bibliotecas, la dbEST y, posteriormente, la dbSAGE. Esto se llevó a cabo en una serie de pasos: ^[3]

El contenido celular se lava sobre placas con secuencias de poli T. Esto unirá las colas de poli-A que existen solo en las moléculas de ARNm, por lo que mantendrá el ARNm de forma selectiva.
El ARNm aislado se procesa en una transcripción de ADNc a través de reacciones de transcripción inversa y polimerización de ADN.
El ADN bicatenario resultante se incorpora luego a plásmidos de E. coli . Cada bacteria contiene ahora un ADNc único y se replica para producir clones con la misma información genética. Esto se denomina biblioteca de ADNc .
La biblioteca puede entonces secuenciarse mediante técnicas de secuenciación de alto rendimiento , lo que permite caracterizar tanto los diferentes genes expresados por la célula original como la cantidad de expresión de cada gen.

El TGI se centró inicialmente en los cánceres de próstata, mama, ovario, pulmón y colon, y el CGAP amplió su investigación a otros tipos de cáncer. En la práctica, surgieron problemas que el CGAP tuvo en cuenta a medida que se disponía de nuevas tecnologías.

Muchos cánceres se producen en tejidos con múltiples tipos de células. Las técnicas tradicionales tomaban toda la muestra de tejido y producían bibliotecas de ADNc de tejido en masa. Esta heterogeneidad celular hacía que la información sobre la expresión génica en términos de biología del cáncer fuera menos precisa. Un ejemplo es el tejido de cáncer de próstata, donde las células epiteliales, que se ha demostrado que son el único tipo de célula que da lugar al cáncer, solo constituyen el 10% del recuento celular. Esto condujo al desarrollo de la microdisección por captura láser (LCM), una técnica que puede aislar tipos de células individuales, lo que dio lugar a bibliotecas de ADNc de tipos de células específicos. ^[4]

La secuenciación del ADNc producirá la transcripción completa del ARNm que lo generó. En la práctica, solo se requiere una parte de la secuencia para identificar de forma única el ARNm o la proteína asociada. La parte resultante de la secuencia se denominó etiqueta de secuencia expresada (EST) y siempre se encuentra al final de la secuencia cerca de la cola de poli A. Los datos de EST se almacenan en una base de datos llamada dbEST. Las EST solo necesitan tener una longitud de alrededor de 400 bases, pero con las técnicas de secuenciación NGS esto seguirá produciendo lecturas de baja calidad. Por lo tanto, también se utiliza un método mejorado llamado análisis en serie de la expresión génica (SAGE). Este método identifica, para cada molécula de transcripción de ADNc producida a partir de la expresión génica de una célula, regiones de solo 10 a 14 bases de longitud en cualquier lugar a lo largo de la secuencia de lectura, suficiente para identificar de forma única esa transcripción de ADNc. Estas bases se cortan y se unen entre sí, luego se incorporan a plásmidos bacterianos como se mencionó anteriormente. Las bibliotecas SAGE tienen una mejor calidad de lectura y generan una mayor cantidad de datos cuando se secuencian, y dado que las transcripciones se comparan en niveles absolutos en lugar de relativos, SAGE tiene la ventaja de no requerir normalización de los datos mediante la comparación con una referencia. ^[1]^[4]

Recursos

Tras la secuenciación y el establecimiento de bibliotecas, el CGAP incorpora los datos junto con las fuentes de datos existentes y proporciona varias bases de datos y herramientas para el análisis. En el sitio web del CGAP del NCI se puede encontrar una descripción detallada de las herramientas y bases de datos creadas o utilizadas por el CGAP. A continuación se presentan algunas de las iniciativas o herramientas de investigación proporcionadas por el CGAP.

Iniciativa de anotación genómica

El objetivo de la Iniciativa de Anotación Genómica del Proyecto de Anatomía Genómica del Cáncer (CGAP-GAI) es descubrir y catalogar polimorfismos de un solo nucleótido (SNP) que se correlacionan con la iniciación y progresión del cáncer. ^[4] CGAP-GAI ha creado una variedad de herramientas para el descubrimiento, análisis y visualización de SNP. Los SNP son valiosos en la investigación del cáncer ya que se pueden utilizar en varios estudios genéticos diferentes, comúnmente para rastrear la transmisión, identificar formas alternativas de genes y analizar vías moleculares complejas que regulan el metabolismo, el crecimiento o la diferenciación celular. ^[5]

Los SNP en el CGAP-GAI se encuentran como resultado de la resecuenciación de genes de interés en diferentes individuos o de la búsqueda en bases de datos de EST humanas existentes y la realización de comparaciones. ^[2] Examina transcripciones de individuos sanos, individuos con enfermedades, tejido tumoral y líneas celulares de un gran conjunto de individuos; por lo tanto, es más probable que la base de datos incluya mutaciones de enfermedades raras además de variantes de alta frecuencia. ^[6] Un desafío común con la detección de SNP es la diferenciación entre errores de secuenciación y polimorfismos reales. Los SNP que se encuentran se someten a un análisis estadístico utilizando el proceso de SNP del CGAP para calcular la probabilidad de que la variante sea de hecho un polimorfismo. Los SNP de alta probabilidad se validan y hay herramientas disponibles que hacen predicciones sobre si la función está alterada. ^[2]

Para facilitar el acceso a los datos, CGAP-GAI cuenta con una serie de herramientas que permiten mostrar una descripción general de la alineación y el ensamblaje de secuencias con el contexto de las secuencias a partir de las cuales se predijeron. Los SNP se anotan y a menudo se determinan mapas genéticos/físicos integrados. ^[6]

Proyecto de aberraciones cromosómicas en el cáncer (CCAP)

La inestabilidad genómica es una característica común del cáncer; por lo tanto, comprender las anomalías cromosómicas y estructurales puede brindar información sobre la progresión de la enfermedad. El Proyecto de aberraciones cromosómicas en el cáncer (cCAP, por sus siglas en inglés) es una iniciativa respaldada por el CGAP que se utiliza para definir la estructura cromosómica y caracterizar los reordenamientos asociados con la transformación maligna. ^[4]^[7] Incorpora la versión en línea de la base de datos de Mitelman, creada por Felix Mitelman, Bertil Johansson y Fredrik Mertens antes de la creación del CGAP, otra compilación de reordenamientos cromosómicos conocidos. El CCAP tiene varios objetivos: ^[7]

Integración de mapas citogenéticos y físicos del genoma humano
Generar un repositorio de clones de BAC en todo el genoma que estén mapeados genética y físicamente
Desarrollar una plataforma para la correlación de bases de datos paralelas de aberraciones asociadas al cáncer (base de datos de clones BAC mapeados mediante hibridación in situ fluorescente (FISH))
Integración de tres técnicas de análisis citogenético (cariotipo espectral, hibridación genómica comparativa y FISH) para refinar la nomenclatura definitoria de las aberraciones cariotípicas.

La base de datos contiene información citogenética de más de 64.000 casos de pacientes, incluidas más de 2.000 fusiones genéticas. ^[1]

Como parte de este proyecto, existe un repositorio de clones BAC mapeados física y citogenéticamente para el genoma humano que están disponibles físicamente a través de una red de distribuidores. ^[1] Los mapas de clones CCAP se han mapeado citogenéticamente utilizando FISH a una resolución de 1-2 Mb en todo el genoma humano, y se han mapeado físicamente utilizando sitios etiquetados con secuencia (STS). ^[8] Los datos para clones BAC también están disponibles a través de las bases de datos CGAP y NCBI.

Otros recursos

A continuación se enumeran algunos otros recursos disponibles a través del CGAP. ^[1]

Pantalla diferencial digital

Una de las primeras técnicas utilizadas por el CGAP es la visualización diferencial digital (DDD), que utiliza la prueba exacta de Fisher para comparar bibliotecas entre sí, con el fin de encontrar una diferencia significativa entre poblaciones. El CGAP se aseguró de que la DDD pudiera comparar entre todas las bibliotecas de ADNc en dbEST, y no solo entre aquellas generadas por el CGAP. ^[4]

Colección de genes de mamíferos (MGC)

El MGC proporciona a los investigadores información completa sobre las proteínas a partir del ADNc, a diferencia de las bases de datos EST o SAGE, que solo proporcionan la etiqueta de identificación. El proyecto incluye genes humanos y de ratón, y más tarde se añadieron los ADNc de vaca generados por Genome Canada . ^[9]

Mapa SAGE

SAGEmap es la base de datos que se utiliza para almacenar las bibliotecas SAGE. En 2001 existían más de 3,4 millones de etiquetas SAGE. Se pueden utilizar herramientas para asignar etiquetas SAGE a los clústeres UniGene , una base de datos que almacena transcriptomas. Esto permite una identificación más sencilla de la secuencia correspondiente a una etiqueta SAGE. Además, existen herramientas asociadas con SAGEmaps: ^[10]

Digital Northern se utiliza para medir el nivel de expresión de genes específicos, ^[1]
SAGE Anatomic Viewer muestra esta información visualmente y la compara entre células normales y cancerosas.
El visor de transcripciones de Ludwig (LT) muestra transcripciones alternativas y sus posibles etiquetas SAGE asociadas.
La matriz de expresión mSAGE (mSEM) muestra los niveles de expresión genética a lo largo del desarrollo del ratón para diferentes tipos de tejidos.

Buscador de genes

El CGAP localiza un gen o una lista de genes en función de criterios de búsqueda específicos y proporciona enlaces a diferentes bases de datos del NCI y del NCBI. Se puede buscar un gen de forma específica utilizando un identificador único, como los símbolos genéticos y el número de gen Entrez, así como también, en general, por función, tejido o palabra clave. ^[11]

Otras herramientas genéticas accesibles a través de la interfaz web del CGAP incluyen el Gene Ontology Browser (GO) y la herramienta Nucleotide BLAST.

Herramientas de expresión genética

El cDNA xProfiler y el visualizador de expresión génica digital de cDNA (DGED) se utilizan juntos para encontrar genes estadísticamente significativos de interés que se expresan de manera diferencial dentro de dos grupos de bibliotecas de cDNA; normalmente se realiza una comparación entre tejidos normales y cancerosos. ^[12] La significación estadística se determina mediante DGED utilizando una combinación de estadísticas bayesianas y una razón de probabilidades de secuencia para calcular una probabilidad. cDNA DGED se basa en la base de datos relacional UniGene, mientras que cDNA xProfiler utiliza una base de datos de archivo plano que no está disponible en línea. ^[13]

Resultados y futuro

El CGAP es ahora una ubicación centralizada para varias herramientas genómicas y bases de datos genéticas y se emplea ampliamente en la investigación del cáncer y la biología molecular. Las bases de datos establecidas por el CGAP siguen contribuyendo al conocimiento de los cánceres en términos de sus vías y progresión. Las bases de datos del transcriptoma también se pueden utilizar en investigaciones no relacionadas con el cáncer, ya que contienen información que se puede utilizar para identificar de forma rápida y sencilla genes secuenciados particulares. Los datos también tienen un impacto clínico, ya que los ADNc se pueden utilizar para crear microarrays con fines de diagnóstico y comparación de tratamientos. El CGAP se ha utilizado en muchos estudios, con ejemplos que incluyen: ^[1]^[4]

Caracterización de las diferencias en la expresión génica de células endoteliales normales y cancerosas ^[14]
Identificación de la expresión genética irregular como marcadores de glioblastomas ^[15] y cáncer de ovario ^[16]
Identificación de la expresión genética específica del tejido prostático ^[17]
Comparación de proteínas expresadas en tejido reproductivo normal y canceroso ^[18]

Además, la enorme cantidad de datos generados por el CGAP ha impulsado la mejora de las técnicas de análisis y extracción de datos, con ejemplos que incluyen: ^[1]

Comparación de la expresión genética de múltiples bibliotecas de ADNc ^[19]
Técnicas mejoradas para la minería de bibliotecas EST ^[20]
Estudios integrales a gran escala del análisis del transcriptoma humano ^[21]

Véase también

Referencias

^ abcdefgh Riggins, GJ (2001). "Genoma y recursos genéticos del Cancer Genome Anatomy Project". Genética molecular humana . 10 (7): 663–667. doi :10.1093/hmg/10.7.663. ISSN 1460-2083. PMID 11257097.
^ abc Strausberg, Robert L.; Buetow, Kenneth H.; Emmert-Buck, Michael R.; Klausner, Richard D. (2000). "El Proyecto de Anatomía Genómica del Cáncer: construcción de un índice genético anotado". Tendencias en Genética . 16 (3): 103–106. doi :10.1016/S0168-9525(99)01937-X. ISSN 0168-9525. PMID 10689348.
^ ab "Entender el cáncer". Archivado desde el original el 5 de agosto de 2014. Consultado el 4 de septiembre de 2014 .
^ abcdefg Krizman, David B.; Wagner, Lukas; Lash, Alex; Strausberg, Robert L.; Emmert-Buck, Michael R. (1999). "El proyecto de anatomía del genoma del cáncer: secuenciación de EST y genética de la progresión del cáncer". Neoplasia . 1 (2): 101–106. doi :10.1038/sj.neo.7900002. ISSN 1476-5586. PMC 1508126 . PMID 10933042.
^ Clifford, R. (2000). "Mapas genéticos/físicos basados en la expresión de polimorfismos de un solo nucleótido identificados por el Cancer Genome Anatomy Project". Genome Research . 10 (8): 1259–1265. doi :10.1101/gr.10.8.1259. ISSN 1088-9051. PMC 310932 . PMID 10958644.
^ ab Clifford, Robert J.; Edmonson, Michael N.; Nguyen, Cu; Scherpbier, Titia; Hu, Ying; Buetow, Kenneth H. (2004). "Herramientas bioinformáticas para el descubrimiento y análisis de polimorfismos de nucleótido único". Anales de la Academia de Ciencias de Nueva York . 1020 (1): 101–109. Código Bibliográfico :2004NYASA1020..101C. doi :10.1196/annals.1310.011. ISSN 0077-8923. PMID 15208187. S2CID 19088027.
^ ab "Proyecto de aberraciones cromosómicas en el cáncer (CCAP)" . Consultado el 5 de septiembre de 2014 .
^ "Todo sobre los BAC mapeados mediante FISH" . Consultado el 7 de septiembre de 2014 .
^ "Colección de genes de mamíferos". Archivado desde el original el 25 de febrero de 2015. Consultado el 7 de septiembre de 2014 .
^ "El genio de SAGE" . Consultado el 7 de septiembre de 2014 .
^ "Gene Finder" . Consultado el 7 de septiembre de 2014 .
^ "CGAP How to: Tools" (Cómo hacerlo en el CGAP: herramientas) . Consultado el 7 de septiembre de 2014 .
^ Milnthorpe, Andrew T; Soloviev, Mikhail (2011). "Errores en CGAP xProfiler y cDNA DGED: la importancia del análisis de bibliotecas y los algoritmos de selección de genes". BMC Bioinformatics . 12 (1): 97. doi : 10.1186/1471-2105-12-97 . ISSN 1471-2105. PMC 3094240 . PMID 21496233.
^ Croix, B. St. (2000). "Genes expresados en el endotelio tumoral humano". Science . 289 (5482): 1197–1202. Bibcode :2000Sci...289.1197S. doi :10.1126/science.289.5482.1197. ISSN 0036-8075. PMID 10947988.
^ Loging, WT (2000). "Identificación de posibles marcadores tumorales y antígenos mediante minería de datos y detección rápida de expresión". Genome Research . 10 (9): 1393–1402. doi :10.1101/gr.138000. ISSN 1088-9051. PMC 310902 . PMID 10984457.
^ CD Hough; CA Sherman-Baust; ES Pizer; FJ Montz; DD Im; NB Rosenshein; KR Cho; GJ Riggins; PJ Morin (noviembre de 2000). "El análisis en serie a gran escala de la expresión genética revela genes expresados de manera diferencial en el cáncer de ovario". Cancer Research . 60 (22): 6281–6287. PMID 11103784.
^ G. Vasmatzis; M. Essand; U. Brinkmann; B. Lee; I. Pastan (enero de 1998). "Descubrimiento de tres genes expresados específicamente en la próstata humana mediante análisis de la base de datos de etiquetas de secuencia expresada". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 95 (1): 300–304. Bibcode :1998PNAS...95..300V. doi : 10.1073/pnas.95.1.300 . PMC 18207 . PMID 9419370.
^ U. Brinkmann; G. Vasmatzis; B. Lee; N. Yerushalmi; M. Essand; I. Pastan (septiembre de 1998). "PAGE-1, un gen similar a GAGE ligado al cromosoma X que se expresa en próstata, testículo y útero normales y neoplásicos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 95 (18): 10757–10762. Bibcode :1998PNAS...9510757B. doi : 10.1073/pnas.95.18.10757 . PMC 27968 . PMID 9724777.
^ DJ Stekel; Y. Git; F. Falciani (diciembre de 2000). "La comparación de la expresión génica de múltiples bibliotecas de ADNc". Genome Research . 10 (12): 2055–2061. doi :10.1101/gr.gr-1325rr. PMC 313085 . PMID 11116099.
^ Schmitt, AO; Specht, T.; Beckmann, G.; Dahl, E.; Pilarsky, CP; Hinzmann, B.; Rosenthal, A. (1999). "Explotación exhaustiva de bibliotecas EST para genes expresados diferencialmente en tejidos normales y tumorales". Nucleic Acids Research . 27 (21): 4251–4260. doi :10.1093/nar/27.21.4251. ISSN 0305-1048. PMC 148701 . PMID 10518618.
^ VE Velculescu; SL Madden; L. Zhang; AE Latigazo; J. Yu; C. Rago; A. Lal; CJ Wang; GA Beaudry; KM Ciriello; cocinero de BP; Señor Dufault; EN Ferguson; Y. Gao; TC Él; H. Hermeking; SK Hiraldo; el primer ministro Hwang; MA López; HF Lüderer; B. Mateo; JM Petroziello; K. Polyak; L. Zawel; KW Kinzler (diciembre de 1999). "Análisis de transcriptomas humanos". Genética de la Naturaleza . 23 (4): 387–388. doi :10.1038/70487. PMID 10581018. S2CID 29173492.

Enlaces externos

Presentación de diapositivas del CGAP
Catálogo de recursos del CGAP