El Cancer Genome Anatomy Project ( CGAP ), creado por el National Cancer Institute (NCI) en 1997 e introducido por Al Gore , es una base de datos en línea sobre genomas normales, precancerosos y cancerosos. También proporciona herramientas para la visualización y el análisis de los datos, lo que permite la identificación de genes involucrados en varios aspectos de la progresión tumoral. El objetivo del CGAP es caracterizar el cáncer a nivel molecular proporcionando una plataforma con datos actualizados de fácil acceso y un conjunto de herramientas para que los investigadores puedan relacionar fácilmente sus hallazgos con el conocimiento existente. También hay un enfoque en el desarrollo de herramientas de software que mejoren el uso de conjuntos de datos grandes y complejos. [1] [2] El proyecto está dirigido por Daniela S. Gerhard e incluye subproyectos o iniciativas, entre los que se destacan el Cancer Chromosome Aberration Project (CCAP) y la Genetic Annotation Initiative (GAI). El CGAP contribuye a muchas bases de datos y organizaciones como el NCBI contribuyen a las bases de datos del CGAP.
Los resultados finales del CGAP incluyen el establecimiento de una correlación entre la progresión de un cáncer en particular y su resultado terapéutico, una mejor evaluación del tratamiento y el desarrollo de nuevas técnicas para la prevención, detección y tratamiento. Esto se logra mediante la caracterización de productos de ARNm de tejidos biológicos.
La causa fundamental del cáncer es la incapacidad de una célula para regular su expresión genética. Para caracterizar un tipo específico de cáncer, se pueden examinar las proteínas que se producen a partir de la expresión genética alterada o el ARNm precursor de la proteína. El CGAP trabaja para asociar el perfil de expresión de una célula en particular , su firma molecular o transcriptoma , que es esencialmente la huella digital de la célula, con el fenotipo de la célula. Por lo tanto, los perfiles de expresión existen teniendo en cuenta el tipo de cáncer y la etapa de progresión. [3]
El objetivo inicial del CGAP era establecer un índice de genes tumorales (TGI) para almacenar los perfiles de expresión. Esto contribuiría tanto a las bases de datos nuevas como a las existentes. [4] Esto contribuyó a dos tipos de bibliotecas, la dbEST y, posteriormente, la dbSAGE. Esto se llevó a cabo en una serie de pasos: [3]
El TGI se centró inicialmente en los cánceres de próstata, mama, ovario, pulmón y colon, y el CGAP amplió su investigación a otros tipos de cáncer. En la práctica, surgieron problemas que el CGAP tuvo en cuenta a medida que se disponía de nuevas tecnologías.
Muchos cánceres se producen en tejidos con múltiples tipos de células. Las técnicas tradicionales tomaban toda la muestra de tejido y producían bibliotecas de ADNc de tejido en masa. Esta heterogeneidad celular hacía que la información sobre la expresión génica en términos de biología del cáncer fuera menos precisa. Un ejemplo es el tejido de cáncer de próstata, donde las células epiteliales, que se ha demostrado que son el único tipo de célula que da lugar al cáncer, solo constituyen el 10% del recuento celular. Esto condujo al desarrollo de la microdisección por captura láser (LCM), una técnica que puede aislar tipos de células individuales, lo que dio lugar a bibliotecas de ADNc de tipos de células específicos. [4]
La secuenciación del ADNc producirá la transcripción completa del ARNm que lo generó. En la práctica, solo se requiere una parte de la secuencia para identificar de forma única el ARNm o la proteína asociada. La parte resultante de la secuencia se denominó etiqueta de secuencia expresada (EST) y siempre se encuentra al final de la secuencia cerca de la cola de poli A. Los datos de EST se almacenan en una base de datos llamada dbEST. Las EST solo necesitan tener una longitud de alrededor de 400 bases, pero con las técnicas de secuenciación NGS esto seguirá produciendo lecturas de baja calidad. Por lo tanto, también se utiliza un método mejorado llamado análisis en serie de la expresión génica (SAGE). Este método identifica, para cada molécula de transcripción de ADNc producida a partir de la expresión génica de una célula, regiones de solo 10 a 14 bases de longitud en cualquier lugar a lo largo de la secuencia de lectura, suficiente para identificar de forma única esa transcripción de ADNc. Estas bases se cortan y se unen entre sí, luego se incorporan a plásmidos bacterianos como se mencionó anteriormente. Las bibliotecas SAGE tienen una mejor calidad de lectura y generan una mayor cantidad de datos cuando se secuencian, y dado que las transcripciones se comparan en niveles absolutos en lugar de relativos, SAGE tiene la ventaja de no requerir normalización de los datos mediante la comparación con una referencia. [1] [4]
Tras la secuenciación y el establecimiento de bibliotecas, el CGAP incorpora los datos junto con las fuentes de datos existentes y proporciona varias bases de datos y herramientas para el análisis. En el sitio web del CGAP del NCI se puede encontrar una descripción detallada de las herramientas y bases de datos creadas o utilizadas por el CGAP. A continuación se presentan algunas de las iniciativas o herramientas de investigación proporcionadas por el CGAP.
El objetivo de la Iniciativa de Anotación Genómica del Proyecto de Anatomía Genómica del Cáncer (CGAP-GAI) es descubrir y catalogar polimorfismos de un solo nucleótido (SNP) que se correlacionan con la iniciación y progresión del cáncer. [4] CGAP-GAI ha creado una variedad de herramientas para el descubrimiento, análisis y visualización de SNP. Los SNP son valiosos en la investigación del cáncer ya que se pueden utilizar en varios estudios genéticos diferentes, comúnmente para rastrear la transmisión, identificar formas alternativas de genes y analizar vías moleculares complejas que regulan el metabolismo, el crecimiento o la diferenciación celular. [5]
Los SNP en el CGAP-GAI se encuentran como resultado de la resecuenciación de genes de interés en diferentes individuos o de la búsqueda en bases de datos de EST humanas existentes y la realización de comparaciones. [2] Examina transcripciones de individuos sanos, individuos con enfermedades, tejido tumoral y líneas celulares de un gran conjunto de individuos; por lo tanto, es más probable que la base de datos incluya mutaciones de enfermedades raras además de variantes de alta frecuencia. [6] Un desafío común con la detección de SNP es la diferenciación entre errores de secuenciación y polimorfismos reales. Los SNP que se encuentran se someten a un análisis estadístico utilizando el proceso de SNP del CGAP para calcular la probabilidad de que la variante sea de hecho un polimorfismo. Los SNP de alta probabilidad se validan y hay herramientas disponibles que hacen predicciones sobre si la función está alterada. [2]
Para facilitar el acceso a los datos, CGAP-GAI cuenta con una serie de herramientas que permiten mostrar una descripción general de la alineación y el ensamblaje de secuencias con el contexto de las secuencias a partir de las cuales se predijeron. Los SNP se anotan y a menudo se determinan mapas genéticos/físicos integrados. [6]
La inestabilidad genómica es una característica común del cáncer; por lo tanto, comprender las anomalías cromosómicas y estructurales puede brindar información sobre la progresión de la enfermedad. El Proyecto de aberraciones cromosómicas en el cáncer (cCAP, por sus siglas en inglés) es una iniciativa respaldada por el CGAP que se utiliza para definir la estructura cromosómica y caracterizar los reordenamientos asociados con la transformación maligna. [4] [7] Incorpora la versión en línea de la base de datos de Mitelman, creada por Felix Mitelman, Bertil Johansson y Fredrik Mertens antes de la creación del CGAP, otra compilación de reordenamientos cromosómicos conocidos. El CCAP tiene varios objetivos: [7]
La base de datos contiene información citogenética de más de 64.000 casos de pacientes, incluidas más de 2.000 fusiones genéticas. [1]
Como parte de este proyecto, existe un repositorio de clones BAC mapeados física y citogenéticamente para el genoma humano que están disponibles físicamente a través de una red de distribuidores. [1] Los mapas de clones CCAP se han mapeado citogenéticamente utilizando FISH a una resolución de 1-2 Mb en todo el genoma humano, y se han mapeado físicamente utilizando sitios etiquetados con secuencia (STS). [8] Los datos para clones BAC también están disponibles a través de las bases de datos CGAP y NCBI.
A continuación se enumeran algunos otros recursos disponibles a través del CGAP. [1]
Una de las primeras técnicas utilizadas por el CGAP es la visualización diferencial digital (DDD), que utiliza la prueba exacta de Fisher para comparar bibliotecas entre sí, con el fin de encontrar una diferencia significativa entre poblaciones. El CGAP se aseguró de que la DDD pudiera comparar entre todas las bibliotecas de ADNc en dbEST, y no solo entre aquellas generadas por el CGAP. [4]
El MGC proporciona a los investigadores información completa sobre las proteínas a partir del ADNc, a diferencia de las bases de datos EST o SAGE, que solo proporcionan la etiqueta de identificación. El proyecto incluye genes humanos y de ratón, y más tarde se añadieron los ADNc de vaca generados por Genome Canada . [9]
SAGEmap es la base de datos que se utiliza para almacenar las bibliotecas SAGE. En 2001 existían más de 3,4 millones de etiquetas SAGE. Se pueden utilizar herramientas para asignar etiquetas SAGE a los clústeres UniGene , una base de datos que almacena transcriptomas. Esto permite una identificación más sencilla de la secuencia correspondiente a una etiqueta SAGE. Además, existen herramientas asociadas con SAGEmaps: [10]
El CGAP localiza un gen o una lista de genes en función de criterios de búsqueda específicos y proporciona enlaces a diferentes bases de datos del NCI y del NCBI. Se puede buscar un gen de forma específica utilizando un identificador único, como los símbolos genéticos y el número de gen Entrez, así como también, en general, por función, tejido o palabra clave. [11]
Otras herramientas genéticas accesibles a través de la interfaz web del CGAP incluyen el Gene Ontology Browser (GO) y la herramienta Nucleotide BLAST.
El cDNA xProfiler y el visualizador de expresión génica digital de cDNA (DGED) se utilizan juntos para encontrar genes estadísticamente significativos de interés que se expresan de manera diferencial dentro de dos grupos de bibliotecas de cDNA; normalmente se realiza una comparación entre tejidos normales y cancerosos. [12] La significación estadística se determina mediante DGED utilizando una combinación de estadísticas bayesianas y una razón de probabilidades de secuencia para calcular una probabilidad. cDNA DGED se basa en la base de datos relacional UniGene, mientras que cDNA xProfiler utiliza una base de datos de archivo plano que no está disponible en línea. [13]
El CGAP es ahora una ubicación centralizada para varias herramientas genómicas y bases de datos genéticas y se emplea ampliamente en la investigación del cáncer y la biología molecular. Las bases de datos establecidas por el CGAP siguen contribuyendo al conocimiento de los cánceres en términos de sus vías y progresión. Las bases de datos del transcriptoma también se pueden utilizar en investigaciones no relacionadas con el cáncer, ya que contienen información que se puede utilizar para identificar de forma rápida y sencilla genes secuenciados particulares. Los datos también tienen un impacto clínico, ya que los ADNc se pueden utilizar para crear microarrays con fines de diagnóstico y comparación de tratamientos. El CGAP se ha utilizado en muchos estudios, con ejemplos que incluyen: [1] [4]
Además, la enorme cantidad de datos generados por el CGAP ha impulsado la mejora de las técnicas de análisis y extracción de datos, con ejemplos que incluyen: [1]