Dados do Cancer Genome Atlas

O programa The Cancer Genome Atlas (TCGA) foi um esforço abrangente e coordenado para acelerar o entendimento da base molecular do câncer por meio da aplicação de tecnologias de análise do genoma, incluindo o sequenciamento do genoma em grande escala. Os dados gerados do programa caracterizaram em um nível molecular mais de 20 mil tipos de câncer primários e foram associados a amostras normais que abrangem 33 tipos diferentes de câncer.

O Institute for Systems Biology Cancer Gateway in the Cloud (ISB-CGC) (em inglês) fornece acesso a dados e metadados do TCGA em tabelas do BigQuery para facilitar o acesso e a análise. Essas tabelas consolidam as informações espalhadas por dezenas de milhares de dados do TCGA nos formatos XML e tabular de acesso aberto em um formato consultável por tipo de dados (por exemplo, dados clínicos, bioespécime, expressão de gene e mutação) para facilitar o acesso e a análise.

Da mesma forma, o ISB-CGC criou tabelas do BigQuery para outros programas sobre câncer. Consulte a documentação do programa ISB-CGC (em inglês).

O ISB-CGC também fornece exemplos de notebook em R e Python que variam de criação de consulta simples à complexa usando as tabelas do BigQuery do ISB-CGC:

Acesso ao conjunto de dados

Pastas do Cloud Storage

O ISB-CGC salva caminhos de armazenamento em nuvem para os dados do TCGA hospedados pelo Genomic Data Commons do Instituto Nacional do Câncer no conjunto de dados do BigQuery isb-cgc-bq.GDC_case_file_metadata. Consulte a documentação do TCGA do ISB-CGC (em inglês) para saber como acessar esses locais de arquivos.

Conjuntos de dados do BigQuery

Para explorar e consultar os dados, acesse os seguintes conjuntos de dados do TCGA no BigQuery:

Para explorar outros conjuntos de dados de câncer do ISB-CGC, use a ferramenta de pesquisa do ISB-CGC no BigQuery. É possível encontrar esses dados no projeto isb-cgc-bq no Google BigQuery. Para mais informações sobre o ISB-CGC e os dados dele, consulte a documentação do ISB-CGC.

Sobre os dados

Uso: esse conjunto de dados está disponível ao público conforme os termos fornecidos pela fonte do conjunto de dados (https://cancergenome.nih.gov/) e é concedido "NO ESTADO EM QUE SE ENCONTRA", sem garantia expressa ou implícita do Google. O Google se isenta de qualquer responsabilidade por eventuais danos, diretos ou indiretos, decorrentes do uso do conjunto de dados.