Dados do Cancer Genome Atlas

The Cancer Genome Atlas (TCGA) (link em inglês) foi um programa abrangente e coordenado esforço para acelerar o entendimento da base molecular do câncer com a aplicação de tecnologias de análise de genoma, incluindo sequenciamento de genoma em grande escala. Os dados gerados do programa caracterizaram em um nível molecular mais de 20 mil tipos de câncer primários e foram associados a amostras normais que abrangem 33 tipos diferentes de câncer.

O Institute for Systems Biology Cancer Gateway in the Cloud (ISB-CGC) (em inglês) fornece acesso a dados e metadados do TCGA em tabelas do BigQuery para facilitar o acesso e a análise. Essas tabelas consolidam as informações espalhadas por dezenas de milhares de dados do TCGA nos formatos XML e tabular de acesso aberto em um formato consultável por tipo de dados (por exemplo, dados clínicos, bioespécime, expressão de gene e mutação) para facilitar o acesso e a análise.

Da mesma forma, o ISB-CGC criou tabelas do BigQuery para outros programas sobre câncer. Consulte a documentação do programa ISB-CGC (em inglês).

O ISB-CGC também fornece exemplos de notebook em R e Python que variam de criação de consulta simples à complexa usando as tabelas do BigQuery do ISB-CGC:

Acesso ao conjunto de dados

Pastas do Cloud Storage

O ISB-CGC salva caminhos de armazenamento em nuvem para os dados do TCGA hospedados pelo Genomic Data Commons do Instituto Nacional do Câncer no conjunto de dados do BigQuery isb-cgc-bq.GDC_case_file_metadata. Consulte a documentação do TCGA do ISB-CGC para saber como acessar os locais dos arquivos.

Conjuntos de dados do BigQuery

Para explorar e consultar os dados, acesse os seguintes conjuntos de dados do TCGA no BigQuery:

Para explorar outros conjuntos de dados de câncer do ISB-CGC, use a ferramenta de pesquisa do ISB-CGC no BigQuery. É possível encontrar esses dados no projeto isb-cgc-bq no Google BigQuery. Para mais informações sobre o ISB-CGC e os dados dele, consulte a documentação do ISB-CGC.

Sobre os dados

Uso: esse conjunto de dados está disponível ao público conforme os termos fornecidos pela fonte do conjunto de dados (https://cancergenome.nih.gov/) e é concedido "NO ESTADO EM QUE SE ENCONTRA", sem garantia expressa ou implícita do Google. O Google se isenta de qualquer responsabilidade por eventuais danos, diretos ou indiretos, decorrentes do uso do conjunto de dados.