O programa The Cancer Genome Atlas (TCGA) foi um esforço abrangente e coordenado para acelerar o entendimento da base molecular do câncer por meio da aplicação de tecnologias de análise do genoma, incluindo o sequenciamento do genoma em grande escala. Os dados gerados do programa caracterizaram em um nível molecular mais de 20 mil tipos de câncer primários e foram associados a amostras normais que abrangem 33 tipos diferentes de câncer.
O Institute for Systems Biology Cancer Gateway in the Cloud (ISB-CGC) (em inglês) fornece acesso a dados e metadados do TCGA em tabelas do BigQuery para facilitar o acesso e a análise. Essas tabelas consolidam as informações espalhadas por dezenas de milhares de dados do TCGA nos formatos XML e tabular de acesso aberto em um formato consultável por tipo de dados (por exemplo, dados clínicos, bioespécime, expressão de gene e mutação) para facilitar o acesso e a análise.
Da mesma forma, o ISB-CGC criou tabelas do BigQuery para outros programas sobre câncer. Consulte a documentação do programa ISB-CGC (em inglês).
O ISB-CGC também fornece exemplos de notebook em R e Python que variam de criação de consulta simples à complexa usando as tabelas do BigQuery do ISB-CGC:
Acesso ao conjunto de dados
Pastas do Cloud Storage
O ISB-CGC salva caminhos de armazenamento em nuvem para os dados do TCGA hospedados pelo Genomic Data Commons do Instituto Nacional do Câncer no conjunto de dados do BigQuery isb-cgc-bq.GDC_case_file_metadata. Consulte a documentação do TCGA do ISB-CGC (em inglês) para saber como acessar esses locais de arquivos.
Conjuntos de dados do BigQuery
Para explorar e consultar os dados, acesse os seguintes conjuntos de dados do TCGA no BigQuery:
Para explorar outros conjuntos de dados de câncer do ISB-CGC, use a ferramenta de pesquisa do ISB-CGC no BigQuery. É possível encontrar esses dados no projeto isb-cgc-bq no Google BigQuery. Para mais informações sobre o ISB-CGC e os dados dele, consulte a documentação do ISB-CGC.
Sobre os dados
Uso: esse conjunto de dados está disponível ao público conforme os termos fornecidos pela fonte do conjunto de dados (https://cancergenome.nih.gov/) e é concedido "NO ESTADO EM QUE SE ENCONTRA", sem garantia expressa ou implícita do Google. O Google se isenta de qualquer responsabilidade por eventuais danos, diretos ou indiretos, decorrentes do uso do conjunto de dados.