Cancer Genome Atlas データ

The Cancer Genome Atlas(TCGA)プログラムは、大規模なゲノム解読などの遺伝子解析技術の応用を通して、がんの分子基盤についての理解を加速するための、包括的かつ組織的な取り組みでした。プログラムから生成されたデータにより、20,000 以上の原発性がんの分子構造が特徴付けられ、33 種類のがんに対応する標準サンプルに一致しています。

Institute for Systems Biology Cancer Gateway in the Cloud(ISB-CGC)では、アクセスと分析を容易にするために、BigQuery テーブルの TCGA データとメタデータにアクセスできます。これらのテーブルには、情報が数万個に分散した XML および表形式のオープン アクセス TCGA データを、データ型(臨床、生物検体、遺伝子発現、変異など)ごとにクエリ可能な形式に整理統合することにより、アクセスと分析を容易にしています。

同様に、ISB-CGC は他のがんプログラムのための BigQuery テーブルも作成しています。ISB-CGC プログラムのドキュメントをご覧ください。

また ISB-CGC は、ISB-CGC BigQuery テーブルを使用した、単純なクエリから複雑なクエリまでを幅広く構築および分析するノートブックのサンプルを、R と Python の両方で提供しています。

データセットへのアクセス

Cloud Storage フォルダ

ISB-CGC は、アメリカ国立がん研究所が BigQuery データセットの GDC(ゲノム データ コモンズ)でホストする TCGA データの Cloud Storage パス(isb-cgc-bq.GDC_case_file_metadata)を保存しています。ファイルの場所へのアクセス方法については、ISB-CGC TCGA のドキュメントをご覧ください。

BigQuery データセット

データ探索とクエリ用に、BigQuery の次の TCGA データセットにアクセスできます。

他の ISB-CGC がんデータセットを探索するには、ISB-CGC BigQuery 検索ツールを使用します。このデータは、Google BigQuery の isb-cgc-bq プロジェクトにあります。ISB-CGC とそのデータの詳細については、ISB-CGC のドキュメントをご覧ください。

データについて

使用: このデータセットは、データセットのソース(https://cancergenome.nih.gov/)で規定されている条件の下で誰でも利用できるように公開されています。Google はこのデータセットを「現状のまま」提供し、明示または黙示を問わず、いかなる保証も行いません。Google は、このデータセットの使用で、直接または間接の損害が発生したとしても一切の責任を負いません。