The Cancer Genome Atlas (TCGA) 프로그램은 대규모 게놈 시퀀싱을 비롯한 게놈 분석 기술을 적용하여 암의 분자 기반에 대한 이해를 가속화하기 위한 포괄적이고 조정된 노력입니다. 프로그램에서 생성된 데이터는 20,000개 이상의 주요 암을 분자화하고 33가지 서로 다른 암 유형을 포괄하는 정상 샘플과 일치시킵니다.
Institute for Systems Biology Cancer Gateway in the Cloud(ISB-CGC)는 BigQuery 테이블의 TCGA 데이터 및 메타데이터에 대한 액세스를 제공하여 간편하게 액세스하고 분석할 수 있습니다. 이러한 테이블은 수만 개의 XML 및 테이블 형식 개방형 액세스 TCGA 데이터에 분산된 정보를 간편한 액세스 및 분석을 위해 데이터 유형별로 쿼리 가능한 형식(예: 임상, 바이오시료(biospecimen), 유전자 발현, 돌연변이)으로 통합합니다.
마찬가지로 ISB-CGC는 다른 암 프로그램을 위한 BigQuery 테이블을 만들었습니다. ISB-CGC 프로그램 문서를 참조하세요.
ISB-CGC는 또한 ISB-CGC BigQuery 테이블을 사용하는 간단한 쿼리 빌드 및 분석부터 복잡한 것까지 R 및 Python으로 노트북 예시를 제공합니다.
데이터세트 액세스
Cloud Storage 폴더
ISB-CGC는 국립 암 연구소의 Genomic Data Commons에서 호스팅되는 TCGA 데이터에 대한 Cloud Storage 경로를 BigQuery 데이터 세트 isb-cgc-bq.GDC_case_file_metadata에 저장합니다. 이러한 파일 위치에 액세스하는 방법은 ISB-CGC TCGA 문서를 참고하세요.
BigQuery 데이터 세트
데이터 탐색 및 쿼리를 위해 BigQuery에서 다음 TCGA 데이터세트에 액세스할 수 있습니다.
다른 ISB-CGC 암 데이터 세트를 탐색하려면 ISB-CGC BigQuery 검색 도구를 사용합니다. 이 데이터는 Google BigQuery의 isb-cgc-bq 프로젝트에서 찾을 수 있습니다. ISB-CGC 및 해당 데이터에 대한 자세한 내용은 ISB-CGC 문서를 참조하세요.
데이터 정보
사용: 이 데이터 세트는 데이터 세트 출처(https://cancergenome.nih.gov/)에서 제공하는 약관을 따르는 모든 사용자에게 공개되며 Google의 어떠한 명시적 또는 묵시적인 보증 없이 '있는 그대로' 제공됩니다. Google은 데이터세트 사용으로 인한 직간접적인 손해를 책임지지 않습니다.