Genome Aggregation Database(gnomAD)는 대규모 시퀀싱 프로젝트에서 얻은 데이터를 집계 및 조정하기 위해 국제 조사관 연합에 의해 관리됩니다.
이러한 공개 데이터 세트는 Cloud Storage 버킷의 VCF 형식과 BigQuery에서 정수 범위로 파티션을 나눈 테이블로 제공됩니다. 각 데이터 세트는 염색체별로 분할됩니다. 즉, 변이는 24개의 테이블에 분산됩니다('__chr*' 서픽스로 표시됨). 샤딩된 테이블을 활용하면 쿼리 비용이 크게 줄어듭니다.
Variant Transforms는 이러한 VCF 파일을 처리하고 BigQuery로 가져오는 데 사용되었습니다. VEP 주석은 Variant Transforms의 주석 지원을 사용하여 더 쉽게 분석할 수 있도록 별도의 열로 파싱되었습니다.
데이터 세트 액세스
Cloud Storage 폴더
다음 파일은 gcp-public-data--gnomad
Cloud Storage 버킷에서 사용할 수 있습니다.
- 전체 gnomAD 데이터: gs://gcp-public-data--gnomad
- 버전 2.1.1 진유전체 및 게놈: gs://gcp-public-data--gnomad/release/2.1.1
- 버전 3.0 게놈: gs://gcp-public-data--gnomad/release/3.0
BigQuery 데이터 세트
BigQuery의 gnomAD 데이터 세트에 액세스하여 데이터를 탐색하고 다음 항목을 쿼리할 수 있습니다.
- 버전 2.1.1 진유전체
- 버전 2.1.1 게놈
- 버전 3.0 게놈
데이터 세트는 다음 리전에서도 사용할 수 있습니다.
데이터 세트 정보
v2 데이터 세트(GRCh37/hg19)는 다양한 질병별 및 집단 유전학 연구의 일환으로 시퀀싱된 관련 없는 개인들의 125,748개의 진유전체 서열과 15,708개의 전체 게놈 시퀀스에 걸쳐 있습니다. v3 데이터 세트(GRCh38)는 v2에서 선택된 71,702개의 게놈에 걸쳐 있습니다.
BigQuery 데이터 세트 및 샘플 쿼리에 대한 자세한 내용은 Google Cloud Marketplace를 참조하세요.
데이터 세트 소스:
- gnomAD는 Broad Institute의 gnomAD 사이트에서 호스팅됩니다.
사용: 데이터 세트에 대한 전체 이용약관은 Broad Institute 사이트를 참조하세요. 데이터는 Google의 어떠한 명시적 또는 묵시적인 보증 없이 '있는 그대로' 제공됩니다. Google에서는 데이터 세트 사용으로 인해 발생하는 직간접적인 손해에 대해 책임지지 않습니다.