Simons Genome Diversity Project

이 데이터세트는 Simons Genome Diversity Project(SGDP)에서 제공하며 다양한 127개 인구 집단에 속하는 공개 게놈 279개로 구성되어 있습니다. 자세한 내용은 다음 간행물을 참조하세요.

데이터세트 액세스

Cloud Storage 폴더

다음 파일은 genomics-public-data Cloud Storage 버킷에서 사용할 수 있습니다.

BigQuery 데이터세트

데이터 탐색 및 쿼리를 위해 BigQuery에서 다음 데이터세트에 액세스할 수 있습니다.

데이터세트 정보

게놈 279개를 포함하는 전체 데이터세트

SGSP README공용 VCF 파일gs://genomics-public-data/simons-genome-diversity-project Cloud Storage 버킷에 추출되었습니다.

그런 다음 이 파일을 Cloud Life Sciences로 가져왔고, 변이를 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants BigQuery 테이블로 내보냈습니다.

샘플 메타데이터bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata BigQuery 테이블로 로드하기 위해 다음 명령어를 실행했습니다.

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

샘플 메타데이터는 VCF와 동일한 식별자를 사용하지 않으며 행 하나가 누락되어 있습니다. 이 샘플 속성은 http://www.ebi.ac.uk/ena/data/view/PRJEB9586에서 다운로드했고 bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes BigQuery 테이블로 재구성되었습니다. 이 작업은 wrangle-simons-sample-attributes.R 스크립트를 사용하여 수행되었습니다. 이 스크립트는 소스 VCF의 ID가 EBI의 해당 Illumina ID 속성과 일치하지 않는 3개 샘플을 다시 매핑합니다.

사용: 이 데이터 세트는 데이터 세트 출처(https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/)에서 제공하는 약관을 따르는 모든 사용자에게 공개되며 Google의 어떠한 명시적 또는 묵시적인 보증 없이 '있는 그대로' 제공됩니다. Google에서는 데이터세트 사용으로 인해 발생하는 직간접적인 손해에 대해 책임지지 않습니다.