このデータセットは、Simons Genome Diversity Project(SGDP)によって提供され、127 のさまざまな集団から公開されている 279 のゲノムから構成されています。詳細については、以下の刊行物を参照してください。
- パイロット刊行物: アルタイ山脈のネアンデルタール人の完全なゲノム配列
- 完全なデータセットの刊行物: Simons Genome Diversity Project: 142 の多様な集団からの 300 のゲノム
データセットへのアクセス
Cloud Storage フォルダ
次のファイルは、genomics-public-data
Cloud Storage バケットにあります。
BigQuery データセット
データ探索とクエリ用に、BigQuery の次のデータセットにアクセスできます。
- バリアント: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants
- サンプル属性: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes
- サンプル メタデータ: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata
データセットについて
279 ゲノムを含む完全なデータセット
SGSP README の公開 VCF ファイルは gs://genomics-public-data/simons-genome-diversity-project Cloud Storage バケットに抽出されました。
次に、ファイルは Cloud Life Sciences にインポートされ、バリアントは bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants BigQuery テーブルにエクスポートされました。
サンプル メタデータは次のコマンドを実行して、bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata BigQuery テーブルに読み込まれました。
wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt # Strip blank lines from end of file and white space from end of lines. sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \ | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv bq load --autodetect \ simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv
サンプル メタデータでは、VCF で使われている同じサンプル識別子を使用しておらず、1 行不足しています。そのサンプル属性は http://www.ebi.ac.uk/ena/data/view/PRJEB9586 からダウンロードされ、bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes BigQuery テーブルに再形成されています。これは、wrangle-simons-sample-attributes.R
スクリプトを使用して行われました。このスクリプトは、ソース VCF の ID が EBI の対応する Illumina ID 属性と一致していない 3 つのサンプルを再マッピングします。
使用: これらのデータセットは、データセットのソース(https://www.hms.harvard.edu、https://www.simonsfoundation.org/simons-genome-diversity-project/)で規定されている条件の下で誰でも利用できるように公開されています。Google はこれらのデータセットを「現状のまま」提供し、明示または黙示を問わず、いかなる保証も行いません。Google は、これらのデータセットの使用で、直接または間接の損害が発生したとしても一切の責任を負いません。