Simons Genome Diversity Project

このデータセットは、Simons Genome Diversity Project(SGDP)によって提供され、127 のさまざまな集団から公開されている 279 のゲノムから構成されています。詳細については、以下の刊行物を参照してください。

データセットへのアクセス

Cloud Storage フォルダ

次のファイルは、genomics-public-data Cloud Storage バケットにあります。

BigQuery データセット

データ探索とクエリ用に、BigQuery の次のデータセットにアクセスできます。

データセットについて

279 ゲノムを含む完全なデータセット

SGSP README公開 VCF ファイルgs://genomics-public-data/simons-genome-diversity-project Cloud Storage バケットに抽出されました。

次に、ファイルは Cloud Life Sciences にインポートされ、バリアントは bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants BigQuery テーブルにエクスポートされました。

サンプル メタデータは次のコマンドを実行して、bigquery-public-ata:human_genome_variants.simons_genome_diversity_project_sample_metadata BigQuery テーブルに読み込まれました。

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

サンプル メタデータでは、VCF で使われている同じサンプル識別子を使用しておらず、1 行不足しています。そのサンプル属性は http://www.ebi.ac.uk/ena/data/view/PRJEB9586 からダウンロードされ、bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes BigQuery テーブルに再形成されています。これは、wrangle-simons-sample-attributes.R スクリプトを使用して行われました。このスクリプトは、ソース VCF の ID が EBI の対応する Illumina ID 属性と一致していない 3 つのサンプルを再マッピングします。

使用: これらのデータセットは、データセットのソース(https://www.hms.harvard.eduhttps://www.simonsfoundation.org/simons-genome-diversity-project/)で規定されている条件の下で誰でも利用できるように公開されています。Google はこれらのデータセットを「現状のまま」提供し、明示または黙示を問わず、いかなる保証も行いません。Google は、これらのデータセットの使用で、直接または間接の損害が発生したとしても一切の責任を負いません。