Simons Genome Diversity Project

Dieses Dataset wird vom Simons Genome Diversity Project (SGDP) bereitgestellt und umfasst 279 öffentlich verfügbare Genome aus 127 verschiedenen Populationen. Ausführliche Informationen finden Sie in den folgenden Publikationen (nur auf Englisch verfügbar):

Dataset-Zugriff

Cloud Storage-Ordner

Die folgenden Dateien sind im Cloud Storage-Bucket genomics-public-data verfügbar:

BigQuery-Datasets

Zur Untersuchung und Abfrage von Daten können Sie in BigQuery auf folgende Datasets zugreifen:

Über das Dataset

Vollständiges Dataset mit 279 Genomen

Die öffentlichen VCF-Dateien aus der SGSP-README-Datei wurden in den Cloud Storage-Bucket gs://genomics-public-data/simons-genome-diversity-project extrahiert.

Anschließend wurden die Dateien in Cloud Life Sciences importiert und die Varianten in die BigQuery-Tabelle bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants exportiert.

Die Probenmetadaten wurden in die BigQuery-Tabelle bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata geladen. Dafür wurden die folgenden Befehle verwendet:

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

Die Stichprobenmetadaten weisen nicht dieselben Stichprobenkennzeichnungen auf wie die VCF-Dateien. Außerdem fehlt eine Zeile. Die Probenattribute wurden von http://www.ebi.ac.uk/ena/data/view/PRJEB9586 heruntergeladen, umgeformt und in die BigQuery-Tabelle bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes eingefügt. Dazu wurde das Skript wrangle-simons-sample-attributes.R genutzt. Das Skript ordnet drei Proben neu zu, deren IDs in den Quell-VCFs nicht mit dem entsprechenden Illumina-ID-Attribut auf EBI übereinstimmen.

Nutzung: Diese Datasets sind öffentlich verfügbar und können gemäß den Bedingungen genutzt werden, die von den Dataset-Quellen (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) bereitgestellt werden. Die Datasets werden "IM IST-ZUSTAND" ohne ausdrückliche oder stillschweigende Garantie von Google bereitgestellt. Google lehnt jegliche Haftung für direkte oder indirekte Schäden ab, die aus der Nutzung der Datasets resultieren.