Genome-Aggregation-Datenbank

Die Genome-Aggregation-Datenbank (gnomAD) wird von einer internationalen Forscherkoalition unterhalten, um Daten aus größeren Sequenzierungsprojekten zu aggregieren und zu harmonisieren.

Diese öffentlichen Datasets sind im VCF-Format in Cloud Storage-Buckets und in BigQuery als in Ganzzahlbereichen partitionierte Tabellen verfügbar. Die Datensätze werden nach Chromosom fragmentiert. Dies bedeutet, dass Varianten auf 24 Tabellen aufgeteilt werden (angezeigt durch das Suffix "__chr*"). Die Nutzung fragmentierter Tabellen reduziert die Abfragekosten erheblich.

Mit Variant Transforms wurden diese VCF-Dateien verarbeitet und in BigQuery importiert. VEP-Annotationen wurden zur einfacheren Analyse durch die Annotationsunterstützung von Variant Transforms in separaten Spalten geparst.

Dataset-Zugriff

Cloud Storage-Ordner

Die folgenden Dateien sind im Cloud Storage-Bucket gcp-public-data--gnomad verfügbar:

BigQuery-Datasets

Sie können in BigQuery auf das gnomAD-Dataset zugreifen, um folgende Daten auszuwerten und abzufragen:

  • Version 2.1.1 Exome
  • Version 2.1.1 Genome
  • Version 3.0 Genome

Das Dataset ist auch in folgenden Regionen verfügbar:

Über das Dataset

Das v2-Dataset (GRCh37/hg19) umfasst 125.748-Exom-Sequenzen und 15.708 ganze Genomsequenzen von unbeteiligten Personen, die im Rahmen verschiedener krankheitsspezifischer und populationsgenetischer Studien erfasst wurden. Das v3-Dataset (GRCh38) umfasst 71.702 Genome, die wie in v2 ausgewählt wurden.

Weitere Informationen zum BigQuery-Dataset und zu Beispielabfragen finden sich im Google Cloud Marketplace.

Dataset-Quelle:

Verwendung: Die vollständigen Nutzungsbedingungen für das Dataset finden sich auf der Website des Broad Institute. Die Daten werden "WIE IST" ohne ausdrückliche oder stillschweigende Garantie von Google bereitgestellt. Google lehnt jegliche Haftung für direkte oder indirekte Schäden ab, die aus der Nutzung der Datasets resultieren.