Genome Aggregation Database

La base de données Genome Aggregation Database (gnomAD), gérée par une coalition internationale d'enquêteurs, permet d'agréger et d'harmoniser les données des projets de séquençage à grande échelle.

Ces ensembles de données publics sont disponibles au format VCF dans les buckets Cloud Storage et en tant que tables partitionnées par plages d'entiers dans BigQuery. Chaque ensemble de données est segmenté par chromosome, ce qui signifie que les variantes sont réparties sur 24 tables (indiquées par le suffixe "__chr*"). L'utilisation des tables segmentées réduit considérablement les coûts des requêtes.

L'outil Variant Transforms a été utilisé pour traiter ces fichiers VCF et les importer dans BigQuery. Les annotations VEP ont été analysées dans des colonnes distinctes afin de faciliter l'analyse à l'aide des annotations disponibles dans l'outil Variant Transforms.

Accès aux ensembles de données

Dossiers Cloud Storage

Les fichiers suivants sont disponibles dans le bucket Cloud Storage gcp-public-data--gnomad :

Ensembles de données BigQuery

Vous pouvez accéder à l'ensemble de données gnomAD dans BigQuery pour explorer et interroger les données suivantes :

  • Version 2.1.1 – exomes
  • Version 2.1.1 – génomes
  • Version 3.0 – génomes

L'ensemble de données est également disponible dans les régions suivantes :

À propos de l'ensemble de données

La version v2 de l'ensemble de données (GRCh37/hg19) porte sur 125 748 séquences d'exomes et 15 708 séquences de génomes entiers appartenant à des personnes non apparentées dans le cadre de diverses études portant sur des maladies spécifiques et sur la génétique des populations. La version v3 de l'ensemble de données (GRCh38) porte sur 71 702 génomes, sélectionnés dans la version 2.

Vous trouverez plus d'informations sur l'ensemble de données BigQuery et des exemples de requêtes sur Google Cloud Marketplace.

Source de l'ensemble de données :

Utilisation : consultez le site du Broad Institute pour consulter l'intégralité des conditions d'utilisation de l'ensemble de données. Les données sont fournies "EN L'ÉTAT", sans aucune garantie expresse ou implicite de la part de Google. Google décline toute responsabilité pour tout dommage direct ou indirect résultant de l'utilisation de ces ensembles de données.