La base de données Genome Aggregation Database (gnomAD), gérée par une coalition internationale d'enquêteurs, permet d'agréger et d'harmoniser les données des projets de séquençage à grande échelle.
Ces ensembles de données publics sont disponibles au format VCF dans les buckets Cloud Storage et en tant que tables partitionnées par plages d'entiers dans BigQuery. Chaque ensemble de données est segmenté par chromosome, ce qui signifie que les variantes sont réparties sur 24 tables (indiquées par le suffixe "__chr*"). L'utilisation des tables segmentées réduit considérablement les coûts des requêtes.
L'outil Variant Transforms a été utilisé pour traiter ces fichiers VCF et les importer dans BigQuery. Les annotations VEP ont été analysées dans des colonnes distinctes afin de faciliter l'analyse à l'aide des annotations disponibles dans l'outil Variant Transforms.
Accès aux ensembles de données
Dossiers Cloud Storage
Les fichiers suivants sont disponibles dans le bucket Cloud Storage gcp-public-data--gnomad
:
- Intégralité des données gnomAD : gs://gcp-public-data--gnomad
- Version 2.1.1 – exomes et génomes : gs://gcp-public-data--gnomad/release/2.1.1
- Version 3.0 – génomes : gs://gcp-public-data--gnonomad/release/3.0
Ensembles de données BigQuery
Vous pouvez accéder à l'ensemble de données gnomAD dans BigQuery pour explorer et interroger les données suivantes :
- Version 2.1.1 – exomes
- Version 2.1.1 – génomes
- Version 3.0 – génomes
L'ensemble de données est également disponible dans les régions suivantes :
À propos de l'ensemble de données
La version v2 de l'ensemble de données (GRCh37/hg19) porte sur 125 748 séquences d'exomes et 15 708 séquences de génomes entiers appartenant à des personnes non apparentées dans le cadre de diverses études portant sur des maladies spécifiques et sur la génétique des populations. La version v3 de l'ensemble de données (GRCh38) porte sur 71 702 génomes, sélectionnés dans la version 2.
Vous trouverez plus d'informations sur l'ensemble de données BigQuery et des exemples de requêtes sur Google Cloud Marketplace.
Source de l'ensemble de données :
- gnomAD est hébergé sur le site gnomAD du Broad Institute.
Utilisation : consultez le site du Broad Institute pour consulter l'intégralité des conditions d'utilisation de l'ensemble de données. Les données sont fournies "EN L'ÉTAT", sans aucune garantie expresse ou implicite de la part de Google. Google décline toute responsabilité pour tout dommage direct ou indirect résultant de l'utilisation de ces ensembles de données.