Genome Aggregation Database (gnomAD) è gestito da una coalizione internazionale di investigatori che si occupa di aggregare e armonizzare i dati di progetti di sequenziamento su larga scala.
Questi set di dati pubblici sono disponibili nel formato VCF nei bucket Cloud Storage e in BigQuery come tabelle partizionate con intervalli di numeri interi. Ogni set di dati è sottoposto a sharding per cromosoma, il che significa che le varianti sono distribuite in 24 tabelle (indicate con il suffisso "__chr*"). L'utilizzo delle tabelle suddivise in parti riduce notevolmente i costi delle query.
Per elaborare questi file VCF e importarli in BigQuery, sono state utilizzate le trasformazioni delle varianti. Le annotazioni VEP sono state analizzate in colonne separate per semplificare l'analisi utilizzando il supporto delle annotazioni di Variant Transforms.
Accesso a set di dati
Cartelle di Cloud Storage
I seguenti file sono disponibili in gcp-public-data--gnomad
Bucket Cloud Storage:
- Dati gnomAD completi: gs://gcp-public-data--gnomad
- Esome e genomi della versione 2.1.1: gs://gcp-public-data--gnomad/release/2.1.1
- Genomi della release 3.0: gs://gcp-public-data--gnomad/release/3.0
Set di dati di BigQuery
Puoi accedere al set di dati gnomAD in BigQuery per esplorare i dati ed eseguire query su quanto segue:
- Esomi della release 2.1.1
- Genomi della versione 2.1.1
- Genomi della release 3.0
Il set di dati è disponibile anche nelle seguenti regioni:
Informazioni sul set di dati
Il set di dati v2 (GRCh37/hg19) comprende 125.748 sequenze dell'esoma e 15.708 sequenze dell'intero genoma di individui non correlati sequenziati nell'ambito di vari studi genetici per malattie e popolazioni specifiche. Il set di dati della versione 3 (GRCh38) comprende 71.702 genomi, selezionati come nella versione 2.
Ulteriori informazioni sul set di dati BigQuery e sulle query di esempio sono disponibili in Google Cloud Marketplace.
Origine del set di dati:
- gnomAD è ospitato dal sito gnomAD del Broad Institute
Utilizzo: consulta il sito del Broad Institute per leggere i termini e condizioni d'uso completi del set di dati. I dati vengono forniti "COSÌ COM'È" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.