Database di aggregazione dei genomi

Il Genome Aggregation Database (gnomAD) è gestito da una coalizione internazionale di investigatori per aggregare e armonizzare i dati provenienti da progetti di sequenziamento su larga scala.

Questi set di dati pubblici sono disponibili in formato VCF nei bucket Cloud Storage e in BigQuery come tabelle partizionate con intervalli di numeri interi. Ogni set di dati è segmentato per cromosoma, il che significa che le varianti sono distribuite in 24 tabelle (indicate con il suffisso "__chr*"). L'utilizzo delle tabelle con sharding riduce in modo significativo i costi delle query.

Variant Transforms è stato utilizzato per elaborare questi file VCF e importarli in BigQuery. Le annotazioni VEP sono state analizzate in colonne separate per facilitarne l'analisi utilizzando il supporto per le annotazioni di Variant Transforms.

Accesso a set di dati

Cartelle di Cloud Storage

Nel bucket Cloud Storage gcp-public-data--gnomad sono disponibili i seguenti file:

Set di dati di BigQuery

Puoi accedere al set di dati gnomAD in BigQuery per l'esplorazione dei dati e l'esecuzione di query su quanto segue:

  • Esomi release 2.1.1
  • Genomi della release 2.1.1
  • Rilascia genomi 3.0

Il set di dati è disponibile anche nelle seguenti regioni:

Informazioni sul set di dati

Il set di dati v2 (GRCh37/hg19) comprende 125.748 sequenze di esomi e 15.708 sequenze dell'intero genoma di individui non correlati, sequenziate come parte di vari studi genetici specifici per malattia e di popolazione. Il set di dati v3 (GRCh38) copre 71.702 genomi, selezionati come in v2.

Maggiori informazioni sul set di dati di BigQuery e sulle query di esempio sono disponibili in Google Cloud Marketplace.

Origine del set di dati:

Utilizzo: consulta il sito del Broad Institute per i termini e condizioni d'uso completi del set di dati. I dati sono forniti "COSÌ COME SONO" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.