Database di aggregazione del genoma

Il Database delle aggregazioni del genoma (gnomAD) è gestito da una coalizione internazionale di ricercatori che aggrega e armonizza i dati di progetti di sequenziamento su larga scala.

Questi set di dati pubblici sono disponibili in formato VCF nei bucket Cloud Storage e in BigQuery come tabelle partizionate con intervalli interi. Ogni set di dati è suddiviso con cromosomi, il che significa che le varianti sono distribuite in 24 tabelle (indicate con il suffisso "__chr*"). L'uso delle tabelle con sharding riduce notevolmente i costi delle query.

Le trasformazioni delle varianti sono state utilizzate per elaborare questi file VCF e importarli in BigQuery. Le annotazioni VEP sono state analizzate in colonne separate per facilitare l'analisi utilizzando il supporto per le annotazioni di Variant Transforms.

Accesso a set di dati

Cartelle Cloud Storage

I seguenti file sono disponibili nel bucket Cloud Storage gcp-public-data--gnomad:

Set di dati BigQuery

Puoi accedere al set di dati gnomAD in BigQuery per l'esplorazione dei dati e l'esecuzione di query sui seguenti elementi:

  • Esomi della versione 2.1.1
  • Versione 2.1.1 dei genomi
  • Genomi versione 3.0

Il set di dati è disponibile anche nelle seguenti regioni:

Informazioni sul set di dati

Il set di dati v2 (GRCh37/hg19) si estende su 125.748 sequenze esometriche e 15.708 sequenze dell'intero genoma di individui non correlati in sequenza nell'ambito di vari studi genetici e specifici della malattia. Il set di dati v3 (GRCh38) si estende su 71.702 genomi, selezionati come in v2.

Ulteriori informazioni sul set di dati BigQuery e sulle query di esempio sono disponibili in Google Cloud Marketplace.

Origine set di dati:

Utilizzo: visita il sito del Broad Institute per i termini completi di utilizzo del set di dati. I dati vengono forniti "così come sono" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.