Database di aggregazione dei genomi

Genome Aggregation Database (gnomAD) è gestito da una coalizione internazionale di investigatori che si occupa di aggregare e armonizzare i dati di progetti di sequenziamento su larga scala.

Questi set di dati pubblici sono disponibili nel formato VCF nei bucket Cloud Storage e in BigQuery come tabelle partizionate con intervalli di numeri interi. Ogni set di dati è sottoposto a sharding per cromosoma, il che significa che le varianti sono distribuite in 24 tabelle (indicate con il suffisso "__chr*"). L'utilizzo delle tabelle con sharding riduce notevolmente i costi delle query.

Per elaborare questi file VCF e importarli in BigQuery, sono state utilizzate le trasformazioni delle varianti. Le annotazioni VEP sono state analizzate in colonne separate per semplificare l'analisi utilizzando il supporto delle annotazioni di Variant Transforms.

Accesso a set di dati

Cartelle di Cloud Storage

I seguenti file sono disponibili nel bucket Cloud Storage gcp-public-data--gnomad:

Set di dati di BigQuery

Puoi accedere al set di dati gnomAD in BigQuery per l'esplorazione dei dati e l'esecuzione di query su quanto segue:

  • esomi versione 2.1.1
  • Genomi della versione 2.1.1
  • Genomi di release 3.0

Il set di dati è disponibile anche nelle seguenti regioni:

Informazioni sul set di dati

Il set di dati v2 (GRCh37/hg19) comprende 125.748 sequenze dell'esoma e 15.708 sequenze dell'intero genoma di individui non correlati sequenziati nell'ambito di vari studi genetici per malattie e popolazioni specifiche. Il set di dati v3 (GRCh38) comprende 71.702 genomi, selezionati come nella versione v2.

Ulteriori informazioni sul set di dati BigQuery e sulle query di esempio sono disponibili in Google Cloud Marketplace.

Origine del set di dati:

Utilizzo: consulta il sito del Broad Institute per leggere i termini e condizioni d'uso completi del set di dati. I dati sono forniti "così come sono" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivati dall'uso dei set di dati.