Genomi di riferimento

I genomi di riferimento, ad esempio GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 e b37, sono disponibili su Google Cloud.

Accesso a set di dati

Cartelle Cloud Storage

I seguenti file sono disponibili nel bucket Cloud Storage genomics-public-data:

Informazioni sul set di dati

Origine set di dati:

  • GRCh37: Genome Reference Consortium Human Build 37 include dati provenienti dai seguenti file:

    Per ulteriori informazioni sui dati GRCh37, consulta la documentazione relativa al servizio NCBI di GRCh37 e il README FTP.

  • GRCh37lite: GRCh37lite è un sottoinsieme dell'intero set di riferimento di GRCh37 più la sequenza di riferimento del genoma mitocondriale umano in un unico file:

    Per ulteriori informazioni sui dati GRCh37lite, consulta il file README FTP.

  • GRCh38: Genome Reference Consortium Human Build 38 include dati dei seguenti file:

    Per ulteriori informazioni sui dati GRCh38, consulta la documentazione relativa al servizio NCBI di GRCh38 e il PROMEMORIA FTP.

  • VerilyGRCh38: il genoma di riferimento GRCh38 di Verily è completamente compatibile con qualsiasi genoma b38 nell'autosoma. Ha le seguenti funzionalità:

    • Esclude tutte le sequenze di patch
    • Omette i cromosomi aplotipici alternativi
    • Include sequenze di esca
    • Maschera le copie duplicate delle regioni centromeriche

    L'assemblaggio di base è GRCh38_no_alt_plus_hs38d1, creato in modo specifico per l'analisi. La motivazione e le modifiche genomiche esatte sono documentate nel file README.

    Verily ha applicato le seguenti modifiche all'assemblaggio della base:

    • I nomi dei segmenti di riferimento sono preceduti da chr. Molti dei file di dati aggiuntivi sono forniti da GENCODE, che utilizza la convenzione di denominazione "chr".

    • Tutti i 74 codici IUPAC estesi vengono convertiti nella prima coppia di basi alfabetiche corrispondenti, come raccomandato nella specifica VCF 4.3.

    • Questa versione del riferimento del genoma è denominata GRCh38_Verily_v1.

  • hg19: simile a GRCh37, corrisponde all'assemblaggio del genoma umano nel febbraio 2009 con una sequenza mitocondriale diversa e assemblee aplotipiche alternative. I dati hg19 sono ospitati dal sito FTP di UCSC.

    Per ulteriori informazioni sui dati hg19, consulta il file README FTP.

  • hs37d5: include i dati di GRCh37, la sequenza mitocondriale rCRS, l'herpesvirus umano 4 di tipo 1 e le sequenze di esca concatenate. I dati sono contenuti in un unico file, hs37d5.fa.gz, ospitato dal sito FTP di EBI.

    Per ulteriori informazioni sui dati hs37d5, consulta il file README FTP.

  • b37: il genoma di riferimento di b37 è incluso in alcune versioni del software GATK, che includono i dati di GRCh37, la sequenza mitocondriale rCRS e l'herpesvirus umano 4 di tipo 1. Il set di dati b37 è ospitato dal sito FTP di Broad Institute.

    Per ulteriori informazioni sui dati b37, consulta le Domande frequenti su GATK.

Utilizzo: questi set di dati sono disponibili pubblicamente per chiunque all'interno dei termini forniti dalle origini del set di dati (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.Internationalgenome.org/data, https://www.broadinstitute.org/) e sono forniti "così come sono", senza alcuna garanzia espressa o implicita. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.