Genomi di riferimento

genomi di riferimento, come GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 e b37, disponibili su Google Cloud.

Accesso a set di dati

Cartelle di Cloud Storage

I seguenti file sono disponibili in genomics-public-data Bucket Cloud Storage:

Informazioni sul set di dati

Origine del set di dati:

  • GRCh37: il Genome Reference Consortium Human Build 37 include dati provenienti da i seguenti file:

    Per ulteriori informazioni sui dati di GRCh37, consulta l'articolo GRCh37 dell'NCBI e il file README dell'FTP.

  • GRCh37lite: GRCh37lite è un sottoinsieme dell'intero set di riferimenti GRCh37 più la sequenza di riferimento del genoma mitocondriale umano in un file:

    Per ulteriori informazioni sui dati GRCh37lite, vedi il file README dell'FTP.

  • GRCh38: il Genome Reference Consortium Human Build 38 include dati provenienti da i seguenti file:

    Per ulteriori informazioni sui dati di GRCh38, consulta l'articolo GRCh38 dell'NCBI e il file README dell'FTP.

  • GRCh38 di Verily: il genoma di riferimento GRCh38 di Verily è completamente compatibile con qualsiasi genoma b38 nell'autosoma. Ha le seguenti caratteristiche caratteristiche:

    • Esclude tutte le sequenze di patch
    • Omette cromosomi aplotipici alternativi
    • Include sequenze esca
    • Maschera le copie duplicate delle regioni centromeriche

    L'assemblaggio di base è GRCh38_no_alt_plus_hs38d1, che è stato creato in modo specifico per l'analisi. La sua logica e le esatte modifiche genomiche sono documentati nel relativo file README.

    Verily ha applicato le seguenti modifiche all'assieme di base:

    • I nomi dei segmenti di riferimento sono preceduti dal prefisso chr. Molti dei componenti aggiuntivi i file di dati sono forniti da GENCODE, che utilizza il parametro "chr" denominazione convenzione.

    • Tutti i 74 codici IUPAC estesi vengono convertiti alla prima corrispondenza coppia di basi alfabetica, come consigliato nella specifica VCF 4.3.

    • Questa release del riferimento genomico è denominata GRCh38_Verily_v1.

  • hg19: simile a GRCh37, si tratta dell'assemblea del febbraio 2009 dell'uomo genoma con una diversa sequenza mitocondriale e ulteriori gli assiemi di aplotipi. I dati hg19 sono ospitati sul sito FTP UCSC.

    Per ulteriori informazioni sui dati hg19, consulta il file README dell'FTP.

  • hs37d5: include i dati di GRCh37, la sequenza mitocondriale rCRS, Herpesvirus umano 4 di tipo 1 e sequenze di esca concatenate. I dati sono in un file, hs37d5.fa.gz, ospitato dal sito FTP di EBI.

    Per ulteriori informazioni sui dati hs37d5, vedi il file README dell'FTP.

  • b37: il genoma di riferimento b37 è incluso da alcune versioni del GATK che include dati provenienti da GRCh37, la sequenza mitocondriale rCRS, e l'herpesvirus umano 4 di tipo 1. Il set di dati b37 è ospitato dalla Sito FTP di Broad Institute.

    Per ulteriori informazioni sui dati b37, consulta le domande frequenti su GATK.

Utilizzo: questi set di dati sono disponibili pubblicamente e possono essere utilizzati da chiunque ai sensi delle Termini forniti dalle origini del set di dati (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/) e sono forniti "così com'è" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.