I genomi di riferimento, come GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 e b37, sono disponibili su Google Cloud.
Accesso a set di dati
Cartelle di Cloud Storage
Nel bucket Cloud Storage genomics-public-data
sono disponibili i seguenti file:
Informazioni sul set di dati
Origine del set di dati:
GRCh37: Genome Reference Consortium Human Build 37 include dati provenienti dai seguenti file:
Per ulteriori informazioni sui dati di GRCh37, consulta il documento GRCh37 dell'NCBI e il README di FTP.
GRCh37lite: GRCh37lite è un sottoinsieme dell'intero set di riferimento GRCh37 più la sequenza di riferimento del genoma mitocondriale umano in un unico file:
Per ulteriori informazioni sui dati GRCh37lite, consulta il file README di FTP.
GRCh38: Genome Reference Consortium Human Build 38 include dati dei seguenti file:
- Cromosomi assemblati
- Impalcature non localizzate
- Impalcature non posizionate
- Riferimenti non nucleari
Per ulteriori informazioni sui dati di GRCh38, consulta il documento GRCh38 dell'NCBI e il README di FTP.
GRCh38 di Verily: il genoma di riferimento GRCh38 di Verily è completamente compatibile con qualsiasi genoma b38 nell'autosoma. Dispone delle seguenti caratteristiche:
- Esclude tutte le sequenze di patch
- Omette i cromosomi dell'aplotipo alternativo
- Include sequenze ingannevoli
- Maschera copie duplicate delle regioni centromeriche
L'assemblaggio di base è GRCh38_no_alt_plus_hs38d1, creato appositamente per l'analisi. La motivazione e le modifiche genomiche esatte sono documentate nel file README.
Verily ha applicato le seguenti modifiche all'assemblaggio di base:
I nomi dei segmenti di riferimento sono preceduti dal prefisso
chr
. Molti dei file di dati aggiuntivi sono forniti da GENCODE, che utilizza la convenzione di denominazione "chr".Tutti i 74 codici IUPAC estesi vengono convertiti nella prima coppia di basi alfabetiche corrispondenti, come consigliato nella specifica VCF 4.3.
Questa release del riferimento del genoma è denominata
GRCh38_Verily_v1
.
hg19: simile a GRCh37, questo è l'assemblaggio del genoma umano nel febbraio 2009 con una sequenza mitocondriale diversa e altri assiemi di aplotipi alternativi. I dati hg19 sono ospitati dal sito FTP di UCSC.
Per ulteriori informazioni sui dati hg19, consulta il file README di FTP.
hs37d5: include i dati di GRCh37, della sequenza mitocondriale rCRS, dell'herpesvirus umano 4 di tipo 1 e delle sequenze di richiamo concatenate. I dati si trovano in un unico file, hs37d5.fa.gz, ospitato dal sito FTP di EBI.
Per ulteriori informazioni sui dati hs37d5, consulta il file README di FTP.
b37: il genoma di riferimento b37 è incluso da alcune versioni del software GATK, che includono dati di GRCh37, la sequenza mitocondriale rCRS e l'herpesvirus umano 4 di tipo 1. Il set di dati b37 è ospitato dal sito FTP del Broad Institute.
Per ulteriori informazioni sui dati b37, consulta le Domande frequenti di GATK.
Utilizzo: questi set di dati sono disponibili pubblicamente e possono essere utilizzati da chiunque secondo i termini forniti dalle fonti dei set di dati (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/) e sono forniti "così com'è", senza alcuna garanzia, espressa o implicita Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.