Génomes de référence

Les génomes de référence, tels que GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 et b37 sont disponibles sur Google Cloud.

Accès aux ensembles de données

Dossiers Cloud Storage

Les fichiers suivants sont disponibles dans le bucket Cloud Storage genomics-public-data :

À propos de l'ensemble de données

Source de l'ensemble de données :

  • GRCH37 : "Genome Reference Consortium Human Build 37" comprend des données provenant des fichiers suivants :

    Pour en savoir plus sur les données GRCh37, consultez le document GRCh37 NCBI et le fichier FTP README.

  • GRCh37lite : GRCh37lite est un sous-ensemble de l'ensemble de référence complet GRCh37, associé à la séquence du génome de référence mitochondrial humain dans un fichier :

    Pour en savoir plus sur les données GRCh37lite, consultez le fichier FTP README.

  • GRCh38 : "Genome Reference Consortium Human Build 38" comprend des données provenant des fichiers suivants :

    Pour en savoir plus sur les données GRCh38, consultez le document GRCh38 NCBI et le fichier FTP README.

  • Verily : le génome de référence GRCH38 de Verily est entièrement compatible avec tous les génomes b38 de l'autosome. Il présente les caractéristiques suivantes :

    • Exclut toutes les séquences de patch
    • Omet les chromosomes haplotypes secondaires
    • Comprend des séquences de leurre
    • Masque les copies en double des régions centromériques

    L'assemblage de base est GRCh38_no_alt_plus_hs38d1, spécifiquement créé pour l'analyse. Ses modifications génomiques exactes et logiques sont décrites dans le fichier README correspondant.

    Verily applique les modifications suivantes à l’assemblage de base :

    • Les noms des segments de référence commencent par chr. Une grande partie des fichiers de données supplémentaires sont fournis par GENCODE, qui utilise la convention de dénomination "chr".

    • La totalité des 74 codes IUPAC étendus sont convertis vers la première paire de bases alphabétique correspondante, comme recommandé dans la spécification de VCF 4.3.

    • Cette version du génome de référence s'appelle GRCh38_Verily_v1.

  • hg19 : comme pour GRCh37, il s'agit de l'assemblage du génome humain de février 2009 avec une séquence mitochondriale différente et d'autres assemblages d'haplotypes secondaires. Les données hg19 sont hébergées sur le site FTP d'UCSC.

    Pour en savoir plus sur les données hg19, consultez le fichier FTP README.

  • hs37d5 : inclut les données de GRCh37, de la séquence mitochondriale de rCRS, de l’herpèsvirus humain 4 de type 1 et des séquences de leurre concaténées. Les données se situent dans un fichier hs37d5.fa.gz, hébergé sur le site FTP d'EBI.

    Pour en savoir plus sur les données hs37d5, consultez le fichier FTP README.

  • b37 : le génome de référence b37 est inclus dans certaines versions du logiciel GATK, qui comprend des données provenant de GRCh37, de la séquence mitochondriale rCRS et de l’herpèsvirus humain 4 de type 1. L'ensemble de données b37 est hébergé sur le site FTP du Broad Institute.

    Pour en savoir plus sur les données b37, consultez les questions fréquentes concernant GATK.

Utilisation : Ces ensembles de données sont accessibles au public selon les conditions définies par leur source (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/). Ils sont fournis "en l'état", sans aucune garantie expresse ou implicite de la part de Google. Google décline toute responsabilité pour tout dommage direct ou indirect résultant de l'utilisation de ces ensembles de données.