Referenzgenome

In Google Cloud sind Referenzgenome wie GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 und b37 verfügbar.

Dataset-Zugriff

Cloud Storage-Ordner

Die folgenden Dateien sind im Cloud Storage-Bucket genomics-public-data verfügbar:

Über das Dataset

Dataset-Quelle:

  • GRCh37: Human Build 37 des Genome Reference Consortium enthält Daten aus den folgenden Dateien:

    Weitere Informationen zu GRCh37-Daten finden Sie im NCBI-Artikel "GRCh37" und in der README-Datei auf dem FTP-Server.

  • GRCh37lite: GRCh37lite ist eine Teilmenge des vollständigen GRCh37-Referenz-Datasets plus die Referenzsequenz des menschlichen mitochondrialen Genoms in einer Datei:

    Weitere Informationen zu den GRCh37lite-Daten finden Sie in der README-Datei auf dem FTP-Server.

  • GRCh38: Human Build 38 des Genome Reference Consortium enthält Daten aus den folgenden Dateien:

    Weitere Informationen zu GRCh38-Daten finden Sie im NCBI-Artikel "GRCh38" und in der README-Datei auf dem FTP-Server.

  • GRCh38 von Verily: Das GRCh38-Referenzgenom von Verily ist vollständig kompatibel mit allen b38-Genomen im Autosom. Es hat folgende Merkmale:

    • Alle Patchsequenzen wurden ausgeschlossen.
    • Alternative Haplotyp-Chromosomen wurden ausgelassen.
    • Ködersequenzen sind enthalten.
    • Duplikate zentromerischer Regionen werden ausgeblendet.

    Die Basenzusammensetzung lautet GRCh38_no_alt_plus_hs38d1 und wurde eigens zur Analyse erstellt. Das Grundprinzip und die genauen genomischen Modifikationen sind in der zugehörigen README-Datei dokumentiert.

    Verily hat folgende Modifikationen auf die Basenzusammensetzung angewendet:

    • Namen von Referenzsegmenten haben das Präfix chr. Viele der zusätzlichen Datendateien werden von GENCODE bereitgestellt, das die Namenskonvention "chr" verwendet.

    • Alle 74 erweiterten IUPAC-Codes wurden gemäß Empfehlung in der VCF 4.3-Spezifikation in das erste übereinstimmende alphabetische Basenpaar konvertiert.

    • Diese Version der Genomreferenz heißt GRCh38_Verily_v1.

  • hg19: Ähnlich wie bei GRCh37 ist dies eine Zusammensetzung des menschlichen Genoms vom Februar 2009 mit einer anderen mitochondrialen Sequenz und zusätzlichen alternativen Haplotyp-Zusammensetzungen. Die hg19-Daten werden auf dem UCSC-FTP-Server gehostet.

    Weitere Informationen zu den hg19-Daten finden Sie in der README-Datei auf dem FTP-Server.

  • hs37d5: Enthält Daten aus GRCh37, der mitochondrialen Sequenz rCRS, dem menschlichen Herpesvirus 4 Typ 1 und den verkürzten Ködersequenzen. Die Daten befinden sich in einer Datei, hs37d5.fa.gz, die auf dem EBI-FTP-Server gehostet wird.

    Weitere Informationen zu den hs37d5-Daten finden Sie in der README-Datei auf dem FTP-Server.

  • b37: Das b37-Referenzgenom ist in einigen Versionen der GATK-Software enthalten, die Daten aus GRCh37, der mitochondrialen Sequenz rCRS und dem menschlichen Herpesvirus 4 Typ 1 umfasst. Das b37-Dataset wird auf dem Broad Institute-FTP-Server gehostet.

    Weitere Informationen zu den b37-Daten finden Sie in den GATK-FAQ.

Nutzung: Diese Datasets sind öffentlich verfügbar und können gemäß den Bedingungen genutzt werden, die von den Dataset-Quellen (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/) bereitgestellt werden. Die Datasets werden "WIE BESEHEN" ohne ausdrückliche oder stillschweigende Garantie von Google bereitgestellt. Google lehnt jegliche Haftung für direkte oder indirekte Schäden ab, die aus der Nutzung der Datasets resultieren.