Google Cloud で、GRCh37、GRCh37lite、GRCh38、hg19、hs37d5、b37 などの基準ゲノムを使用できます。
データセットへのアクセス
Cloud Storage フォルダ
次のファイルは、genomics-public-data
Cloud Storage バケットにあります。
データセットについて
データセットのソース:
GRCh37: Genome Reference Consortium Human Build 37 には、以下のファイルのデータが含まれています。
GRCh37 データの詳細については、GRCh37 の NCBI の記事と FTP README をご覧ください。
GRCh37lite: GRCh37lite は 1 ファイルに収めた完全な GRCh37 リファレンス セットとヒト ミトコンドリア ゲノム参照配列のサブセットです。
GRCh37lite データの詳細については、FTP README をご覧ください。
GRCh38: Genome Reference Consortium Human Build 38 には、以下のファイルのデータが含まれています。
GRCh38 データの詳細については、GRCh38 の NCBI の記事と FTP README をご覧ください。
Verily の GRCh38: Verily の GRCh38 基準ゲノムは、常染色体の b38 ゲノムと完全に適合します。これには、次のような機能があります。
- すべてのパッチ配列を除外する
- 代替のハプロタイプ染色体を省略する
- デコイ配列を含む
- セントロメア領域の重複コピーをマスクする
ベース アセンブリは GRCh38_no_alt_plus_hs38d1 です。これは解析用に作成されました。その根拠と正確なゲノムの変更については、README ファイルに記載されています。
Verily はベース アセンブリに次の変更を適用しました。
参照セグメント名に接頭辞
chr
が付けられています。追加のデータファイルの多くは、「chr」命名規則を使用する GENCODE によって提供されています。すべての 74 拡張 IUPAC コードは、VCF 4.3 仕様で推奨されているように、最初に一致するアルファベット順のべースペアに変換されます。
ゲノム参照のこのリリースは、
GRCh38_Verily_v1
と名付けられています。
hg19: GRCh37 と同様に、これは異なるミトコンドリア配列と追加の代替ハプロタイプ アセンブリを有するヒトゲノムの February 2009 アセンブリです。hg19 データは UCSC FTP サイトでホストされています。
hg19 データの詳細については、FTP README をご覧ください。
hs37d5: GRCh37、rCRS ミトコンドリア配列、ヒト ヘルペスウィルス 4 型 1、連結されたデコイ配列からのデータを含みます。データは 1 つのファイル hs37d5.fa.gz に入れられ、EBI FTP サイトでホストされています。
hs37d5 データの詳細については、FTP README をご覧ください。
b37: b37 参照ゲノムは、GATK ソフトウェアの一部のバージョンで含まれ、GRCh37、rCRS ミトコンドリア配列、ヒト ヘルペスウィルス 4 型 1 のデータを含みます。b37 データセットは、Broad Institute FTP サイトでホストされています。
b37 データの詳細については、GATK の FAQ をご覧ください。
使用: これらのデータセットは、データセットのソース(https://www.ncbi.nlm.nih.gov/、https://cse.ucsc.edu/、http://www.internationalgenome.org/data、https://www.broadinstitute.org/)で規定されている条件の下で誰でも利用できるように公開されています。Google はこれらのデータセットを「現状のまま」提供し、明示または黙示を問わず、いかなる保証も行いません。Google は、これらのデータセットの使用で、直接または間接の損害が発生したとしても一切の責任を負いません。