BigQuery のバリアント テーブルのスキーマについて

Google Genomics には Google BigQueryバリアントをエクスポートできる API が提供されています。これにより、数百、数千台のコンピュータを並列に用いたゲノム バリアントの run ad-hoc インタラクティブ クエリの実行に BigQuery のパワーを活用できます。

研究データのクエリに BigQuery を使用するには、最初に Google Genomics へバリアントを読み込み、その後に BigQuery にエクスポートします。

また、Google Genomics から BigQuery にすでにエクスポートされている公開データセットを閲覧することもできます。

目次

  1. 命名法
  2. バリアント表構造

命名法

エクスポート形式及びスキーマを理解するには、Google が使用する用語を知っておくことが大切です。

Genomics の命名法

: 単一の識別子で採取し、処した DNA。サンプルは通常単一の生物個体を含みますが、口腔粘膜検体採取などの異質採取も含みます。

基準名: DNA の基準セグメント名、これは、典型的な染色体ですが、基準ゲノムから別名の領域である可能性もあります。

バリアント: 基準ゲノムと異なると特定されたゲノムの領域。バリアントは、基準名、開始位置、終了位置、及び 1 つまたは複数の基準ベースが必要です。バリアント リソースの詳細についてはマニュアルをご覧ください。

非バリアントセグメント: 基準ゲノムと一致するゲノムの領域。これは、「基準セグメント」と呼ばれます。慣例でゲノムデータにはバリアントのある非バリアントのセグメントは含まれていません。非バリアントセグメントの詳細については、gVCF 資料をまたは、Complete Genomics masterVar 資料をご覧ください。

呼び出し: 個々のサンプルのバリアント セグメントまたは非バリアントセグメントの識別された出現。詳しくはバリアント呼び出しリソースをご覧ください。

呼び出しセット: 単一サンプルからできた呼び出しグループです。

INFO フィールド: バリアントと呼び出し情報に追加されるオプションのフィールド。例えば、すべての呼び出しには genotype フィールドがありますが、すべてのデータセットに「遺伝子型品質」(GQ)フィールドがあるわけではありません。従って、genotype フィールドには VariantCall スキーマの固定部分がありますが、GQ フィールドはありません。「GQ」フィールドと値を VariantCall の info フィールドにキーと値のペアとしてインポートすることができます。

詳しい Genomics 命名法は、Genomics API の定義GA4GH API 資料VCF 仕様をご覧ください。

BigQuery 命名法

シンプル フィールド: BigQuery テーブル内のシンプルなデータ要素(数値や文字列など)。

ネステッド フィールド: BigQuery テーブル内の複雑なデータ要素。ネストされたフィールドにはシンプルなフィールドと、ネストされたフィールドの両方を複数含めることができます。

繰り返しフィールド: リストのように、複数の値を持つことができる BigQuery テーブルのフィールド。繰り返しフィールドはシンプルなフィールドとネストされたフィールドのいずれも可能です。

BigQuery の複雑なデータタイプの詳細については、ネストフィールドと繰り返しフィールドをご覧ださい。

バリアント テーブルの構造

バリアント エクスポートは、バリアント データがコピーされている BigQuery のテーブル名を指定することができます。慣例によりこのテーブルの名前は「variants」です。

バリアント テーブルの記録構造

variants テーブルの最上位記録は、バリアント及び非バリアント セグメントの両方があります。各 variants テーブルの記録は 1 つまたは複数の呼び出しが含まれています。

下表は、2 つのバリアント記録、Variant1 と Variant2 を示すこの構造体を説明したものです。このデータセットには、サンプル 1、サンプル 2、及びサンプル 3 の 3 つのサンプルがあります。バリアント 1 はサンプル 1 とサンプル 2、バリアント 2 はサンプル 1 とサンプル 3 のために呼び出されています。

バリアント 1
サンプル 1
サンプル 2
バリアント 2
サンプル 1
サンプル 3
... ...

バリアント テーブルのフィールド構造

すべての variants ゲノミクスのためにエクスポートされたテーブルには、フィールドの固定セットとフィールドの変数セットの両方が含まれます。高いレベルでのテーブル構造は次のようになります。

固定バリアント項目 呼び出し
固定呼び出しフィールド 呼び出し INFO フィールド
バリアント INFO フィールド

バリアント フィールドの名前は、それぞれバリアント リソース INFO フィールドのキーと各々の VariantCall INFO フィールドのキーです。

バリアント テーブルの固定フィールド

固定記録レベル(バリアント)フィールドは次のとおりです。

  • reference_name
  • start
  • end
  • reference_bases
  • alternate_bases
  • quality
  • filter
  • names

固定呼び出しレベル(バリアント呼び出し)フィールドは次のとおりです。

  • call_set_id
  • call_set_name
  • genotype
  • phaseset
  • genotype_likelihood

Illumina Platinum Genomes データが Google Genomics にインポートされたとき、NA12877_S1.genome.vcf も含んでいました。

INFO 及び FORMAT のヘッダー ディレクティブで説明したように、この VCF ファイルは、バリアント レベルの数及び呼び出しレベルの INFO フィールドが含まれています。


##FORMAT=<ID=GQX,Number=1,Type=Integer,Description="Minimum of {Genotype quality assuming variant position,Genotype quality assuming non-variant position}">
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth (reads with MQ=255 or with bad mates are filtered)">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
 [[trimmed]]
##INFO=<ID=AC,Number=A,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Approximate read depth; some reads may have been filtered">
##INFO=<ID=QD,Number=1,Type=Float,Description="Variant Confidence/Quality by Depth">
##INFO=<ID=BLOCKAVG_min30p3a,Number=0,Type=Flag,Description="Non-variant site block. All sites in a block are constrained to be non-variant, have the same filter value, and have all sample values in range [x,y], y <= max(x+3,(x*1.3)). All printed site block sample values are the minimum observed in the region spanned by the block">
 [[trimmed]]

このファイルが Google Genomics にインポートされたとき、ACAF など、INFO と印付けられたフィールドが INFO フィールドとして Variant リソースに追加されます。

このファイルが Google Genomics にインポートされたとき、GQXAD フィールドなど、FORMAT と印付けられたフィールドが INFO フィールドとして VariantCall リソースに追加されます。 FORMAT フィールド GT 及び GL は、INFO フィールドとしては追加されませんでしたが、代わりに値が genotype 及び genotype_likelihood フィールドにインポートされました。

Platinum Genomes データを BigQuery にエクスポートしたとき、Variant 及び VariantCall リソースがバリアント テーブルのスキーマに保存されました。 BigQuery のウェブツールでスキーマの表示では、第 1 の固定フィールドを示しています。

次に、変数フィールド(INFO フィールド)を示します。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...