Variant Transforms ツールのトラブルシューティング

このページでは、Variant Transforms ツールを使用して VCF ファイルを読み込むときに発生する可能性のある問題について説明します。

このドキュメントを確認しても VCF ファイルを読み込めない場合は、google-genomics-discuss グループで追加のサポートを受けることができます。また、Variant Transforms ツールの GitHub リポジトリで問題を開くこともできます。

Variant Transforms ツールの実行速度が遅すぎる

Variant Transforms ツールを実行できるのに、実行速度が遅いことがあります。

  • --max_num_workers フラグを使用して、ジョブ内のワーカー数を増やします。
  • より大規模なマシンを使用するように --worker_machine_type フラグを変更します(n1-standard-32 など)。Compute Engine の事前定義されたマシンタイプの詳細については、事前定義された vCPU とメモリをご覧ください。
  • Variant Transforms ツールを実行しているリージョンまたはゾーン内に、十分な量の Compute Engine リソース割り当てが設定されていること確認します。必要に応じて、ジョブを実行するゾーンまたはリージョンを変更するか、追加の Compute Engine 割り当てをリクエストします

    利用可能な Compute Engine の割り当てを確認するには、割り当て量を確認するをご覧ください。

  • GZIP ファイルや BZIP ファイルは分割できないため、これらのタイプのファイルを読み込もうとすると、ツールの実行速度が低下することがあります。解決策として、これらのファイルを読み込む前にファイルを解凍します。dsub ツールを使用すると、スケーラブルな方法でファイルを解凍するスクリプトを作成できます。

    少数の大きなファイルにこのツールを実行している場合は、この問題が発生する可能性が高くなります。通常、多数の小さなファイルにこのツールを実行している場合は、各ファイルを別々のプロセスで読み取ることができるため、問題が発生しません。

詳細については、大量入力の処理をご覧ください。

ディスク容量不足エラーのためにパイプラインがクラッシュする

Variant Transforms ツールを実行できるのに、ディスク容量不足のためにクラッシュすることがあります。

  • --disk_size_gb フラグを使用して、各ワーカーに割り当てるディスクサイズを増やします。
  • --max_num_workers フラグを使用して、ジョブ内のワーカー数を増やします。

JSON 解析エラーまたは BigQuery フィールド エラーが発生する

Variant Transforms ツールを実行できるのに、次のいずれかのメッセージが表示されて停止することがあります。

  • Error while reading data, error message: JSON parsing error in row starting at position 0: No such field: FIELD_NAME
  • BigQuery schema has no such field

これらのエラー メッセージは、BigQuery スキーマ内に該当するフィールドが見つからないことを示しています。この問題は、VCF ヘッダー ファイル内にフィールドの定義が存在しない場合に発生する可能性があります。

  • このフィールドを含む VCF ファイルを編集し、ヘッダーに正しい定義が含まれているエントリを追加します。たとえば、フィールド AF でエラーが発生した場合は、VCF ファイルに以下を追加します。

    ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
    

    フィールドに有効な TypeNumber を指定する必要があります。これらの値が不明な場合は、Type=StringNumber=. をプレースホルダとして渡すことにより、文字列の汎用リストを使用することができます。この場合は、すべてのフィールドと一致します。また、見つからないフィールドで ##INFO または ##FORMAT が使用されているかどうかも確認します。

  • ファイルを編集できない場合は、--representative_header_file FILE_PATH フラグを指定して Variant Transforms ツールを実行します。渡すファイル内で、すべてのファイルのすべてのヘッダーをまとめて指定します。見つからないフィールドをこのファイルに追加することができます。

  • --infer_headers フラグを指定して Variant Transforms ツールを実行します。この場合、ツールはデータに関する受け渡しを 2 回行います。この方法では、ツールは、未定義の一致しないヘッダーの定義を推測します(一致しないヘッダーでは、ヘッダー フィールドの定義がフィールド値と一致しません)。このフラグを追加する場合は、VCF ファイルを編集したり、定義を記述したヘッダー ファイルを指定したりする必要はありません。ただし、このフラグを追加すると、ツールの Compute Engine リソース使用量は約 30% 上昇します。

その他のリソース

  • このドキュメントを確認しても問題が発生する場合は、google-genomics-discuss グループで追加のサポートを受けることができます。

  • Variant Transforms ツールの GitHub リポジトリで問題を開くこともできます。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...