このページでは、Variant Transforms ツールを使用して VCF ファイルを読み込むときに発生する可能性のある問題について説明します。
このドキュメントを確認しても VCF ファイルを読み込めない場合は、google-genomics-discuss グループで追加のサポートを受けることができます。また、Variant Transforms ツールの GitHub リポジトリで問題を開くこともできます。
Variant Transforms ツールの実行速度が遅すぎる
Variant Transforms ツールを実行できるのに、実行速度が遅いことがあります。
--max_num_workers
フラグを使用して、ジョブ内のワーカー数を増やします。- より大規模なマシンを使用するように
--worker_machine_type
フラグを変更します(n1-standard-32
など)。Compute Engine の事前定義されたマシンタイプの詳細については、事前定義された vCPU とメモリをご覧ください。 Variant Transforms ツールを実行しているリージョンまたはゾーン内に、十分な量の Compute Engine リソース割り当てが設定されていること確認します。必要に応じて、ジョブを実行するゾーンまたはリージョンを変更するか、追加の Compute Engine 割り当てをリクエストします。
利用可能な Compute Engine の割り当てを確認するには、割り当て量を確認するをご覧ください。
GZIP ファイルや BZIP ファイルは分割できないため、これらのタイプのファイルを読み込もうとすると、ツールの実行速度が低下することがあります。解決策として、これらのファイルを読み込む前にファイルを解凍します。dsub ツールを使用すると、スケーラブルな方法でファイルを解凍するスクリプトを作成できます。
少数の大きなファイルにこのツールを実行している場合は、この問題が発生する可能性が高くなります。通常、多数の小さなファイルにこのツールを実行している場合は、各ファイルを別々のプロセスで読み取ることができるため、問題が発生しません。
詳細については、大量入力の処理をご覧ください。
ディスク容量不足エラーのためにパイプラインがクラッシュする
Variant Transforms ツールを実行できるのに、ディスク容量不足のためにクラッシュすることがあります。
--disk_size_gb
フラグを使用して、各ワーカーに割り当てるディスクサイズを増やします。--max_num_workers
フラグを使用して、ジョブ内のワーカー数を増やします。
JSON 解析エラーまたは BigQuery フィールド エラーが発生する
Variant Transforms ツールを実行できるのに、次のいずれかのメッセージが表示されて停止することがあります。
Error while reading data, error message: JSON parsing error in row starting at position 0: No such field: FIELD_NAME
BigQuery schema has no such field
これらのエラー メッセージは、BigQuery スキーマ内に該当するフィールドが見つからないことを示しています。この問題は、VCF ヘッダー ファイル内にフィールドの定義が存在しない場合に発生する可能性があります。
このフィールドを含む VCF ファイルを編集し、ヘッダーに正しい定義が含まれているエントリを追加します。たとえば、フィールド
AF
でエラーが発生した場合は、VCF ファイルに以下を追加します。##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
フィールドに有効な
Type
とNumber
を指定する必要があります。これらの値が不明な場合は、Type=String
とNumber=.
をプレースホルダとして渡すことにより、文字列の汎用リストを使用できます。この場合は、すべてのフィールドと一致します。また、見つからないフィールドで##INFO
または##FORMAT
が使用されているかどうかも確認します。ファイルを編集できない場合は、
--representative_header_file FILE_PATH
フラグを指定して Variant Transforms ツールを実行します。渡すファイル内で、すべてのファイルのすべてのヘッダーをまとめて指定します。見つからないフィールドをこのファイルに追加できます。--infer_headers
フラグを指定して Variant Transforms ツールを実行します。この場合、ツールはデータに関する受け渡しを 2 回行います。この方法では、ツールは、未定義の一致しないヘッダーの定義を推測します(一致しないヘッダーでは、ヘッダー フィールドの定義がフィールド値と一致しません)。このフラグを追加する場合は、VCF ファイルを編集したり、定義を記述したヘッダー ファイルを指定したりする必要はありません。ただし、このフラグを追加すると、ツールの Compute Engine リソース使用量は約 30% 上昇します。
その他のリソース
このドキュメントを確認しても問題が発生する場合は、google-genomics-discuss グループで追加のサポートを受けることができます。
Variant Transforms ツールの GitHub リポジトリで問題を開くこともできます。