이 페이지에서는 Variant Transforms 도구를 사용하여 VCF 파일을 로드할 때 발생할 수 있는 문제를 설명합니다.
이 문서를 읽은 후에도 VCF 파일을 로드할 수 없는 경우 google-genomics-discuss group에서 추가적인 지원을 받을 수 있습니다. 또는 Variant Transforms 도구의 GitHub 저장소에서 이슈를 개설할 수 있습니다.
Variant Transforms 도구가 너무 느린 경우
Variant Transforms 도구를 실행할 수는 있지만 속도가 느립니다.
--max_num_workers
플래그를 사용하여 작업에서 작업자 수를 늘립니다.n1-standard-32
와 같이 큰 머신을 사용하도록--worker_machine_type
플래그를 변경합니다. Compute Engine의 사전 정의된 머신 유형에 대한 자세한 내용은 사전 정의된 vCPU 및 메모리를 참조하세요.Variant Transforms 도구를 실행하는 지역 또는 영역에서 Compute Engine 리소스 할당량이 충분한지 확인합니다. 필요한 경우 작업이 실행되는 영역 또는 리전을 변경하거나 Compute Engine 추가 할당량을 요청할 수 있습니다.
사용 가능한 Compute Engine 할당량을 확인하는 방법은 할당량 확인을 참조하세요.
GZIP 또는 BZIP 파일을 로드하려고 하는 경우, 해당 파일 유형은 분할이 불가능하므로 도구가 느려질 수 있습니다. 파일의 압축을 푼 후에 로드하면 문제가 해결됩니다. dsub 도구를 사용하여 확장 가능한 방식으로 파일의 압축을 푸는 스크립트를 작성할 수 있습니다.
소수의 큰 파일로 도구를 실행하는 경우에 이 문제가 발생하기 쉽습니다. 일반적으로 다수의 작은 파일로 도구를 실행할 때는 각 파일을 별도의 프로세스로 읽을 수 있으므로 문제가 없습니다.
자세한 내용은 대량 입력 처리를 참조하세요.
디스크 부족 오류로 인한 파이프라인 비정상 종료
Variant Transforms 도구를 실행할 수는 있지만 디스크 공간 부족으로 인해 비정상 종료됩니다.
--disk_size_gb
플래그를 사용하여 작업자에 도달하기 위해 할당되는 디스크 크기를 늘립니다.--max_num_workers
플래그를 사용하여 작업에서 작업자 수를 늘립니다.
JSON 파싱 또는 BigQuery 필드 오류 발생
Variant Transforms 도구를 실행할 수는 있지만 다음 메시지 중 하나와 함께 중지됩니다.
Error while reading data, error message: JSON parsing error in row starting at position 0: No such field: FIELD_NAME
BigQuery schema has no such field
이러한 오류 메시지는 BigQuery 스키마에 필드가 누락되었다는 의미입니다. VCF 헤더 파일에 필드 정의가 누락되었기 때문일 가능성이 높습니다.
필드를 포함하는 VCF 파일을 수정하여 헤더에 올바른 정의를 포함하는 항목을 추가합니다. 예를 들어
AF
필드에 대한 오류가 발생한 경우 VCF 파일에 다음 내용을 추가합니다.##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
필드에 유효한
Type
및Number
를 제공해야 합니다. 이러한 값을 잘 모를 경우 모든 필드와 일치하도록Type=String
및Number=.
를 자리표시자로 전달하여 일반적인 문자열 목록을 사용할 수 있습니다. 또한 누락된 필드에##INFO
또는##FORMAT
이 사용되는지 확인합니다.파일을 수정할 수 없는 경우
--representative_header_file FILE_PATH
플래그와 함께 Variant Transforms 도구를 실행합니다. 전달하는 파일에서 모든 파일의 모든 헤더를 병합한 뷰를 제공합니다. 해당 파일에 누락된 필드를 모두 추가할 수 있습니다.--infer_headers
플래그와 함께 Variant Transforms 도구를 실행합니다. 이렇게 하면 도구에서 데이터를 두 단계로 처리합니다. 이 과정에서 미정의 헤더와 불일치 헤더의 정의를 유추합니다. 불일치 헤더란 헤더 필드 정의가 필드 값과 일치하지 않는 경우입니다. 이 플래그를 추가하면 VCF 파일을 수정하거나 대표 헤더 파일을 제공할 필요가 없습니다. 그러나 이 플래그를 추가하면 도구에서 Compute Engine 리소스를 약 30% 더 많이 사용합니다.
추가 자료
이 문서를 읽은 후에도 문제가 발생하는 경우 google-genomics-discuss group에서 추가적인 지원을 받을 수 있습니다.
Variant Transforms 도구의 GitHub 저장소에서 이슈를 개설할 수도 있습니다.