Variant Transforms 도구 문제해결

이 페이지에서는 Variant Transforms 도구를 사용하여 VCF 파일을 로드할 때 발생할 수 있는 문제를 설명합니다.

이 문서를 읽은 후에도 VCF 파일을 로드할 수 없는 경우 google-genomics-discuss group에서 추가적인 지원을 받을 수 있습니다. 또는 Variant Transforms 도구의 GitHub 저장소에서 이슈를 개설할 수 있습니다.

Variant Transforms 도구가 너무 느린 경우

Variant Transforms 도구를 실행할 수는 있지만 속도가 느립니다.

  • --max_num_workers 플래그를 사용하여 작업에서 작업자 수를 늘립니다.
  • n1-standard-32와 같이 큰 머신을 사용하도록 --worker_machine_type 플래그를 변경합니다. Compute Engine의 사전 정의된 머신 유형에 대한 자세한 내용은 사전 정의된 vCPU 및 메모리를 참조하세요.
  • Variant Transforms 도구를 실행하는 지역 또는 영역에서 Compute Engine 리소스 할당량이 충분한지 확인합니다. 필요한 경우 작업이 실행되는 영역 또는 리전을 변경하거나 Compute Engine 추가 할당량을 요청할 수 있습니다.

    사용 가능한 Compute Engine 할당량을 확인하는 방법은 할당량 확인을 참조하세요.

  • GZIP 또는 BZIP 파일을 로드하려고 하는 경우, 해당 파일 유형은 분할이 불가능하므로 도구가 느려질 수 있습니다. 파일의 압축을 푼 후에 로드하면 문제가 해결됩니다. dsub 도구를 사용하여 확장 가능한 방식으로 파일의 압축을 푸는 스크립트를 작성할 수 있습니다.

    소수의 큰 파일로 도구를 실행하는 경우에 이 문제가 발생하기 쉽습니다. 일반적으로 다수의 작은 파일로 도구를 실행할 때는 각 파일을 별도의 프로세스로 읽을 수 있으므로 문제가 없습니다.

자세한 내용은 대량 입력 처리를 참조하세요.

디스크 부족 오류로 인한 파이프라인 비정상 종료

Variant Transforms 도구를 실행할 수는 있지만 디스크 공간 부족으로 인해 비정상 종료됩니다.

  • --disk_size_gb 플래그를 사용하여 작업자에 도달하기 위해 할당되는 디스크 크기를 늘립니다.
  • --max_num_workers 플래그를 사용하여 작업에서 작업자 수를 늘립니다.

JSON 파싱 또는 BigQuery 필드 오류 발생

Variant Transforms 도구를 실행할 수는 있지만 다음 메시지 중 하나와 함께 중지됩니다.

  • Error while reading data, error message: JSON parsing error in row starting at position 0: No such field: FIELD_NAME
  • BigQuery schema has no such field

이러한 오류 메시지는 BigQuery 스키마에 필드가 누락되었다는 의미입니다. VCF 헤더 파일에 필드 정의가 누락되었기 때문일 가능성이 높습니다.

  • 필드를 포함하는 VCF 파일을 수정하여 헤더에 올바른 정의를 포함하는 항목을 추가합니다. 예를 들어 AF 필드에 대한 오류가 발생한 경우 VCF 파일에 다음 내용을 추가합니다.

    ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
    

    필드에 유효한 TypeNumber를 제공해야 합니다. 이러한 값을 잘 모를 경우 모든 필드와 일치하도록 Type=StringNumber=.를 자리표시자로 전달하여 일반적인 문자열 목록을 사용할 수 있습니다. 또한 누락된 필드에 ##INFO 또는 ##FORMAT이 사용되는지 확인합니다.

  • 파일을 수정할 수 없는 경우 --representative_header_file FILE_PATH 플래그와 함께 Variant Transforms 도구를 실행합니다. 전달하는 파일에서 모든 파일의 모든 헤더를 병합한 뷰를 제공합니다. 해당 파일에 누락된 필드를 모두 추가할 수 있습니다.

  • --infer_headers 플래그와 함께 Variant Transforms 도구를 실행합니다. 이렇게 하면 도구에서 데이터를 두 단계로 처리합니다. 이 과정에서 미정의 헤더와 불일치 헤더의 정의를 유추합니다. 불일치 헤더란 헤더 필드 정의가 필드 값과 일치하지 않는 경우입니다. 이 플래그를 추가하면 VCF 파일을 수정하거나 대표 헤더 파일을 제공할 필요가 없습니다. 그러나 이 플래그를 추가하면 도구에서 Compute Engine 리소스를 약 30% 더 많이 사용합니다.

추가 자료

  • 이 문서를 읽은 후에도 문제가 발생하는 경우 google-genomics-discuss group에서 추가적인 지원을 받을 수 있습니다.

  • Variant Transforms 도구의 GitHub 저장소에서 이슈를 개설할 수도 있습니다.