Sentieon® DNASeq® 실행

이 페이지에서는 보조 게놈 분석을 위해 Google Cloud 파이프라인으로 Sentieon® DNASeq®를 실행하는 방법을 설명합니다. 파이프라인은 Genome Analytics Toolkit(GATK) 권장사항 버전 3.7의 다음 결과와 일치합니다.

  • 정렬
  • 정렬
  • 중복 삭제
  • 기본 품질평가점수(BQSR)
  • 변이 호출

입력 형식은 다음과 같습니다.

  • fastq 파일
  • 정렬된 BAM 파일

목표

이 튜토리얼을 완료하고 나면 다음의 작업을 수행할 수 있게 됩니다.

  • SSentieon® DNASeq®를 사용하여 Google Cloud에서 파이프라인 실행
  • 다양한 Sentieon® DNASeq® 사용 사례에 대한 구성 파일 작성

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud Storage

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

  1. Python 2.7+를 설치합니다. 시스템에 pip 설치와 같은 Python 개발 환경 설정에 대한 자세한 내용은 Python 개발 환경 설정 가이드를 참조하세요.
  2. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  3. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  4. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  5. API Cloud Life Sciences, Compute Engine, and Cloud Storage 사용 설정

    API 사용 설정

  6. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  7. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  8. API Cloud Life Sciences, Compute Engine, and Cloud Storage 사용 설정

    API 사용 설정

  9. Google Cloud CLI를 설치합니다.
  10. gcloud CLI를 초기화하려면 다음 명령어를 실행합니다.

    gcloud init
  11. gcloud 구성요소를 업데이트 및 설치합니다.
    gcloud components update
    gcloud components install beta
  12. git을 설치하여 필요한 파일을 다운로드합니다.

    git 다운로드

  13. 기본적으로 Compute Engine에는 부적절한 사용을 방지하기 위해 리소스 할당량이 마련되어 있습니다. 할당량을 늘리면 더 많은 가상 머신을 동시에 실행할 수 있으므로 처리량이 증가하고 처리 시간이 단축됩니다.

    이 튜토리얼에서 최상의 결과를 얻으려면 프로젝트의 기본값보다 높은 추가 할당량을 요청해야 합니다. 할당량 증가에 대한 권장사항은 다음 목록에 나와 있을 뿐 아니라, 튜토리얼을 실행하는 데 필요한 최소 할당량도 나와 있습니다. us-central1 리전에서 할당량을 요청합니다.

    • CPU: 64
    • Persistent Disk Standard(GB): 375

    다른 할당량 요청 필드를 비워두면 현재 할당량을 유지할 수 있습니다.

Sentieon® 평가 라이선스

이 파이프라인을 사용하면 Sentieon®에서 Google Cloud에 사용할 수 있도록 해당 소프트웨어를 2주간 무료로 사용할 수 있는 평가 라이선스가 부여됩니다. 라이선스를 받으려면 파이프라인을 구성할 때 EMAIL 필드에 이메일 주소를 입력합니다. 이 필드 설정에 대한 자세한 내용은 입력 형식 이해를 참조하세요.

평가판 라이선스가 만료된 후 Sentieon®을 계속 사용하려면 support@sentieon.com에 문의하세요.

로컬 환경 설정 및 기본 요건 설치

  1. virtualenv가 없으면 다음 명령어를 실행하여 pip를 사용해서 설치합니다.

    pip install virtualenv
    
  2. 다음 명령어를 실행하여 격리된 Python 환경을 만들고 종속 항목을 설치합니다.

    virtualenv env
    source env/bin/activate
    pip install --upgrade \
        pyyaml \
        google-api-python-client \
        google-auth \
        google-cloud-storage \
        google-auth-httplib2
    

파이프라인 스크립트 다운로드

다음 명령어를 실행하여 예시 파일을 다운로드하고 현재 디렉터리를 설정합니다.

git clone https://github.com/sentieon/sentieon-google-genomics.git
cd sentieon-google-genomics

입력 형식 이해

파이프라인은 JSON 파일에 지정된 매개변수를 입력으로 사용합니다.

다운로드한 저장소에는 다음 콘텐츠가 포함된 examples/example.json 파일이 있습니다.

{
  "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz",
  "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz",
  "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
  "OUTPUT_BUCKET": "gs://BUCKET",
  "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
  "PROJECT_ID": "PROJECT_ID"
  "REQUESTER_PROJECT": "PROJECT_ID",
  "EMAIL": "YOUR_EMAIL_HERE"
}

다음 표에서는 파일의 JSON 키를 설명합니다.

JSON 키 설명
FQ1 입력 fastq 파일의 첫 번째 읽기 쌍.
FQ2 입력 fastq 파일의 두 번째 읽기 쌍.
BAM 해당되는 경우 입력 BAM 파일.
REF 참조 게놈. 설정된 경우 fastq/BAM 색인 파일이 있다고 가정합니다.
OUTPUT_BUCKET 파이프라인의 데이터 출력을 저장하는 데 사용되는 버킷 및 디렉터리입니다.
ZONES 워커 노드에 사용할 Google Cloud 영역의 쉼표로 구분된 목록입니다.
PROJECT_ID Google Cloud 프로젝트 ID
REQUESTER_PROJECT 요청자 지불 버킷에서 데이터를 전송할 경우에 청구할 프로젝트입니다.
EMAIL 이메일 주소

파이프라인 실행

  1. sentieon-google-genomics 디렉터리에서 examples/example.json 파일을 수정하여 BUCKET, REQUESTER_PROJECT, EMAIL, PROJECT_ID 변수를 Google Cloud 프로젝트의 관련 리소스로 대체합니다.

    {
      "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz",
      "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz",
      "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
      "OUTPUT_BUCKET": "gs://BUCKET",
      "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
      "PROJECT_ID": "PROJECT_ID",
      "REQUESTER_PROJECT": "PROJECT_ID",
      "EMAIL": "EMAIL_ADDRESS"
    }
    
  2. 사용자 환경에서 PROJECT_ID 변수를 설정합니다.

    export PROJECT_ID=PROJECT_ID
    

  3. 다음 명령어를 실행하여 구성 파일의 입력으로 식별되는 소규모 테스트 데이터세트에서 DNASeq® 파이프라인을 실행합니다. 기본적으로 스크립트는 파이프라인을 시작하기 전에 입력 파일이 Cloud Storage 버킷에 있는지 확인합니다.

    python runner/sentieon_runner.py --requester_project $PROJECT_ID examples/example.json
    

여러 선점형 시도를 지정한 경우 해당 인스턴스가 선점될 때마다 파이프라인이 다시 시작됩니다. 파이프라인이 완료되면 파이프라인의 성공 또는 실패 여부를 나타내는 메시지가 콘솔에 출력됩니다.

대부분의 경우 다음 구성을 사용하여 소요 시간 및 비용을 최적화할 수 있습니다. 이 구성은 대략 1.25달러의 비용으로 30배의 인간 게놈을 실행하며 약 2시간이 소요됩니다. 인간의 전체 엑솜 비용은 대략 $0.35이며 약 45분이 소요됩니다. 이 두 견적은 선점되지 않은 파이프라인 인스턴스를 기반으로 합니다.

{
  "FQ1": "gs://my-bucket/sample1_1.fastq.gz",
  "FQ2": "gs://my-bucket/sample1_2.fastq.gz",
  "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
  "OUTPUT_BUCKET": "gs://BUCKET",
  "BQSR_SITES": "gs://sentieon-test/pipeline_test/reference/Mills_and_1000G_gold_standard.indels.b37.vcf.gz,gs://sentieon-test/pipeline_test/reference/1000G_phase1.indels.b37.vcf.gz,gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz",
  "DBSNP": "gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz",
  "PREEMPTIBLE_TRIES": "2",
  "NONPREEMPTIBLE_TRY": true,
  "STREAM_INPUT": "True",
  "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
  "PROJECT_ID": "PROJECT_ID",
  "EMAIL": "EMAIL_ADDRESS"
}

추가 옵션

다음과 같은 추가 옵션을 사용하여 파이프라인을 맞춤 설정할 수 있습니다.

입력 파일 옵션

파이프라인은 다음 구성과 같이 쉼표로 구분한 여러 개의 fastq 파일을 입력으로 지원합니다.

"FQ1": "gs://my-bucket/s1_prep1_1.fastq.gz,gs://my-bucket/s1_prep2_1.fastq.gz",
"FQ2": "gs://my-bucket/s1_prep1_2.fastq.gz,gs://my-bucket/s1_prep2_2.fastq.gz",

파이프라인은 BAM JSON 키를 사용하여 쉼표로 구분한 BAM 파일을 입력으로 허용합니다. BAM 파일의 읽기는 참조 게놈에 정렬되지 않습니다. 그 대신 파이프라인의 데이터 중복 제거 단계에서 시작됩니다. 다음 샘플은 두 개의 BAM 파일을 입력으로 사용하는 구성을 보여줍니다.

"BAM": "gs://my-bucket/s1_prep1.bam,gs://my-bucket/s1_prep2.bam"

전체 엑솜 데이터 또는 대규모 데이터 세트 구성

권장되는 구성의 설정은 평균 30배의 범위로 시퀀싱된 인간 전체 게놈 샘플에 최적화되어 있습니다. 표준 전체 게놈 데이터 세트보다 훨씬 작거나 큰 파일의 경우 인스턴스에서 사용할 수 있는 리소스를 늘리거나 줄일 수 있습니다. 대규모 데이터 세트를 사용하여 최상의 결과를 얻으려면 다음 설정을 사용합니다.

{
  "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz",
  "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz",
  "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa",
  "OUTPUT_BUCKET": "gs://BUCKET",
  "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f",
  "PROJECT_ID": "PROJECT_ID",
  "EMAIL": "EMAIL_ADDRESS",
  "DISK_SIZE": 600,
  "MACHINE_TYPE": "n1-highcpu-64",
  "CPU_PLATFORM": "Intel Broadwell"
}

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
DISK_SIZE 워커 노드에서 사용 가능한 SSD 공간입니다.
MACHINE_TYPE 사용할 Compute Engine 가상 머신의 유형입니다. 기본값은 n1-standard-1입니다.
CPU_PLATFORM 요청할 CPU 플랫폼입니다. 유효한 Compute Engine CPU 플랫폼 이름(예: "Intel Skylake")이어야 합니다.

선점형 인스턴스

파이프라인에서 PREEMPTIBLE_TRIES JSON 키를 설정하여 선점형 인스턴스를 사용할 수 있습니다.

기본적으로 실행자는 선점형 시도가 소진되거나 NONPREEMPTIBLE_TRY JSON 키가 0으로 설정된 경우 표준 인스턴스로 파이프라인을 실행하려고 합니다. 다음과 구성과 같이 NONPREEMPTIBLE_TRY 키를 false로 설정하여 이 동작을 끌 수 있습니다.

"PREEMPTIBLE_TRIES": 2,
"NONPREEMPTIBLE_TRY": false

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
PREEMPTIBLE_TRIES 선점형 인스턴스를 사용할 때 파이프라인을 시도한 횟수입니다.
NONPREEMPTIBLE_TRY 선점형 시도가 소진된 후 표준 인스턴스로 파이프라인을 실행할지를 결정합니다.

읽기 그룹

Sentieon® BWA를 사용하여 fastq 파일이 참조 게놈과 정렬되면 읽기 그룹이 추가됩니다. 쉼표로 구분된 여러 읽기 그룹을 제공할 수 있습니다. 읽기 그룹의 수는 입력 fastq 파일의 수와 일치해야 합니다. 기본 읽기 그룹은 @RG\\tID:read-group\\tSM:sample-name\\tPL:ILLUMINA입니다. 읽기 그룹을 변경하려면 다음 구성과 같이 JSON 입력 파일에 READGROUP 키를 설정합니다.

"READGROUP": "@RG\\tID:my-rgid-1\\tSM:my-sm\\tPL:ILLUMINA,@RG\\tID:my-rgid-2\\tSM:my-sm\\tPL:ILLUMINA"

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
READGROUP 샘플 메타데이터가 포함된 읽기 그룹입니다.

읽기 그룹에 대한 자세한 내용은 읽기 그룹을 참조하세요.

Cloud Storage의 스트리밍 입력

Cloud Storage의 입력 fastq 파일을 스트리밍하면 파이프라인의 총 런타임을 줄일 수 있습니다. Cloud Storage에서 입력 fastq 파일을 스트리밍하려면 STREAM_INPUT JSON 키를 True로 설정합니다.

"STREAM_INPUT": "True"

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
STREAM_INPUT 입력 fastq 파일을 Cloud Storage에서 직접 스트리밍할지를 결정합니다.

중복 표시

기본적으로 파이프라인은 BAM 파일에서 중복 읽기를 삭제합니다. 다음 구성에 표시된 것처럼 DEDUP JSON 키를 설정하여 이 동작을 변경할 수 있습니다.

"DEDUP": "markdup"

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
DEDUP 중복 표시 동작입니다.
유효한 값:
  • 기본 구성은 중복으로 표시된 읽기를 삭제합니다.
  • markdup은 중복을 표시하지만 이를 삭제하지 않습니다.
  • nodup은 중복 표시를 건너뜁니다.

기본 품질평가점수(BQSR) 및 알려진 사이트

BSQR은 유전 변이의 알려진 부위를 필요로 합니다. 기본 동작은 이 단계의 파이프라인을 건너뛰는 것입니다. 그러나 알려진 사이트에 BQSR_SITES JSON 키를 제공하여 BSQR을 활성화할 수 있습니다. 제공되는 경우 DBSNP 파일을 사용하여 변이 추출 중에 출력 변이에 주석을 추가할 수 있습니다.

"BQSR_SITES": "gs://my-bucket/reference/Mills_and_1000G_gold_standard.indels.b37.vcf.gz,gs://my-bucket/reference/1000G_phase1.indels.b37.vcf.gz,gs://my-bucket/reference/dbsnp_138.b37.vcf.gz",
"DBSNP": "gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz"

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
BSQR_SITES BSQR을 켜고 쉼표로 구분한 제공된 파일 목록을 알려진 사이트로 사용합니다.
DBSNP 변이 추출 중에 사용되는 dbSNP 파일.

간격

표적화된 엑솜이나 전체 엑솜 시퀀싱과 같은 일부 응용에서 게놈의 일부에만 관심이 있을 수 있습니다. 이러한 경우에 대상 간격의 파일을 제공하면 처리 속도가 빨라질 수 있으며 표적을 벗어난 저품질 변이 추출을 줄일 수 있습니다. INTERVAL_FILEINTERVAL JSON 키와 함께 간격을 사용할 수 있습니다.

"INTERVAL_FILE": "gs://my-bucket/capture-targets.bed",
"INTERVAL": "9:80331190-80646365"

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
INTERVAL_FILE 처리할 게놈 간격이 포함된 파일입니다.
INTERVAL 처리할 게놈 간격이 포함된 문자열입니다.

출력 옵션

기본적으로 파이프라인은 전처리된 BAM, 품질 관리 메트릭, 변이 추출을 생성합니다. NO_BAM_OUTPUT , NO_METRICS, NO_HAPLOTYPER JSON 키를 사용하여 이러한 출력을 비활성화할 수 있습니다. NO_HAPLOTYPER 인수가 제공되지 않거나 NULL이면 GVCF_OUTPUT JSON 키를 사용하여 VCF 형식 이외의 gVCF 형식으로 변이 추출을 생성할 수 있습니다.

"NO_BAM_OUTPUT": "true",
"NO_METRICS": "true",
"NO_HAPLOTYPER": "true",
"GVCF_OUTPUT": "true",

다음 표는 사용된 설정에 대한 설명입니다.

JSON 키 설명
NO_BAM_OUTPUT 전처리된 BAM 파일을 출력할지를 결정합니다.
NO_METRICS 파일 메트릭을 출력할지를 결정합니다.
NO_HAPLOTYPER 변이 추출을 출력할지를 결정합니다.
GVCF_OUTPUT 변이 추출을 gVCF 형식으로 출력할지 여부를 결정합니다.

Sentieon® DNASeq® 버전

다음과 같이 SENTIEON_VERSION JSON 키를 지정하여 Cloud Life Sciences API가 포함된 Sentieon® DNASeq® 소프트웨어 패키지의 모든 최근 버전을 사용할 수 있습니다.

"SENTIEON_VERSION": "201808.08"

유효한 버전은 다음과 같습니다.

  • 201711.01
  • 201711.02
  • 201711.03
  • 201711.04
  • 201711.05
  • 201808
  • 201808.01
  • 201808.03
  • 201808.05
  • 201808.06
  • 201808.07
  • 201808.08

삭제

튜토리얼을 마쳤으면 나중에 요금이 청구되지 않도록 Google Cloud에서 만든 리소스를 삭제합니다. 다음 섹션은 이러한 리소스를 삭제하거나 사용 중지하는 방법을 설명합니다.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 사용한 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

  1. Google Cloud 콘솔에서 프로젝트 페이지로 이동합니다.

    프로젝트 페이지로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 프로젝트 삭제를 클릭합니다. 프로젝트 이름 옆의 체크박스를 선택한 다음 프로젝트 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.

다음 단계

  • 파이프라인에 대한 질문이 있거나 문제가 발생하면 support@sentieon.com으로 이메일을 보내주세요.