이 페이지에서는 보조 게놈 분석을 위해 Google Cloud 파이프라인으로 Sentieon® DNASeq®를 실행하는 방법을 설명합니다. 파이프라인은 Genome Analytics Toolkit(GATK) 권장사항 버전 3.7의 다음 결과와 일치합니다.
- 정렬
- 정렬
- 중복 삭제
- 기본 품질평가점수(BQSR)
- 변이 호출
입력 형식은 다음과 같습니다.
- fastq 파일
- 정렬된 BAM 파일
목표
이 튜토리얼을 완료하고 나면 다음의 작업을 수행할 수 있게 됩니다.
- SSentieon® DNASeq®를 사용하여 Google Cloud에서 파이프라인 실행
- 다양한 Sentieon® DNASeq® 사용 사례에 대한 구성 파일 작성
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
- Compute Engine
- Cloud Storage
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
시작하기 전에
- Python 2.7+를 설치합니다. 시스템에 pip 설치와 같은 Python 개발 환경 설정에 대한 자세한 내용은 Python 개발 환경 설정 가이드를 참조하세요.
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Update and install
gcloud
components:gcloud components update
gcloud components install beta - git을 설치하여 필요한 파일을 다운로드합니다.
-
기본적으로 Compute Engine에는 부적절한 사용을 방지하기 위해 리소스 할당량이 마련되어 있습니다. 할당량을 늘리면 더 많은 가상 머신을 동시에 실행할 수 있으므로 처리량이 증가하고 처리 시간이 단축됩니다.
이 튜토리얼에서 최상의 결과를 얻으려면 프로젝트의 기본값보다 높은 추가 할당량을 요청해야 합니다. 할당량 증가에 대한 권장사항은 다음 목록에 나와 있을 뿐 아니라, 튜토리얼을 실행하는 데 필요한 최소 할당량도 나와 있습니다.
us-central1
리전에서 할당량을 요청합니다.- CPU: 64
- Persistent Disk Standard(GB): 375
다른 할당량 요청 필드를 비워두면 현재 할당량을 유지할 수 있습니다.
Sentieon® 평가 라이선스
이 파이프라인을 사용하면 Sentieon®에서 Google Cloud에 사용할 수 있도록 해당 소프트웨어를 2주간 무료로 사용할 수 있는 평가 라이선스가 부여됩니다. 라이선스를 받으려면 파이프라인을 구성할 때 EMAIL
필드에 이메일 주소를 입력합니다. 이 필드 설정에 대한 자세한 내용은 입력 형식 이해를 참조하세요.
평가판 라이선스가 만료된 후 Sentieon®을 계속 사용하려면 support@sentieon.com에 문의하세요.
로컬 환경 설정 및 기본 요건 설치
virtualenv가 없으면 다음 명령어를 실행하여 pip를 사용해서 설치합니다.
pip install virtualenv
다음 명령어를 실행하여 격리된 Python 환경을 만들고 종속 항목을 설치합니다.
virtualenv env source env/bin/activate pip install --upgrade \ pyyaml \ google-api-python-client \ google-auth \ google-cloud-storage \ google-auth-httplib2
파이프라인 스크립트 다운로드
다음 명령어를 실행하여 예시 파일을 다운로드하고 현재 디렉터리를 설정합니다.
git clone https://github.com/sentieon/sentieon-google-genomics.git cd sentieon-google-genomics
입력 형식 이해
파이프라인은 JSON 파일에 지정된 매개변수를 입력으로 사용합니다.
다운로드한 저장소에는 다음 콘텐츠가 포함된 examples/example.json
파일이 있습니다.
{ "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz", "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz", "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa", "OUTPUT_BUCKET": "gs://BUCKET", "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f", "PROJECT_ID": "PROJECT_ID" "REQUESTER_PROJECT": "PROJECT_ID", "EMAIL": "YOUR_EMAIL_HERE" }
다음 표에서는 파일의 JSON 키를 설명합니다.
JSON 키 | 설명 |
---|---|
FQ1 |
입력 fastq 파일의 첫 번째 읽기 쌍. |
FQ2 |
입력 fastq 파일의 두 번째 읽기 쌍. |
BAM |
해당되는 경우 입력 BAM 파일. |
REF |
참조 게놈. 설정된 경우 fastq/BAM 색인 파일이 있다고 가정합니다. |
OUTPUT_BUCKET |
파이프라인의 데이터 출력을 저장하는 데 사용되는 버킷 및 디렉터리입니다. |
ZONES |
워커 노드에 사용할 Google Cloud 영역의 쉼표로 구분된 목록입니다. |
PROJECT_ID |
Google Cloud 프로젝트 ID |
REQUESTER_PROJECT |
요청자 지불 버킷에서 데이터를 전송할 경우에 청구할 프로젝트입니다. |
EMAIL |
이메일 주소 |
파이프라인 실행
sentieon-google-genomics
디렉터리에서examples/example.json
파일을 수정하여 BUCKET, REQUESTER_PROJECT, EMAIL, PROJECT_ID 변수를 Google Cloud 프로젝트의 관련 리소스로 대체합니다.{ "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz", "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz", "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa", "OUTPUT_BUCKET": "gs://BUCKET", "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f", "PROJECT_ID": "PROJECT_ID", "REQUESTER_PROJECT": "PROJECT_ID", "EMAIL": "EMAIL_ADDRESS" }
사용자 환경에서 PROJECT_ID 변수를 설정합니다.
export PROJECT_ID=PROJECT_ID
다음 명령어를 실행하여 구성 파일의 입력으로 식별되는 소규모 테스트 데이터세트에서 DNASeq® 파이프라인을 실행합니다. 기본적으로 스크립트는 파이프라인을 시작하기 전에 입력 파일이 Cloud Storage 버킷에 있는지 확인합니다.
python runner/sentieon_runner.py --requester_project $PROJECT_ID examples/example.json
여러 선점형 시도를 지정한 경우 해당 인스턴스가 선점될 때마다 파이프라인이 다시 시작됩니다. 파이프라인이 완료되면 파이프라인의 성공 또는 실패 여부를 나타내는 메시지가 콘솔에 출력됩니다.
권장되는 구성
대부분의 경우 다음 구성을 사용하여 소요 시간 및 비용을 최적화할 수 있습니다. 이 구성은 대략 1.25달러의 비용으로 30배의 인간 게놈을 실행하며 약 2시간이 소요됩니다. 인간의 전체 엑솜 비용은 대략 $0.35이며 약 45분이 소요됩니다. 이 두 견적은 선점되지 않은 파이프라인 인스턴스를 기반으로 합니다.
{ "FQ1": "gs://my-bucket/sample1_1.fastq.gz", "FQ2": "gs://my-bucket/sample1_2.fastq.gz", "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa", "OUTPUT_BUCKET": "gs://BUCKET", "BQSR_SITES": "gs://sentieon-test/pipeline_test/reference/Mills_and_1000G_gold_standard.indels.b37.vcf.gz,gs://sentieon-test/pipeline_test/reference/1000G_phase1.indels.b37.vcf.gz,gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz", "DBSNP": "gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz", "PREEMPTIBLE_TRIES": "2", "NONPREEMPTIBLE_TRY": true, "STREAM_INPUT": "True", "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f", "PROJECT_ID": "PROJECT_ID", "EMAIL": "EMAIL_ADDRESS" }
추가 옵션
다음과 같은 추가 옵션을 사용하여 파이프라인을 맞춤 설정할 수 있습니다.
입력 파일 옵션
파이프라인은 다음 구성과 같이 쉼표로 구분한 여러 개의 fastq 파일을 입력으로 지원합니다.
"FQ1": "gs://my-bucket/s1_prep1_1.fastq.gz,gs://my-bucket/s1_prep2_1.fastq.gz",
"FQ2": "gs://my-bucket/s1_prep1_2.fastq.gz,gs://my-bucket/s1_prep2_2.fastq.gz",
파이프라인은 BAM
JSON 키를 사용하여 쉼표로 구분한 BAM 파일을 입력으로 허용합니다. BAM 파일의 읽기는 참조 게놈에 정렬되지 않습니다.
그 대신 파이프라인의 데이터 중복 제거 단계에서 시작됩니다. 다음 샘플은 두 개의 BAM 파일을 입력으로 사용하는 구성을 보여줍니다.
"BAM": "gs://my-bucket/s1_prep1.bam,gs://my-bucket/s1_prep2.bam"
전체 엑솜 데이터 또는 대규모 데이터 세트 구성
권장되는 구성의 설정은 평균 30배의 범위로 시퀀싱된 인간 전체 게놈 샘플에 최적화되어 있습니다. 표준 전체 게놈 데이터 세트보다 훨씬 작거나 큰 파일의 경우 인스턴스에서 사용할 수 있는 리소스를 늘리거나 줄일 수 있습니다. 대규모 데이터 세트를 사용하여 최상의 결과를 얻으려면 다음 설정을 사용합니다.
{ "FQ1": "gs://sentieon-test/pipeline_test/inputs/test1_1.fastq.gz", "FQ2": "gs://sentieon-test/pipeline_test/inputs/test1_2.fastq.gz", "REF": "gs://sentieon-test/pipeline_test/reference/hs37d5.fa", "OUTPUT_BUCKET": "gs://BUCKET", "ZONES": "us-central1-a,us-central1-b,us-central1-c,us-central1-f", "PROJECT_ID": "PROJECT_ID", "EMAIL": "EMAIL_ADDRESS", "DISK_SIZE": 600, "MACHINE_TYPE": "n1-highcpu-64", "CPU_PLATFORM": "Intel Broadwell" }
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
DISK_SIZE |
워커 노드에서 사용 가능한 SSD 공간입니다. |
MACHINE_TYPE |
사용할 Compute Engine 가상 머신의 유형입니다. 기본값은 n1-standard-1 입니다. |
CPU_PLATFORM |
요청할 CPU 플랫폼입니다. 유효한 Compute Engine CPU 플랫폼 이름(예: "Intel Skylake")이어야 합니다. |
선점형 인스턴스
파이프라인에서 PREEMPTIBLE_TRIES
JSON 키를 설정하여 선점형 인스턴스를 사용할 수 있습니다.
기본적으로 실행자는 선점형 시도가 소진되거나 NONPREEMPTIBLE_TRY
JSON 키가 0
으로 설정된 경우 표준 인스턴스로 파이프라인을 실행하려고 합니다. 다음과 구성과 같이 NONPREEMPTIBLE_TRY
키를 false
로 설정하여 이 동작을 끌 수 있습니다.
"PREEMPTIBLE_TRIES": 2,
"NONPREEMPTIBLE_TRY": false
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
PREEMPTIBLE_TRIES |
선점형 인스턴스를 사용할 때 파이프라인을 시도한 횟수입니다. |
NONPREEMPTIBLE_TRY |
선점형 시도가 소진된 후 표준 인스턴스로 파이프라인을 실행할지를 결정합니다. |
읽기 그룹
Sentieon® BWA를 사용하여 fastq 파일이 참조 게놈과 정렬되면 읽기 그룹이 추가됩니다. 쉼표로 구분된 여러 읽기 그룹을 제공할 수 있습니다.
읽기 그룹의 수는 입력 fastq 파일의 수와 일치해야 합니다.
기본 읽기 그룹은 @RG\\tID:read-group\\tSM:sample-name\\tPL:ILLUMINA
입니다.
읽기 그룹을 변경하려면 다음 구성과 같이 JSON 입력 파일에 READGROUP
키를 설정합니다.
"READGROUP": "@RG\\tID:my-rgid-1\\tSM:my-sm\\tPL:ILLUMINA,@RG\\tID:my-rgid-2\\tSM:my-sm\\tPL:ILLUMINA"
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
READGROUP |
샘플 메타데이터가 포함된 읽기 그룹입니다. |
읽기 그룹에 대한 자세한 내용은 읽기 그룹을 참조하세요.
Cloud Storage의 스트리밍 입력
Cloud Storage의 입력 fastq 파일을 스트리밍하면 파이프라인의 총 런타임을 줄일 수 있습니다. Cloud Storage에서 입력 fastq 파일을 스트리밍하려면 STREAM_INPUT
JSON 키를 True
로 설정합니다.
"STREAM_INPUT": "True"
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
STREAM_INPUT |
입력 fastq 파일을 Cloud Storage에서 직접 스트리밍할지를 결정합니다. |
중복 표시
기본적으로 파이프라인은 BAM 파일에서 중복 읽기를 삭제합니다. 다음 구성에 표시된 것처럼 DEDUP
JSON 키를 설정하여 이 동작을 변경할 수 있습니다.
"DEDUP": "markdup"
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
DEDUP |
중복 표시 동작입니다. 유효한 값:
|
기본 품질평가점수(BQSR) 및 알려진 사이트
BSQR은 유전 변이의 알려진 부위를 필요로 합니다. 기본 동작은 이 단계의 파이프라인을 건너뛰는 것입니다. 그러나 알려진 사이트에 BQSR_SITES
JSON 키를 제공하여 BSQR을 활성화할 수 있습니다. 제공되는 경우 DBSNP
파일을 사용하여 변이 추출 중에 출력 변이에 주석을 추가할 수 있습니다.
"BQSR_SITES": "gs://my-bucket/reference/Mills_and_1000G_gold_standard.indels.b37.vcf.gz,gs://my-bucket/reference/1000G_phase1.indels.b37.vcf.gz,gs://my-bucket/reference/dbsnp_138.b37.vcf.gz",
"DBSNP": "gs://sentieon-test/pipeline_test/reference/dbsnp_138.b37.vcf.gz"
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
BSQR_SITES |
BSQR을 켜고 쉼표로 구분한 제공된 파일 목록을 알려진 사이트로 사용합니다. |
DBSNP |
변이 추출 중에 사용되는 dbSNP 파일. |
간격
표적화된 엑솜이나 전체 엑솜 시퀀싱과 같은 일부 응용에서 게놈의 일부에만 관심이 있을 수 있습니다. 이러한 경우에 대상 간격의 파일을 제공하면 처리 속도가 빨라질 수 있으며 표적을 벗어난 저품질 변이 추출을 줄일 수 있습니다. INTERVAL_FILE
및 INTERVAL
JSON 키와 함께 간격을 사용할 수 있습니다.
"INTERVAL_FILE": "gs://my-bucket/capture-targets.bed",
"INTERVAL": "9:80331190-80646365"
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
INTERVAL_FILE |
처리할 게놈 간격이 포함된 파일입니다. |
INTERVAL |
처리할 게놈 간격이 포함된 문자열입니다. |
출력 옵션
기본적으로 파이프라인은 전처리된 BAM, 품질 관리 메트릭, 변이 추출을 생성합니다. NO_BAM_OUTPUT
, NO_METRICS
, NO_HAPLOTYPER
JSON 키를 사용하여 이러한 출력을 비활성화할 수 있습니다. NO_HAPLOTYPER
인수가 제공되지 않거나 NULL
이면 GVCF_OUTPUT
JSON 키를 사용하여 VCF 형식 이외의 gVCF 형식으로 변이 추출을 생성할 수 있습니다.
"NO_BAM_OUTPUT": "true",
"NO_METRICS": "true",
"NO_HAPLOTYPER": "true",
"GVCF_OUTPUT": "true",
다음 표는 사용된 설정에 대한 설명입니다.
JSON 키 | 설명 |
---|---|
NO_BAM_OUTPUT |
전처리된 BAM 파일을 출력할지를 결정합니다. |
NO_METRICS |
파일 메트릭을 출력할지를 결정합니다. |
NO_HAPLOTYPER |
변이 추출을 출력할지를 결정합니다. |
GVCF_OUTPUT |
변이 추출을 gVCF 형식으로 출력할지 여부를 결정합니다. |
Sentieon® DNASeq® 버전
다음과 같이 SENTIEON_VERSION
JSON 키를 지정하여 Cloud Life Sciences API가 포함된 Sentieon® DNASeq® 소프트웨어 패키지의 모든 최근 버전을 사용할 수 있습니다.
"SENTIEON_VERSION": "201808.08"
유효한 버전은 다음과 같습니다.
201711.01
201711.02
201711.03
201711.04
201711.05
201808
201808.01
201808.03
201808.05
201808.06
201808.07
201808.08
삭제
튜토리얼을 마쳤으면 나중에 요금이 청구되지 않도록 Google Cloud에서 만든 리소스를 삭제합니다. 다음 섹션은 이러한 리소스를 삭제하거나 사용 중지하는 방법을 설명합니다.
프로젝트 삭제
비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 사용한 프로젝트를 삭제하는 것입니다.
프로젝트를 삭제하는 방법은 다음과 같습니다.
- Google Cloud 콘솔에서 프로젝트 페이지로 이동합니다.
- 프로젝트 목록에서 삭제할 프로젝트를 선택하고 프로젝트 삭제를 클릭합니다.
- 대화상자에서 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.
다음 단계
- 파이프라인에 대한 질문이 있거나 문제가 발생하면 support@sentieon.com으로 이메일을 보내주세요.