Cloud Life Sciences는 지원 중단되었으며 2025년 7월 8일 이후 Google Cloud에서 더 이상 사용할 수 없습니다. 이제 Cloud Life Sciences 사용 사례가 Batch에서 지원됩니다. 워크로드를 마이그레이션하는 방법은 Batch로 마이그레이션을 참조하세요.

Cloud Life Sciences를 사용하여 게놈 데이터 처리

이 페이지에서는 Cloud Life Sciences API를 사용하여 DNA 시퀀스(BAM 파일)가 포함된 바이너리 파일에서 색인 파일(BAI 파일)을 만드는 Genomics 파이프라인을 실행하는 방법을 보여줍니다.

BAM 파일은 일반적으로 대용량이며 게놈 뷰어를 사용하여 읽는 데 오랜 시간이 걸릴 수 있습니다. BAI 파일을 사용하여 관심 있는 게놈 위치가 포함된 BAM 파일의 일부를 찾습니다.

시작하기 전에

Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

프로젝트 선택기로 이동

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON 사용 설정

API 사용 설정

Google Cloud CLI를 설치합니다.

gcloud CLI를 초기화하려면 다음 명령어를 실행합니다.

gcloud init

Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

프로젝트 선택기로 이동

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON 사용 설정

API 사용 설정

Google Cloud CLI를 설치합니다.

gcloud CLI를 초기화하려면 다음 명령어를 실행합니다.

gcloud init

또는 이미 설치된 gcloud CLI와 함께 제공되는 Cloud Shell을 사용할 수 있습니다.

Python 3.8을 설치합니다.
Windows를 사용 중이고 Google Cloud CLI 설치 시 관련 체크박스를 선택한 경우 이 작업은 자동으로 수행됩니다.

파이프라인 실행하기

파이프라인을 실행하려면 다음 단계를 완료하세요.

BAI 파일을 저장할 버킷을 만듭니다. 버킷은 Cloud Storage에서 데이터를 보관하는 기본 컨테이너입니다. 이름이 PROJECT_ID-life-sciences인 버킷을 만들려면 gsutil mb 명령어를 실행합니다.
```
gsutil mb gs://PROJECT_ID-life-sciences
```
PROJECT_ID를 Google Cloud 프로젝트 ID로 바꿉니다. 전역적으로 고유한 버킷 이름을 사용해야 합니다.
버킷 이름 지정 요구사항을 참조하세요.
- 버킷 이름에는 소문자, 숫자, 대시(-), 밑줄(_)만 포함할 수 있습니다. 공백은 허용되지 않습니다.
- 버킷 이름은 숫자 또는 문자로 시작하고 끝나야 합니다.
- 버킷 이름은 3~63자를 포함해야 합니다. 점을 포함하는 이름은 최대 222자를 포함할 수 있으나, 점으로 구분된 각 부분은 63자 이하여야 합니다.
- 버킷 이름은 마침표로 구분된 십진수 표기 형식의 IP 주소로 표시할 수 없습니다(예: 192.168.5.4).
- 버킷 이름은 프리픽스 'goog'로 시작할 수 없습니다.
- 버킷 이름에 'google' 또는 철자를 유사하게 변경한 'g00gle' 등을 포함할 수 없습니다.
주의: 버킷 네임스페이스는 전역적이며 전체 공개로 표시되므로, 버킷 이름에 민감한 정보를 포함하면 안 됩니다.

성공하면 명령어가 다음을 반환합니다.
```
Creating gs://PROJECT_ID-life-sciences
```

파이프라인을 시작하려면 gcloud beta lifesciences pipelines run 명령어를 실행합니다.

gcloud beta lifesciences pipelines run \
    --regions us-east1 \
    --command-line 'samtools index ${BAM} ${BAI}' \
    --docker-image "gcr.io/cloud-lifesciences/samtools" \
    --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
    --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

성공하면 명령어가 다음을 반환합니다.

Running [projects/PROJECT_ID/operations/OPERATION_ID]

다음 단계에서 사용하는 OPERATION_ID를 기록합니다.

파이프라인 상태를 추적하려면 gcloud beta lifesciences operations wait 명령어를 실행합니다. OPERATION_ID를 이전 단계에서 출력된 값으로 대체합니다. 파이프라인이 완료되는 데는 몇 분 정도 걸립니다.
```
gcloud beta lifesciences operations wait OPERATION_ID
```
작업이 끝나면 다음 메시지가 반환됩니다.
```
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
```
BAI 파일이 생성되었는지 확인하려면 gsutil ls 명령어를 실행합니다.
```
gsutil ls gs://PROJECT_ID-life-sciences
```
성공하면 명령어가 다음을 반환합니다.
```
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
```

BAM 파일에서 BAI 파일을 만드는 Cloud Life Sciences API를 사용하여 파이프라인을 실행합니다. 게놈 뷰어를 사용하여 NA12878.chr20.sample.bam.bai 색인 파일로 NA12878.chr20.sample.bam BAM 파일을 검사합니다.

삭제

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

BAI 파일 삭제

생성된 BAI 파일을 삭제하고 생성된 프로젝트와 버킷은 그대로 유지하려면 gsutil rm 명령어를 실행합니다.

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

버킷 삭제

특히 이 빠른 시작을 위해서만 버킷을 만들었고 버킷이 더 이상 필요하지 않지만 프로젝트를 유지하려면 gsutil rb 명령어를 사용하여 버킷을 삭제합니다. 버킷을 삭제하면 생성된 BAI 파일도 삭제됩니다.

gsutil rb gs://PROJECT_ID-life-sciences

프로젝트 삭제

이 빠른 시작을 위해 프로젝트를 특별히 만든 후에 이 프로젝트가 더 이상 필요하지 않게 되면 프로젝트를 삭제할 수 있습니다. 프로젝트를 삭제하면 BAI 파일과 Cloud Storage 버킷도 삭제됩니다.

주의: 프로젝트를 삭제하면 다음과 같은 효과가 발생합니다.

프로젝트의 모든 항목이 삭제됩니다. 이 문서의 태스크에 기존 프로젝트를 사용한 경우 프로젝트를 삭제하면 프로젝트에서 수행한 다른 작업도 삭제됩니다.
커스텀 프로젝트 ID가 손실됩니다. 이 프로젝트를 만들 때 앞으로 사용할 커스텀 프로젝트 ID를 만들었을 수 있습니다. appspot.com URL과 같이 프로젝트 ID를 사용하는 URL을 보존하려면 전체 프로젝트를 삭제하는 대신 프로젝트 내에서 선택한 리소스만 삭제합니다.

여러 아키텍처, 튜토리얼, 빠른 시작을 살펴보려는 경우 프로젝트를 재사용하면 프로젝트 할당량 한도 초과를 방지할 수 있습니다.

Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.
리소스 관리로 이동
프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

어땠나요?

다음 단계

Cloud Life Sciences API 공개 데이터 세트 자세히 알아보기
Cloud Storage 또는 BigQuery에 변이 데이터 로드 방법 알아보기
BigQuery로 변이 분석 방법 알아보기