빠른 시작

이 페이지에서는 Cloud Genomics Pipelines API를 사용하여 DNA 시퀀스(BAM 파일)가 포함된 큰 바이너리 파일에서 색인 파일(BAI 파일)을 만드는 파이프라인을 실행하는 방법을 보여줍니다.

시작하기 전에

  1. Google 계정에 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. GCP Console에서 리소스 관리 페이지로 이동하고 프로젝트를 선택하거나 만듭니다.

    리소스 관리 페이지로 이동

  3. Google Cloud Platform 프로젝트에 결제가 사용 설정되어 있는지 확인하세요.

    결제 사용 설정 방법 알아보기

  4. 필요한 Cloud Genomics, Compute Engine, Cloud Storage JSON APIs를 사용 설정합니다.

    APIs사용 설정

  5. Cloud SDK 설치 및 초기화.
  6. 또는 Cloud SDK가 설치되어 제공되는 Google Cloud Shell을 사용할 수 있습니다.

파이프라인 실행

curl 또는 Windows PowerShell을 사용하여 파이프라인을 실행할 수 있습니다.

curl 명령어

  1. BUCKET 환경 변수를 만듭니다. 이 변수는 -genomics가 추가된 프로젝트 이름을 사용하는 클라우드 스토리지 버킷을 가리킵니다.

    export BUCKET=gs://PROJECT_ID-genomics
    
  2. gsutil mb 명령어를 사용하여 버킷을 만듭니다.

    gsutil mb ${BUCKET}
    
  3. gcloud 명령줄 도구를 사용하여 BAM 파일을 입력으로, BAI 파일을 출력으로 사용하여 파이프라인을 실행합니다. 파이프라인은 Pipelines API를 호출하고 Compute Engine VM 인스턴스를 만들고 나서 인스턴스에서 파이프라인 프로세스를 실행합니다. 프로세스가 완료되면 인스턴스가 자동으로 종료되고 BAI 파일이 클라우드 스토리지 버킷으로 복사됩니다.

    gcloud alpha genomics pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/genomics-tools/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
    

    성공하면 명령어가 다음을 반환합니다.

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    
  4. 파이프라인을 완료하는 데 몇 분이 소요됩니다. 다음 명령어를 실행하여 상태를 추적할 수 있습니다. OPERATION_ID를 이전 단계에서 출력된 값으로 대체합니다.

    gcloud alpha genomics operations wait OPERATION_ID
    

    작업이 끝나면 다음 메시지가 출력됩니다.

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  5. BAI 파일이 생성되었는지 확인합니다.

    gsutil ls ${BUCKET}
    

    명령어는 다음을 반환해야 합니다.

    gs://BUCKET/NA12878.chr20.sample.bam.bai
    

Pipelines API로 파이프라인을 실행하여 BAM 파일에서 BAI 파일을 만들었습니다.

PowerShell

  1. BUCKET 환경 변수를 만듭니다. 이 변수는 -genomics가 추가된 프로젝트 이름을 사용하는 클라우드 스토리지 버킷을 가리킵니다.

    $BUCKET = "gs://PROJECT_ID-genomics"
    
  2. gsutil mb 명령어를 사용하여 버킷을 만듭니다.

    gsutil mb ${BUCKET}
    
  3. gcloud 명령줄 도구를 사용하여 BAM 파일을 입력으로, BAI 파일을 출력으로 사용하여 파이프라인을 실행합니다. 파이프라인은 Pipelines API를 호출하고 Compute Engine VM 인스턴스를 만들고 나서 인스턴스에서 파이프라인 프로세스를 실행합니다. 프로세스가 완료되면 인스턴스가 자동으로 종료되고 BAI 파일이 클라우드 스토리지 버킷으로 복사됩니다.

    gcloud alpha genomics pipelines run `
        --regions us-east1 `
        --command-line 'samtools index ${BAM} ${BAI}' `
        --docker-image "gcr.io/genomics-tools/samtools" `
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam `
        --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
    

    성공하면 명령어가 다음을 반환합니다.

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    
  4. 파이프라인을 완료하는 데 몇 분이 소요됩니다. 다음 명령어를 실행하여 상태를 추적할 수 있습니다. OPERATION_ID를 이전 단계에서 출력된 값으로 대체합니다.

    gcloud alpha genomics operations wait OPERATION_ID
    

    작업이 끝나면 다음 메시지가 출력됩니다.

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  5. BAI 파일이 생성되었는지 확인합니다.

    gsutil ls ${BUCKET}
    

    명령어는 다음을 반환해야 합니다.

    gs://BUCKET/NA12878.chr20.sample.bam.bai
    

Pipelines API를 사용하여 파이프라인을 실행하여 BAM 파일에서 BAI 파일을 만들었습니다.

삭제

이 가이드에서 사용한 리소스 비용이 GCP 계정에 청구되지 않도록 하려면 GCP에서 생성한 리소스를 삭제하면 됩니다. 다음 섹션에는 이와 같은 리소스를 삭제하거나 사용하지 않는 방법에 대해 설명합니다.

프로젝트 삭제

이 빠른 시작을 위해 프로젝트를 특별히 만든 후에 이 프로젝트가 더 이상 필요하지 않게 되면 프로젝트를 삭제할 수 있습니다.

  1. GCP Console에서 프로젝트 페이지로 이동합니다.

    프로젝트 페이지로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.

BAI 파일 삭제

생성된 BAI 파일을 삭제하지만 생성한 프로젝트와 버킷은 유지하려면 gsutil rm 명령어를 실행합니다.

gsutil rm ${BUCKET}/NA12878.chr20.sample.bam.bai

버킷 삭제

이 빠른 시작을 위해 버킷을 특별히 생성했고 더 이상 필요하지 않지만 프로젝트를 유지하려면 gsutil rb 명령어를 사용하여 버킷을 삭제합니다. 버킷을 삭제하면 생성된 BAI 파일도 삭제됩니다.

gsutil rb ${BUCKET}

다음 단계

이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...