이 페이지에서는 Cloud Life Sciences에서 Batch로 마이그레이션하는 방법을 설명합니다.
2023년 7월 17일, Google Cloud에서는 베타 버전으로 제공되었던 Cloud Life Sciences가 지원 중단된다고 발표했습니다. 2025년 7월 8일 이후에는 Google Cloud에서 이 서비스를 더 이상 사용할 수 없습니다. 하지만 Batch는 정식 버전으로 제공되며 Cloud Life Sciences의 모든 사용 사례를 지원하는 포괄적인 후속 제품입니다.
Batch, Cloud Life Sciences, 제품 출시 단계에 대해 자세히 알아보세요.
Cloud Life Sciences와 Batch 비교
Cloud Life Sciences에서 Batch로 마이그레이션하려면 먼저 Cloud Life Sciences 파이프라인을 실행하여 현재 실행 중인 워크로드에 Batch를 사용하는 방법을 이해해야 합니다.
Batch에서 Cloud Life Sciences 워크로드를 실행하는 방법을 알아보려면 다음 섹션을 모두 참고하세요.
개요
Cloud Life Sciences 파이프라인은 실행할 작업(컨테이너) 시퀀스와 컨테이너를 실행할 환경을 설명합니다.
Batch 작업은 하나 이상의 작업 배열과 이러한 작업을 실행할 환경을 설명합니다. 작업에 대한 워크로드를 실행할 하나 이상의 실행 가능 항목(컨테이너 또는 스크립트)의 단일 시퀀스로 정의합니다. 작업의 각 태스크는 실행 가능한 해당 시퀀스 중 하나의 실행을 나타냅니다.
Cloud Life Sciences 파이프라인은 단일 태스크 Batch 작업으로 표현될 수 있습니다.
예를 들어 다음 샘플은 간단한 Cloud Life Sciences 파이프라인과 이에 상응하는 Batch 작업을 설명합니다.
Cloud Life Sciences 파이프라인 | Batch 작업 |
---|---|
{ "actions": [ { "imageUri": "bash", "commands": [ "-c", "echo Hello, world!" ] } ] } |
{ "taskGroups" : [{ "taskSpec" : { "runnables" : [{ "container":{ "imageUri": "bash", "commands": [ "-c", "echo Hello, world!" ] } }] } }] } |
다중 태스크 Batch 작업은 복사된 Cloud Life Sciences 파이프라인과 비슷합니다.
Cloud Life Sciences와 달리 Batch를 사용하면 워크로드의 여러 실행을 자동으로 예약할 수 있게 해줍니다. 태스크 수를 정의하여 한 작업에 대해 실행 가능한 시퀀스를 실행할 횟수를 나타냅니다. 작업에 여러 태스크가 있는 경우 실행 가능한 항목의 태스크 색인을 참조하여 각 실행의 다양한 방식을 지정합니다. 또한 작업 태스크에 대한 상대적 일정을 구성할 수 있습니다. 예를 들어 여러 태스크를 동시에 실행하거나 한 번에 하나씩 작업을 순차적으로 실행해야 할 수 있습니다. Batch는 작업의 태스크 일정을 관리합니다. 태스크가 완료되면 작업에서 다음 태스크(있는 경우)를 자동으로 시작합니다.
예를 들어 다음 Batch 작업을 참조하세요. 이 예시 작업에는 10개의 Compute Engine 가상 머신(VM) 인스턴스에서 실행되는 100개의 태스크가 있으므로 주어진 시간에 동시에 실행되는 태스크는 약 10개입니다. 이 예시 작업의 각 태스크는 BATCH_TASK_INDEX
라는 사전 정의된 환경 변수로 정의된 메시지와 태스크의 색인을 출력하는 스크립트만 실행합니다.
{
"taskGroups" : [{
"taskSpec" : {
"runnables" : [{
"script":{
"text": "echo Hello world! This is task ${BATCH_TASK_INDEX}."
}
}]
},
"taskCount": 100,
"parallelism": 10
}]
}
유사한 여러 Cloud Life Sciences 파이프라인의 생성 및 모니터링이 포함된 워크플로는 경우에 따라 Batch의 기본 제공 예약을 활용하여 간소화할 수 있습니다.
기본 작업
이 섹션에서는 Cloud Life Sciences와 Batch의 기본 작업을 비교하여 설명합니다.
다음 표에는 Cloud Life Sciences 및 Batch의 기본 작업 옵션이 요약되어 있습니다.
기본 작업 | Cloud Life Sciences 옵션 | Batch 옵션 |
---|---|---|
워크로드 실행 |
|
|
모든 워크로드 보기 |
|
|
워크로드의 세부정보와 상태를 확인합니다. |
|
|
워크로드를 중지하고 삭제합니다. |
|
|
Cloud Life Sciences와 Batch의 기본 작업에는 몇 가지 주요 차이점이 있습니다.
먼저 장기 실행 작업 리소스는 Batch에서 Cloud Life Sciences와 동일한 역할을 하지 않습니다.
Cloud Life Sciences의 장기 실행 작업 리소스(LRO)는 파이프라인을 나열하고 보는 데 사용되는 기본 리소스입니다. 하지만 Batch 및 기타 Google Cloud API의 장기 실행 작업 리소스는 완료하는 데 시간이 오래 걸리는 요청의 상태를 모니터링하는 데만 사용됩니다. 특히 Batch에서 장기 실행 작업 리소스를 반환하는 유일한 요청은 작업 삭제입니다.
Batch용 장기 실행 작업 리소스에 대한 자세한 내용은 projects.locations.operations
REST 리소스의 Batch API 참조 문서를 참조하세요.
장기 실행 작업 리소스를 사용하는 대신 Batch에는 워크로드에 대해 보고 삭제하는 작업 리소스가 있습니다.
둘째, Batch에서 워크로드의 세부 정보를 보는 것은 Cloud Life Sciences와 다른 작업을 포함합니다. 작업을 확인하여 세부정보와 상태를 모두 볼 수 있습니다. 하지만 각 작업의 태스크에는 작업의 태스크 목록과 작업의 세부 정보에서 확인할 수 있는 고유한 세부 정보와 상태도 있습니다.
Cloud Life Sciences와 Batch에 대한 기본 작업을 더 자세히 이해할 수 있도록 다음 섹션에서는 이러한 기본 작업 중 일부에 대한 Google Cloud CLI 명령어 및 API 요청 경로의 예시를 제공합니다.
gcloud CLI 명령어 예시
gcloud CLI의 경우 Cloud Life Sciences 명령어는 gcloud beta lifesciences
로 시작하고 Batch 명령어는 gcloud batch
로 시작합니다.
예를 들어 다음 gcloud CLI 명령어를 참조하세요.
Cloud Life Sciences 예시 gcloud CLI 명령어:
파이프라인 실행
gcloud beta lifesciences pipelines run \ --project=PROJECT_ID \ --regions=LOCATION \ --pipeline-file=JSON_CONFIGURATION_FILE
장기 실행 작업에 대한 세부정보를 가져옵니다.
gcloud beta lifesciences operations describe OPERATION_ID
다음을 바꿉니다.
PROJECT_ID
: 프로젝트의 프로젝트 ID입니다.LOCATION
: 파이프라인의 위치입니다.JSON_CONFIGURATION_FILE
: 파이프라인의 JSON 구성 파일입니다.OPERATION_ID
: 파이프라인 실행 요청에 의해 반환된 장기 실행 작업의 식별자입니다.
gcloud CLI 명령어 Batch 예시는 다음과 같습니다.
작업 생성 및 실행
gcloud batch jobs submit JOB_NAME \ --project=PROJECT_ID \ --location=LOCATION \ --config=JSON_CONFIGURATION_FILE
작업 세부정보 보기
gcloud batch jobs describe JOB_NAME \ --project=PROJECT_ID \ --location=LOCATION \
작업의 태스크 목록 확인
gcloud batch tasks list \ --project=PROJECT_ID \ --location=LOCATION \ --job=JOB_NAME
태스크 세부정보 보기
gcloud batch tasks describe TASK_INDEX \ --project=PROJECT_ID \ --location=LOCATION \ --job=JOB_NAME \ --task_group=TASK_GROUP
작업 삭제 및 취소
gcloud batch jobs delete JOB_NAME \ --project=PROJECT_ID \ --location=LOCATION
다음을 바꿉니다.
JOB_NAME
: 작업의 이름입니다.PROJECT_ID
: 프로젝트의 프로젝트 ID입니다.LOCATION
: 작업의 위치입니다.JSON_CONFIGURATION_FILE
: 작업의 구성 세부정보가 포함된 JSON 파일의 경로입니다.TASK_INDEX
: 세부정보를 보려는 태스크의 색인입니다. 태스크 그룹의 태스크 색인은 첫 번째 태스크에서 0부터 시작하여 태스크를 추가할 때마다 1씩 증가합니다. 예를 들어 태스크 4개가 포함된 태스크 그룹의 색인은0
,1
,2
,3
입니다.TASK_GROUP_NAME
: 세부정보를 보려는 태스크 그룹의 이름입니다. 값을group0
으로 설정해야 합니다.
API 요청 경로 예시
API의 경우 Cloud Life Sciences는 lifesciences.googleapis.com
요청 경로를 사용하고 Batch는 batch.googleapis.com
요청 경로를 사용합니다.
예를 들어 다음 API 요청 경로를 참고하세요. Cloud Life Sciences와 달리 Batch에는 RPC API가 없으며 REST API만 있습니다.
Cloud Life Sciences 예시 API 요청 경로는 다음과 같습니다.
파이프라인 실행
POST https://lifesciences.googleapis.com/v2beta/projects/PROJECT_ID/locations/LOCATION/pipelines:run
장기 실행 작업에 대한 세부정보를 가져옵니다.
GET https://lifesciences.googleapis.com/v2beta/projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID
다음을 바꿉니다.
PROJECT_ID
: 프로젝트의 프로젝트 ID입니다.LOCATION
: 파이프라인의 위치입니다.OPERATION_ID
: 파이프라인 실행 요청에 의해 반환된 장기 실행 작업의 식별자입니다.
API 요청 경로의 Batch 예시는 다음과 같습니다.
작업 생성 및 실행
POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs?job_id=JOB_NAME
작업 세부정보 보기
GET https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs/JOB_NAME
작업의 태스크 목록 확인
GET https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs/JOB_NAME/taskGroups/TASK_GROUP/tasks
작업 삭제
DELETE https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs/JOB_NAME
작업 삭제 요청의 상태 확인
GET https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID
다음을 바꿉니다.
IAM 역할 및 권한
이 섹션에서는 Cloud Life Sciences 및 Batch의 Identity and Access Management 역할 및 권한의 차이점을 요약합니다. 역할 및 권한에 대한 자세한 내용은 IAM 기본 및 사전 정의된 역할 참조를 확인하세요.
다음 표에서는 Cloud Life Sciences 사용자에게 필요한 사전 정의된 역할과 해당 권한을 설명합니다.
Cloud Life Sciences 역할 | 권한 |
---|---|
다음 중 하나인 경우:
|
|
프로젝트에 대한 Cloud Life Sciences 뷰어(roles/lifesciences.viewer ) |
|
다음 표에는 Batch에 대해 사전 정의된 역할과 해당 권한이 나와 있습니다. Cloud Life Sciences와 달리 Batch는 작업에 대한 사용자 및 서비스 계정에 대한 권한을 부여해야 합니다. IAM 요구사항에 대한 자세한 내용은 Batch 기본 요건을 참조하세요.
사용자의 Batch 역할 | 권한 |
---|---|
프로젝트에 대한 Batch 작업 편집자(roles/batch.jobsEditor ) |
|
프로젝트의 Batch 작업 뷰어(roles/batch.jobsViewer ) |
|
작업의 서비스 계정에 대한 서비스 계정 사용자(roles/iam.serviceAccountUser ) |
|
서비스 계정의 Batch 역할 | 권한 |
프로젝트에 대한 Batch 에이전트 보고자(roles/batch.agentReporter ) |
|
해당 기능
다음 표에는 Cloud Life Sciences의 기능, 이에 상응하는 Batch의 기능과 두 기능 간의 차이점에 관한 세부정보가 나와 있습니다.
각 기능은 설명 및 JSON 구문으로 표시됩니다. API를 통해 Batch에 액세스할 때 또는 Google Cloud CLI를 통해 JSON 구성 파일을 지정할 때 JSON 문법을 사용할 수 있습니다. 그러나 Batch 문서에 설명된 다른 방법(Google Cloud 콘솔 필드, 플래그 gcloud CLI, 클라이언트 라이브러리) 등을 통해 Batch 기능을 사용할 수도 있습니다.
각 기능 및 해당 JSON 구문에 관한 자세한 내용은 다음을 참고하세요.
Cloud Life Sciences의 경우
projects.locations.pipelines
REST 리소스에 대한 Cloud Life Sciences API 참조 문서를 참조하세요.Batch의 경우
projects.locations.jobs
REST 리소스에 대한 Batch API 참고 문서를 참조하세요.
Cloud Life Sciences 기능 | Batch 기능 | 세부정보 |
---|---|---|
파이프라인(pipeline ) |
작업(job ) 및 해당 태스크(taskGroups[] ) |
Batch 작업은 각각 동일한 실행 가능 항목을 모두 실행하는 하나 이상의 태스크 배열로 구성됩니다. Cloud Life Sciences 파이프라인은 태스크가 하나인 Batch 작업과 유사합니다. 하지만 Cloud Life Sciences에는 파이프라인의 반복과 같은 (다중 작업이 있는) 태스크에 해당하는 개념이 없습니다. 작업 및 태스크에 대한 자세한 내용은 Batch 개요를 참조하세요. |
파이프라인의 작업(actions[] ) |
작업의 태스크 실행 가능(runnables[] ) |
Cloud Life Sciences 작업은 컨테이너를 설명하지만 Batch 실행 가능 항목에는 컨테이너 또는 스크립트가 포함될 수 있습니다. |
작업의 사용자 인증 정보(credentials ) |
컨테이너 실행 가능 항목의 경우: |
Cloud Life Sciences에서 작업의 사용자 인증 정보는 사용자 이름 및 비밀번호 키-값 쌍이 포함된 Cloud Key Management Service 암호화 사전이어야 합니다. Batch에서 실행 가능한 컨테이너에 대한 사용자 이름과 비밀번호는 별도의 필드에 있습니다. 두 필드 중 하나는 일반 텍스트 또는 Secret Manager 보안 비밀 이름으로 지정할 수 있습니다. |
작업의 경우:
|
환경의 경우
가능한 환경:
|
Cloud Life Sciences를 사용하면 일반 텍스트 또는 암호화된 사전 형식의 작업 환경 변수를 지정할 수 있습니다.
Batch에서 이것은 일반 텍스트( 하지만 Batch에는 환경 변수를 지정하기 위한 추가 옵션도 있습니다.
자세한 내용은 환경 변수 사용을 참조하세요. |
파이프라인 실행을 위한 요청 라벨(요청 본문의 labels ) |
작업 라벨(작업 리소스에서 labels ) |
Cloud Life Sciences와 달리 Batch는 새 라벨을 만들기 위한 요청에 라벨 필드를 포함하지 않습니다. Batch에 가장 가까운 옵션은 작업과 연결된 라벨만 사용하는 것입니다. Batch에는 작업을 만들 때 사용할 수 있는 여러 유형의 라벨( |
파이프라인 리소스(resources )의 리전(regions[] ) 및 영역(zones[] ) |
작업의 리소스 위치 정책(locationPolicy )에 허용되는 위치(allowedLocations ) |
Cloud Life Sciences에서 파이프라인은 원하는 리전 또는 영역을 지정할 수 있는 단일 VM에서 실행됩니다. Batch에서 이에 상응하는 옵션은 작업에 대해 허용되는 위치로, 하나 이상의 리전 또는 영역으로 정의하여 작업에 대한 VM을 만들 수 있는 위치를 지정할 수 있습니다. 단일 Batch 작업의 모든 VM은 특정 리전에 있는 단일 관리형 인스턴스 그룹(MIG)에 속합니다. 그러나 개별 VM은 해당 리전의 다른 영역에 있을 수 있습니다. 특히 작업에 대해 허용된 위치 필드를 지정하는 것은 작업 위치와 별개이므로 선택 사항입니다. 작업 위치와 달리 허용된 위치는 Batch 작업을 만들고 작업 메타데이터를 저장하는 데 사용되는 위치에 영향을 미치지 않습니다. 자세한 내용은 Batch 위치를 참조하세요. |
파이프라인의 리소스의 경우(
|
작업 리소스 정책(
|
Cloud Life Sciences에서는 파이프라인이 실행되는 VM(하나)을 구성할 수 있습니다. Batch에서는 작업의 리소스 할당 정책(
|
작업의 경우:
|
실행 가능한 항목의 경우:
|
Cloud Life Sciences의 이러한 다양한 편의 플래그는 각 작업(컨테이너) 대신 실행 가능 항목(스크립트 또는 컨테이너를 포함할 수 있음)에 대해 지정된다는 점을 제외하면 Batch에서 동일합니다. |
작업의 경우:
|
실행 가능한 컨테이너의 옵션(options ) |
이러한 Cloud Life Sciences 옵션(및 기타)은 Batch에서 실행 가능한 컨테이너의 옵션 필드( |
작업의 경우:
|
적용되지 않습니다. |
Batch는 작업의 로그 정책( |
작업에 대한 외부 네트워크(blockExternalNetwork )를 차단하는 옵션 |
실행 가능한 컨테이너에 대해 외부 네트워크(blockExternalNetwork )를 차단하는 옵션 |
작업에 대해 외부 네트워크를 차단하는 Cloud Life Sciences 옵션은 컨테이너에 대한 외부 네트워크를 차단하는 Batch 옵션과 유사합니다. Batch에는 작업의 모든 VM에 대한 외부 네트워크를 차단하는 등 다른 여러 네트워킹 옵션도 있습니다. 자세한 내용은 Batch 네트워킹 개요를 참조하세요. |
작업에 대한 마운트(mounts[] ) |
모든 실행 가능 항목에 대한 볼륨(taskSpec 의 volumes[] ) 및 컨테이너에 대한 볼륨 옵션(container 의 volumes[] ) |
Batch에서 또한 Batch는 Batch에서 스토리지 볼륨을 사용하는 방법에 관한 자세한 내용은 스토리지 볼륨을 사용하는 작업 만들기 및 실행을 참고하세요. |
작업에 Cloud Storage FUSE(enableFuse )를 사용 설정하는 옵션 |
적용되지 않습니다. |
Batch는 작업에 대해 지정한 Cloud Storage 버킷과 같은 스토리지 볼륨 마운트를 처리합니다.
따라서 Cloud Storage FUSE와 같은 마운트 도구를 Batch에 사용 설정하지 않습니다. 하지만 Batch에서 Cloud Storage 버킷을 사용하는 방법에 대한 자세한 내용은 스토리지 볼륨을 사용하는 작업 만들기 및 실행을 참조하세요. |
파이프라인 실행 요청에 대한 Pub/Sub 주제(pubSubTopic ) |
작업의 알림 구성의 경우(
|
Batch를 사용하면 Cloud Life Sciences보다 상태 업데이트를 더 세부적으로 맞춤설정할 수 있습니다. 예를 들어 Batch 사용자는 개별 태스크 상태가 변경되거나 전체 작업 상태가 변경될 때만 Pub/Sub 주제에 대한 알림을 받을 수 있습니다. |
워크플로 서비스
Cloud Life Sciences에서 워크플로 서비스를 사용하는 경우 마이그레이션 프로세스에는 Batch에서 작동하도록 워크플로 서비스를 구성하는 작업도 포함합니다. 이 섹션에서는 Batch에서 사용할 수 있는 워크플로 서비스를 요약합니다.
Batch는 Google Cloud의 워크플로 서비스인 Workflows를 지원합니다. Batch에서 Workflows를 사용하려면 Workflows를 사용하여 Batch 작업 실행을 참조하세요. 그렇지 않은 경우 다음 표에서는 Batch에서도 사용할 수 있는 Cloud Life Sciences에 사용할 수 있는 다른 워크플로 서비스를 설명합니다. 이 표에는 Cloud Life Sciences 대신 Batch에서 각 워크플로 서비스를 사용할 때의 주요 차이점과 각 서비스를 Batch와 함께 사용하는 방법에 대해 자세히 알아볼 수 있는 위치에 대한 세부정보가 나열되어 있습니다.
워크플로 서비스 | 주요 차이점 | 세부정보 |
---|---|---|
Cromwell |
Batch API와 함께 v2beta Cloud Life Sciences API용 Cromwell 구성 파일을 사용하려면 다음과 같이 변경합니다.
|
Cromwell에서 Batch를 사용하는 방법에 대한 자세한 내용은 Batch용 Cromwell 문서 및 Batch용 Cromwell 튜토리얼을 참조하세요. |
dsub |
Batch와 함께 Cloud Life Sciences용 dsub 실행 파이프라인을 사용하려면 다음과 같이 변경합니다.
|
dsub에서 Batch를 사용하는 방법에 대한 자세한 내용은 Batch용 dsub 문서를 참조하세요. |
Nextflow |
Batch와 함께 Cloud Life Sciences용 Nextflow 구성 파일을 사용하려면 다음과 같이 변경합니다.
|
Nextflow에서 Batch를 사용하는 방법에 대한 자세한 내용은 Batch 튜토리얼 또는 Nextflow 튜토리얼을 참조하세요. 구성 옵션에 대한 자세한 내용은 Nextflow 문서를 참조하세요. |
Snakemake |
Batch API와 함께 v2beta Cloud Life Sciences API용 Snakemake 파이프라인을 사용하려면 다음과 같이 변경합니다.
|
Snakemake에서 Batch를 사용하는 방법에 대한 자세한 내용은 Batch용 Snakemake 문서를 참고하세요. |