Dataflow 작업자 VM 구성

이 문서에서는 Dataflow 작업의 작업자 VM을 구성하는 방법을 설명합니다.

기본적으로 Dataflow는 작업을 실행하는 작업자 VM의 머신 유형과 함께 Persistent Disk의 크기와 유형을 선택합니다. 작업자 VM을 구성하려면 작업을 만들 때 다음 파이프라인 옵션을 설정합니다.

머신 유형

Dataflow에서 작업자 VM을 시작할 때 사용하는 Compute Engine 머신 유형입니다. 커스텀 머신 유형을 포함하여 x86 또는 Arm 머신 유형을 사용할 수 있습니다.

자바

workerMachineType 파이프라인 옵션을 설정합니다.

Python

machine_type 파이프라인 옵션을 설정합니다.

Go

worker_machine_type 파이프라인 옵션을 설정합니다.

Arm의 경우 Tau T2A 머신 시리즈가 지원됩니다. Arm VM 사용 방법에 대한 자세한 내용은 Dataflow에서 Arm VM 사용을 참조하세요.
Dataflow의 서비스수준계약에서는 f1 및 g1 시리즈 작업자와 같은 공유 코어 머신 유형이 지원되지 않습니다.
청구되는 요금은 머신 유형과는 무관합니다. 자세한 내용은 Dataflow 가격 책정을 참조하세요.

커스텀 머신 유형

커스텀 머신 유형을 지정하려면 FAMILY-vCPU-MEMORY 형식을 사용합니다. 다음을 바꿉니다.

FAMILY. 다음 값 중 하나를 사용합니다.

머신 계열	값
N1	`custom`
N2	`n2-custom`
N2D	`n2d-custom`
N4 스트리밍 작업의 경우 Streaming Engine을 사용 설정해야 합니다. 일괄 작업의 경우 Dataflow Shuffle을 사용 설정해야 합니다(기본값).	`n4-custom`
E2	`e2-custom`

vCPU. vCPU 수입니다.
MEMORY. 메모리(MB)입니다.

확장 메모리를 사용 설정하려면 -ext를 머신 유형에 추가합니다. 예를 들면 n2-custom-6-3072, n2-custom-2-32768-ext입니다.

유효한 커스텀 머신 유형에 대한 자세한 내용은 Compute Engine 문서의 커스텀 머신 유형을 참조하세요.

디스크 유형

사용할 Persistent Disk 유형입니다.

Streaming Engine 또는 N4 머신 유형을 사용할 때는 Persistent Disk를 지정하지 마세요.

자바

workerDiskType 파이프라인 옵션을 설정합니다.

Python

worker_disk_type 파이프라인 옵션을 설정합니다.

Go

disk_type 파이프라인 옵션을 설정합니다.

디스크 유형을 지정하려면 compute.googleapis.com/projects/PROJECT_ID/zones/ZONE/diskTypes/DISK_TYPE 형식을 사용합니다.

다음을 바꿉니다.

PROJECT_ID: 프로젝트 ID입니다.
ZONE: Persistent Disk 영역입니다(예: us-central1-b).
DISK_TYPE: 디스크 유형(pd-ssd 또는 pd-standard)입니다.

자세한 내용은 Compute Engine API 참조 페이지의 diskTypes를 참조하세요.

디스크 크기

Persistent Disk 크기입니다.

자바

diskSizeGb 파이프라인 옵션을 설정합니다.

Python

disk_size_gb 파이프라인 옵션을 설정합니다.

Go

disk_size_gb 파이프라인 옵션을 설정합니다.

이 옵션을 설정하는 경우 작업자 부팅 이미지와 로컬 로그를 고려하여 최소 30GB 이상을 지정합니다.

디스크 크기를 줄이면 사용 가능한 셔플 I/O가 줄어듭니다. Dataflow Shuffle 또는 Streaming Engine을 사용하지 않는 셔플 바인딩 작업으로 인해 런타임 및 작업 비용이 증가할 수 있습니다.

일괄 작업

Dataflow Shuffle을 사용하는 일괄 작업의 경우 이 옵션은 작업자 VM 부팅 디스크 크기를 설정합니다. Dataflow Shuffle을 사용하지 않는 일괄 작업의 경우 이 옵션은 셔플된 데이터를 저장하는 데 사용되는 디스크의 크기를 설정합니다. 부팅 디스크 크기는 영향을 받지 않습니다.

일괄 작업에서 Dataflow Shuffle을 사용하는 경우 기본 디스크 크기는 25GB입니다. 그렇지 않으면 기본값은 250GB입니다.

스트리밍 작업

Streaming Engine을 사용하는 스트리밍 작업의 경우 이 옵션은 부팅 디스크 크기를 설정합니다. Streaming Engine을 사용하지 않는 스트리밍 작업의 경우 이 옵션은 Dataflow 서비스에서 만든 각 추가 Persistent Disk의 크기를 설정합니다. 부팅 디스크는 영향을 받지 않습니다.

스트리밍 작업에서 Streaming Engine을 사용하지 않으면 실험 플래그 streaming_boot_disk_size_gb로 부팅 디스크 크기를 설정할 수 있습니다. 예를 들어 80GB 부팅 디스크를 만들려면 --experiments=streaming_boot_disk_size_gb=80을 지정합니다.

스트리밍 작업에서 Streaming Engine을 사용하는 경우 기본 디스크 크기는 30GB입니다. 그렇지 않으면 기본값은 400GB입니다.

Cloud Storage FUSE를 사용하여 Cloud Storage 버킷을 Dataflow VM에 마운트

Cloud Storage FUSE를 사용하면 Cloud Storage 버킷을 Dataflow VM에 직접 마운트할 수 있어, 소프트웨어가 해당 파일들을 로컬 파일처럼 액세스할 수 있습니다. 이러한 통합을 통해 데이터를 사전에 다운로드할 필요가 없어지며, 워크로드에 대한 데이터 액세스가 간소화됩니다. 자세한 내용은 Dataflow 및 Cloud Storage FUSE로 ML 데이터 처리를 참조하세요.

Dataflow 작업자 VM 구성

머신 유형

자바

Python

Go

커스텀 머신 유형

디스크 유형

자바

Python

Go

디스크 크기

자바

Python

Go

일괄 작업

스트리밍 작업

Cloud Storage FUSE를 사용하여 Cloud Storage 버킷을 Dataflow VM에 마운트

다음 단계