수평 자동 확장

수평 자동 확장을 사용하면 Dataflow가 작업에 적절한 작업자 인스턴스 수를 선택하고 필요에 따라 작업자를 추가하거나 삭제합니다. Dataflow는 작업자의 평균 CPU 사용률과 파이프라인 동시 로드에 따라 확장됩니다. 파이프라인 동시 로드는 지정된 시간에 데이터를 가장 효율적으로 처리하는 데 필요한 스레드 예측 수입니다.

수평 자동 확장은 일괄 파이프라인과 스트리밍 파이프라인 모두에서 지원됩니다.

일괄 자동 확장

기본적으로 수평 자동 확장은 모든 일괄 파이프라인에서 사용 설정되어 있습니다. Dataflow는 파이프라인의 각 단계에서 예상되는 총 작업량을 기반으로 작업자 수를 자동으로 선택합니다. 이 예상치는 입력 크기와 현재 처리량에 따라 달라집니다. Dataflow는 30초마다 실행 진행 상황에 따라 작업량을 재평가합니다. 총 예상 작업량이 증가하거나 감소하게 되면 Dataflow는 작업자 수를 동적으로 확장하거나 축소합니다.

작업자 수는 작업량에 저선형적입니다. 예를 들어 작업량은 두 배인데 작업자 수는 두 배보다 적은 작업입니다.

다음과 같은 조건이 발생하면 Dataflow는 유휴 리소스를 절약하기 위해 작업자 수를 유지하거나 줄입니다.

평균 작업자 CPU 사용량이 5% 미만입니다.
동시 로드는 압축 파일로 인한 분할할 수 없는 데이터 또는 분할되지 않은 I/O 모듈과 같은 동시 로드할 수 없는 작업으로 제한됩니다.
동시 로드 수는 고정되어 있습니다(예: Cloud Storage의 기존 파일에 쓰는 경우).

작업자 수의 상한을 설정하려면 --maxNumWorkers 파이프라인 옵션을 설정하세요. 기본값은 2,000입니다. 작업자 수의 하한을 설정하려면 --min_num_workers 서비스 옵션을 설정하세요. 이러한 플래그는 선택사항입니다.

스트리밍 자동 확장

스트리밍 작업의 경우 수평 자동 확장을 사용하면 Dataflow가 로드 및 리소스 사용률의 변화에 따라 작업자 수를 적응적으로 변경할 수 있습니다.

수평 자동 확장은 기본적으로 Streaming Engine을 사용하는 스트리밍 작업에 사용 설정되어 있습니다. Streaming Engine을 사용하지 않는 스트리밍 작업에 수평 자동 확장을 사용 설정하려면 파이프라인을 시작할 때 다음 파이프라인 옵션을 설정하세요.

Java

--autoscalingAlgorithm=THROUGHPUT_BASED
--maxNumWorkers=MAX_WORKERS

MAX_WORKERS를 최대 작업자 인스턴스 수로 바꿉니다.

Python

--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS

MAX_WORKERS를 최대 작업자 인스턴스 수로 바꿉니다.

Go

--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS

MAX_WORKERS를 최대 작업자 인스턴스 수로 바꿉니다.

작업자 수의 하한을 설정하려면 --min_num_workers 서비스 옵션을 설정하세요. 이 값을 설정하면 수평 자동 확장이 지정된 작업자 수 미만으로 확장되지 않습니다. 이 플래그는 선택사항입니다.