Dataflow 가격 책정
이 페이지에서는 Dataflow의 가격 책정을 설명합니다. 다른 제품의 가격을 확인하려면 가격 책정 문서를 참조하세요.
3년 약정으로 40% 또는 1년 약정으로 20% 절감 방법 알아보기 약정에 대한 자세한 내용은 약정 사용 할인 (CUD) 페이지를 참조하세요.
개요
Dataflow 사용량은 작업에서 사용한 리소스에 대해 청구됩니다. 사용하는 가격 책정 모델에 따라 비용은 다르게 측정되고 청구됩니다.
Dataflow 컴퓨팅 리소스 | Dataflow Prime 컴퓨팅 리소스 |
|
데이터 컴퓨팅 단위 (DCU) (일괄 및 스트리밍) |
기타 Dataflow 리소스 영구 디스크, GPU, 스냅샷 등 모든 작업에 대해 요금이 청구됩니다.
다른 서비스의 리소스가 Dataflow에 사용될 수 있음 작업을 수행합니다 Dataflow와 함께 사용되는 서비스에는 BigQuery, Pub/Sub, Cloud Storage, Cloud Logging 등이 있습니다
요율은 시간 기준으로 책정되지만 Dataflow는 사용 요금은 작업마다 초 단위로 청구됩니다. 사용량: 초당 사용량에 시간당 요금을 적용하기 위해 시간 단위로 명시되어야 합니다. 예를 들어 30분은 0.5시간입니다. 작업자와 작업은 다음 섹션에 설명되어 있습니다.
Dataflow의 향후 출시 버전에서는 서비스 요금이 달라질 수 있습니다. 또는 관련 서비스를 번들로 묶을 수 있습니다
Dataflow 컴퓨팅 리소스
컴퓨팅 리소스용 Dataflow 청구 다음과 같은 구성요소가 포함됩니다.
사용 가능한 리전 및 해당 영역에 대한 자세한 내용은 다음을 참조하세요. Compute Engine 리전 및 영역 있습니다.
작업자 CPU 및 메모리
각 Dataflow 작업은 Dataflow 작업자를 1개 이상 사용합니다. Dataflow 서비스에서는 일괄 및 스트리밍 작업자 유형을 제공합니다. 일괄 및 스트리밍 작업자에는 별도의 서비스 요금이 부과됩니다.
Dataflow 작업자는 다음 리소스를 사용하며 각각 요금이 청구됩니다. 1초마다:
- CPU
- 메모리
일괄 및 스트리밍 작업자는 Compute Engine을 사용하는 특수한 리소스입니다. 하지만 Dataflow 작업은 에서 관리하는 Compute Engine 리소스에 대한 Compute Engine 결제 Dataflow 서비스입니다 대신 Dataflow 서비스는 요금에는 이러한 Compute Engine 리소스 사용이 포함됩니다.
작업의 기본 작업자 수를 재정의할 수 있습니다. 자동 확장을 사용하면 작업에 할당할 최대 작업자 수를 지정합니다. 작업자 및 각 리소스는 요청에 따라 자동으로 추가 및 자동 확장 작동
또한 파이프라인 옵션 머신 유형, 디스크 유형, 디스크와 같은 기본 리소스 설정을 재정의합니다. 각 작업자에 할당되고 GPU를 사용하는 VM 인스턴스 수입니다.
FlexRS
Dataflow는 할인된 CPU 및 메모리를 제공하는 옵션 제공 비용도 많이 들 수 있습니다 Flexible Resource Scheduling(FlexRS)을 사용하면 일반 및 선점형 VM이 단일 Dataflow 작업자 풀에 결합되어 사용자에게 처리 리소스를 더욱 저렴하게 제공할 수 있습니다. 또한 FlexRS는 일괄 Dataflow 작업의 실행을 6시간 내에서 지연시켜 사용 가능한 리소스를 바탕으로 작업을 시작하기에 가장 좋은 시점을 식별합니다.
Dataflow가 작업자 조합을 사용하여 FlexRS 작업을 실행하는 경우 균일한 요금이 청구됩니다. 일반 제품 대비 CPU 및 메모리 비용을 약 40% 할인된 가격으로 Dataflow 가격은 작업자 유형을 선택합니다 FlexRS 매개변수를 지정하여 자동 확장된 일괄 파이프라인에 FlexRS를 사용하도록 Dataflow에 지시할 수 있습니다.
처리된 Dataflow Shuffle 데이터
일괄 파이프라인의 경우 Dataflow는 확장성이 뛰어난 기능을 제공하므로 Dataflow Shuffle: 작업자 외부의 데이터를 셔플합니다. 자세한 내용은 Dataflow 셔플.
Dataflow 셔플은 데이터 양을 기준으로 과금합니다. 처리되기 때문입니다.
Streaming Engine 가격 책정
스트리밍 파이프라인의 경우 Dataflow Streaming Engine은 스트리밍 셔플 및 상태 처리를 작업자 VM에서 Dataflow 서비스 백엔드입니다. 자세한 내용은 스트리밍 엔진.
Streaming Engine 컴퓨팅 단위
리소스 기반 결제를 사용하면 Streaming Engine 리소스를 Streaming Engine 컴퓨팅 단위 Dataflow는 각 작업이 사용하는 Streaming Engine 리소스를 측정함 해당 작업에서 사용한 총 리소스를 기준으로 요금이 청구됩니다 작업에 리소스 기반 결제를 사용 설정하려면 다음을 참조하세요. 리소스 기반 결제를 사용합니다. 리소스 기반 결제를 사용하면 기존 할인이 자동으로 적용됩니다.
리소스 기반 결제로 Dataflow Prime을 사용하는 경우 각 작업이 사용하는 전체 리소스에 상당한 영향을 미치지 않을 수 있지만 데이터 컴퓨팅 단위 (DCU) SKU가 Streaming Engine 컴퓨팅 단위 SKU입니다.
처리된 Streaming Engine 데이터 (기존)
Dataflow는 계속해서 기존 데이터 처리 결제를 지원해야 합니다 사용자가 리소스 기반 결제를 사용 설정하면 작업은 데이터 처리 결제를 사용하여 청구됩니다.
Streaming Engine 데이터 처리 청구는 사용량에 따라 사용량을 스트리밍 데이터 처리 시간은 다음 요인에 따라 달라집니다.
- 스트리밍 파이프라인에 수집된 데이터의 양
- 파이프라인의 복잡성
- 셔플 작업 또는 스테이트풀(Stateful) DoFn
처리된 바이트로 계산되는 항목의 예는 다음과 같습니다.
- 데이터 소스의 입력 흐름
- 하나의 통합된 파이프라인 단계에서 다른 통합 단계로의 데이터 흐름
- 사용자 정의 상태로 유지되거나 윈도잉에 사용되는 데이터 흐름
- Pub/Sub 또는 BigQuery와 같은 데이터 싱크로 출력 메시지
Dataflow 컴퓨팅 리소스 가격 책정 - 일괄 및 FlexRS
다음 표에는 작업자 리소스 및 셔플의 가격 책정 세부정보가 나와 있습니다. 일괄 작업 및 FlexRS 작업에 대해 처리된 데이터를 사용할 수 있습니다.
1 일괄 작업자 기본값: vCPU 1개, 메모리 3.75GB, Persistent Disk 250GB(Dataflow를 사용하지 않는 경우) 셔플, Dataflow 셔플을 사용하는 경우 Persistent Disk 25GB
2 FlexRS 작업자 기본값: vCPU 2개, 메모리 7.50GB, 작업자당 Persistent Disk 25GB, 최소 작업자 2개
Dataflow 컴퓨팅 리소스 가격 책정 - 스트리밍
다음 표에는 작업자 리소스, 스트리밍에 대한 가격 책정 세부정보가 나와 있습니다. 처리된 엔진 데이터 (기존) 및 스트리밍을 위한 Streaming Engine 컴퓨팅 단위 확인할 수 있습니다
3 스트리밍 작업자 기본값: vCPU 4개, 메모리 15GB, Persistent Disk 400GB Streaming Engine을 사용하지 않는 경우, 30GB(Streaming Engine을 사용하는 경우) Persistent Disk 이 Dataflow 서비스는 현재 작업자 인스턴스당 영구 디스크 15개로 제한되며 스트리밍 작업 실행입니다 작업자와 디스크 간 1:1 비율이 최소 리소스 할당입니다.
4 Dataflow Shuffle 가격은 처리된 데이터의 양에 적용되는 볼륨 조정을 기준으로 책정됩니다. 읽기 및 쓰기 작업 도중에 이 작업을 처리할 수 없습니다 자세한 내용은 Dataflow Shuffle 가격 책정 세부정보를 참조하세요. 리소스 기반 결제를 사용하는 Streaming Engine 작업에는 Dataflow Shuffle 가격이 적용되지 않습니다.
5 Streaming Engine 컴퓨팅 단위: Streaming Engine 및 리소스 기반 청구 모델을 사용하는 스트리밍 작업에 사용됩니다. 이러한 작업에는 셔플 중에 처리된 데이터에 대한 요금이 청구되지 않습니다.
처리된 Dataflow Shuffle 데이터의 볼륨 조정
요금은 Dataflow 작업당 계산되어 총 Dataflow Shuffle 작업 중에 처리된 데이터입니다. Dataflow Shuffle 처리된 데이터의 실제 청구서에서는 Dataflow 작업에서 처리된 데이터보다 적은 양의 데이터에 대한 정상가가 청구됩니다. 이러한 차이로 인해 처리된 청구 가능 셔플 데이터 측정항목이 처리된 총 셔플 데이터 측정항목입니다.
다음 표에서는 조정이 적용되는 방식을 설명합니다.
처리된 Dataflow Shuffle 데이터 | 결제 조정 |
처음 250GB | 75% 절감 |
이후 4,870GB | 50% 절감 |
5,120GB(5TB)를 초과하는 나머지 데이터 | 없음 |
예를 들어 파이프라인에서 처리된 Dataflow 셔플 데이터가 총 1,024GB (1TB)인 경우 청구 가능 금액은 다음과 같이 계산됩니다.
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
파이프라인에서 처리된 Dataflow Shuffle 데이터가 총 10, 240GB (10TB)인 경우 청구 가능한 데이터 양은 다음과 같습니다.
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Dataflow Prime 컴퓨팅 리소스 가격 책정
Dataflow Prime 는 Dataflow를 기반으로 빌드된 데이터 처리 플랫폼으로 리소스 사용률 및 분산 진단 개선
Dataflow Prime 작업에서 사용하는 컴퓨팅 리소스는 데이터 수에 따라 책정됩니다. 컴퓨팅 단위 (DCU) DCU는 애플리케이션에 할당된 컴퓨팅 리소스를 파이프라인을 실행할 수 있습니다 기타 Dataflow 리소스 Persistent Disk, GPU, 스냅샷 등 Dataflow Prime 작업에서 사용되는 별도로 청구됩니다
사용 가능한 리전 및 해당 영역에 대한 자세한 내용은 다음을 참조하세요. Compute Engine 리전 및 영역 있습니다.
데이터 컴퓨팅 단위
데이터 컴퓨팅 단위 (DCU)는 Dataflow 사용량 측정 단위입니다. 작업에서 소비하는 컴퓨팅 리소스 수를 추적합니다. 추적된 리소스 vCPU, 메모리, 처리된 Dataflow 셔플 데이터 포함 (일괄 작업의 경우), 처리된 Streaming Engine 데이터 (스트리밍 작업의 경우)입니다. 취업정보 리소스를 많이 소비하는 작업이 소비하는 작업에 비해 DCU 사용량이 더 많습니다. 리소스를 줄일 수 있습니다 하나의 DCU는 단일 가상 머신이 사용하는 리소스와 vCPU 1개와 4GB 작업자에서 1시간 동안 실행되는 Dataflow 작업입니다.
데이터 컴퓨팅 단위 청구
작업에서 사용한 총 DCU 수에 대한 요금이 청구됩니다. 단일 DCU의 가격은 일괄 작업 또는 스트리밍 작업이 있을 수 있습니다. Dataflow Prime을 사용하는 경우 리소스 기반 결제를 사용하는 경우 바이트 프로세스 대신 사용한 총 리소스를 기준으로 요금이 청구됩니다.
데이터 컴퓨팅 단위 사용량 최적화
작업의 DCU 수를 설정할 수 없습니다. DCU는 Dataflow Prime에서 계산됩니다. 그러나 다음을 관리하면 소비되는 DCU 수를 줄일 수 있습니다. 업무 측면에서 다음과 같이 할 수 있습니다.
- 메모리 소비 줄이기
- 필터, 컴바이너, 효율적인 코더를 사용하여 셔플 단계에서 처리되는 데이터 양 줄이기
이러한 최적화를 확인하려면 Dataflow 모니터링 인터페이스 실행 세부정보 인터페이스가 있습니다
Dataflow Prime 가격과 Dataflow 가격은 어떻게 다른가요?
Dataflow에서는 서로 다른 리소스에 대해 요금이 청구됨 vCPU, 메모리, 영구 디스크, vCPU 및 BigQuery가 처리하는 데이터 양 등 Dataflow 셔플 또는 스트리밍 엔진
데이터 컴퓨팅 단위는 스토리지를 제외한 모든 리소스를 연결합니다. 영구 디스크 리소스 및 작업 유형, 배치 또는 스트리밍에 따라 소비된 DCU의 수입니다. 자세한 내용은 Dataflow Prime 사용을 참조하세요.
Dataflow 가격 책정 모델을 사용하는 기존 작업은 어떻게 되나요?
기존 일괄 및 스트리밍 작업에 대한 요금은 계속 청구됩니다. Dataflow 모델입니다. 작업을 Dataflow Prime을 사용하지 않는 경우 작업이 그런 다음 Persistent Disk에 대한 요금이 청구되는 Dataflow Prime 가격 책정 모델을 사용합니다. 리소스, 그리고 소비된 DCU에 대해 비용을 절감할 수 있습니다
기타 Dataflow 리소스
스토리지, GPU, 스냅샷, 기타 리소스에 대한 요금은 Dataflow 및 Dataflow Prime도 마찬가지입니다
스토리지 리소스 가격 책정
스토리지 리소스 요금은 스트리밍, 일괄, FlexRS에 대해 동일한 요율로 청구됩니다. 확인할 수 있습니다 이때 파이프라인 옵션을 사용하여 기본 디스크 크기나 디스크 유형을 변경합니다. Dataflow Prime은 다음 표를 참조하세요.
Dataflow 서비스는 현재 영구 디스크 15개로 제한됩니다. 작업자 인스턴스당 할당량을 제공합니다. 각 영구 디스크는 로컬 개별 Compute Engine 가상 머신에 액세스할 수 있습니다 A/B 테스트와 작업자와 디스크는 최소 리소스 할당량입니다.
Streaming Engine을 사용하는 작업은 30GB 사용 사용할 수 있습니다 Dataflow Shuffle을 사용하는 작업 25GB 부팅 디스크를 사용합니다 이러한 서비스를 사용하지 않는 일자리의 경우 각 영구 디스크의 기본 크기는 일괄 모드에서 250GB이고 스트리밍 모드에서 400GB
Compute Engine 사용량은 평균 작업자 수를 기준으로 하지만
영구 디스크 사용량은 --maxNumWorkers
의 정확한 값을 기준으로 합니다. 영구 디스크
각 작업자에 동일한 수의 연결된 디스크가 포함되도록 재분배됩니다.
GPU 리소스 가격 책정
GPU 리소스는 스트리밍 작업과 일괄 작업에 동일한 요율로 청구됩니다. FlexRS 은 현재 GPU를 지원하지 않습니다. 사용 가능한 리전 및 영역에 대한 자세한 내용은 다음을 참조하세요. GPU 리전 및 영역 가용성 Compute Engine 문서에서 확인할 수 있습니다
스냅샷
스트리밍 파이프라인의 안정성을 관리하려면 스냅샷을 사용하여 파이프라인 상태를 저장 및 복원합니다. 스냅샷 사용량은 다음 요인에 따라 저장된 데이터 양에 따라 청구됩니다.
- 스트리밍 파이프라인에 수집된 데이터의 양
- 기간 설정 로직
- 파이프라인 단계 수
Dataflow를 사용해 스트리밍 작업의 스냅샷을 생성할 수 있음 Google Cloud CLI에 액세스할 수 있습니다 스냅샷에서 작업을 만들어 파이프라인의 상태를 복원하는 데는 추가 비용이 들지 않습니다. 자세한 내용은 Dataflow 스냅샷 사용
스냅샷 가격 책정
컨피덴셜 VM
Dataflow용 컨피덴셜 VM은 작업자 Compute Engine VM에 대한 액세스를 제공합니다 자세한 내용은 컨피덴셜 VM 개요
Dataflow에 컨피덴셜 VM을 사용하면 GB당 비용이 청구됩니다
컨피덴셜 VM 가격 책정
가격은 전역적이며 Google Cloud 리전에 따라 변경되지 않습니다.
Dataflow가 아닌 리소스
Dataflow 사용량 외에도 작업에서 다음을 사용할 수도 있습니다. 리소스별로 비용이 청구되며 각각에 따라 요금이 청구되며 여기에는 다음이 포함되지만 이에 국한되지 않습니다.
-
Dataflow 작업은 Cloud Storage를 사용하여 파이프라인 실행 중에 임시 파일을 저장합니다. 불필요한 스토리지 비용이 청구되지 않도록 하려면 Dataflow 작업에서 임시 스토리지에 사용하는 버킷에서 소프트 삭제 기능을 사용 중지합니다. 자세한 내용은 버킷에서 소프트 삭제 정책 삭제를 참조하세요.
-
로그를 다른 대상으로 라우팅하거나 수집에서 로그를 제외합니다. Dataflow의 로그 볼륨 최적화에 대한 정보 Dataflow 로그 볼륨 제어를 참조하세요.
리소스 사용량 보기
연결된 총 vCPU, 메모리, Persistent Disk 리소스를 확인할 수 있습니다. 리소스 측정항목 아래의 작업 정보 패널에 작업이 표시됩니다. 나 다음 측정항목을 추적할 수 있습니다. Dataflow 모니터링 인터페이스:
- 총 vCPU 시간
- 총 메모리 사용 시간
- 총 영구 디스크 사용 시간
- 처리된 총 스트리밍 데이터
- 처리된 총 셔플 데이터
- 처리된 청구 가능한 셔플 데이터
처리된 총 셔플 데이터 측정항목을 사용하여 파이프라인 및 처리된 청구 가능한 셔플 데이터 측정항목을 통해 비용을 확인할 수 있습니다. Dataflow 작업의 세부정보입니다.
Dataflow Prime의 경우 작업에서 소비한 총 DCU 수를 확인할 수 있습니다. 리소스 측정항목 아래의 작업 정보 패널에 표시됩니다.
가격 계산기
Google Cloud 가격 계산기를 사용하면 청구액이 어떻게 계산되는지 이해하는 데 도움이 됩니다.
USD 외의 통화로 지불하는 경우 Cloud Platform SKU에 해당 통화로 표기된 가격이 적용됩니다.
다음 단계
- Dataflow 문서 읽어보기
- Dataflow 시작하기
- 가격 계산기 사용해 보기
- Dataflow 솔루션 및 사용 사례 알아보기