할당량 및 한도

할당량

Dataflow 관리형 서비스의 할당량 한도는 다음과 같습니다.

  • 각 사용자는 분당 최대 300만 개까지 요청할 수 있습니다.
  • 각 Dataflow 작업은 Compute Engine 인스턴스를 최대 1,000개까지 사용할 수 있습니다.
  • 각 Google Cloud 프로젝트는 Dataflow 작업 100개를 동시에 실행할 수 있습니다.
  • 조직 수준의 할당량을 선택하면 각 조직이 Dataflow 작업 125개를 동시에 실행할 수 있습니다.
  • 각 사용자는 분당 최대 15,000개까지 모니터링을 요청할 수 있습니다.
  • Google Cloud 프로젝트마다 160개의 Shuffle 슬롯을 가져오며, 이는 약 100TB의 데이터를 동시에 셔플하기에 충분합니다.
  • 각 Google Cloud 프로젝트는 Compute Engine 인스턴스와 스트리밍 엔진 간에 데이터가 전송되도록 클라우드 리전별로 분당 60GB스트리밍 엔진 처리량을 가져옵니다.

다음 안내를 따라 Dataflow 관련 할당량의 현재 사용량을 확인할 수 있습니다.

  1. Google Cloud Console에서 API 및 서비스로 이동합니다.
    API 및 서비스로 이동
  2. 대시보드를 클릭합니다.
  3. Dataflow API를 클릭합니다.
  4. 할당량을 클릭합니다.
    예를 들어 현재 Shuffle 슬롯 할당량 사용량을 확인하려면 할당량 페이지에서 Shuffle 슬롯 차트를 찾습니다.
    할당량 페이지의 Shuffle 슬롯

Dataflow 서비스에서는 BigQuery, Cloud Storage, Pub/Sub, Compute Engine과 같은 다양한 Google Cloud 구성요소를 실행합니다. 이러한 구성요소와 기타 Google Cloud 서비스는 할당량을 통해 프로젝트에서 사용할 수 있는 최대 리소스 수를 제한합니다. Dataflow를 사용하는 경우 이러한 서비스의 할당량 설정을 조정해야 할 수도 있습니다.

Compute Engine 할당량

Dataflow 서비스에서 파이프라인을 실행하면 Dataflow가 파이프라인 코드를 실행할 Compute Engine 인스턴스를 만듭니다.

Compute Engine 할당량은 리전별로 지정됩니다. 프로젝트의 Compute Engine 할당량을 검토한 후 필요에 따따라 다음과 같은 조정을 요청합니다.

  • CPU: Dataflow의 기본 머신 유형은 일괄 작업의 경우 n1-standard-1, 스트리밍 작업의 경우 n1-standard-4입니다. FlexRS는 n1-standard-2 머신을 기본으로 사용합니다. 베타 출시 기간 동안 FlexRS는 선점형 VM(90%)과 일반 VM(10%)을 사용합니다. Compute Engine은 각 인스턴스의 총 CPU 개수를 합산하여 CPU 수를 계산합니다. 예를 들어 n1-standard-4 인스턴스를 10개 실행하면 CPU는 40개로 집계됩니다. 머신 유형의 CPU 개수 매핑은 Compute Engine 머신 유형을 참조하세요.
  • 사용 중인 IP 주소: 프로젝트에서 사용 중인 IP 주소의 수가 원하는 인스턴스 수를 수용하기에 충분해야 합니다. Compute Engine 인스턴스를 10개 사용하려면 사용 중인 IP 주소가 10개 필요합니다.
  • Persistent Disk: Dataflow는 Persistent Disk를 각 인스턴스에 연결합니다.
    • 기본 디스크 크기는 일괄 처리의 경우 250GB, 스트리밍 파이프라인의 경우 420GB입니다. 인스턴스가 10개이면 기본적으로 일괄 작업 1개당 2,500GB의 Persistent Disk가 필요합니다.
    • Dataflow Shuffle 일괄 파이프라인의 기본 디스크 크기는 25GB입니다.
    • 스트리밍 엔진 스트리밍 파이프라인의 기본 디스크 크기는 30GB입니다.
  • 관리형 인스턴스 그룹: Dataflow는 Compute Engine 인스턴스를 관리형 인스턴스 그룹으로 배포합니다. 다음과 같은 관련 할당량을 사용할 수 있어야 합니다.
    • Dataflow 작업당 인스턴스 그룹 1개
    • Dataflow 작업당 관리형 인스턴스 그룹 1개
    • Dataflow 작업당 인스턴스 템플릿 1개

추가 할당량

사용 중인 소스와 싱크에 따라 추가 할당량이 필요할 수도 있습니다.

  1. Pub/Sub: Pub/Sub를 사용할 경우 추가 할당량이 필요할 수 있습니다. 할당량을 계획할 때 Pub/Sub에서 메시지 1개를 처리하려면 작업이 3개 필요하다는 점에 유의하세요. 커스텀 타임스탬프를 사용하는 경우 Dataflow에서 커스텀 타임스탬프를 추적하기 위해 별도의 구독을 생성하므로 예상되는 작업 수를 2배로 늘려야 합니다.
  2. BigQuery: BigQuery에 스트리밍 API를 사용하는 경우 할당량 한도 및 기타 제약이 적용됩니다.

한도

이 섹션에서는 Dataflow의 실질적인 프로덕션 한도에 대해 설명합니다.

한도 금액
파이프라인당 최대 작업자 수 1,000
작업 생성 요청의 최대 크기(파이프라인 설명의 단계가 많고 이름이 매우 상세한 경우 이 한도에 도달할 수 있음) 10MB
최대 부차 입력 샤드 수 20,000
스트리밍 엔진에서 단일 요소 값의 최대 크기 100MB