割り当てと制限

割り当て

Cloud Dataflow マネージド サービスには、次の割り当て上限があります。

  • 各ユーザーは、1 分あたり最大 300 万回のリクエストを作成できます。
  • 各 Cloud Dataflow ジョブでは最大 1,000 個の Compute Engine インスタンスを使用できます。
  • 各 Google Cloud Platform プロジェクトでは、25 個の同時 Cloud Dataflow ジョブを実行できます。
  • 各組織は 125 個の同時 Cloud Dataflow ジョブを実行できます。
  • 各ユーザーは 1 分あたり最大 15,000 個のモニタリング リクエストを作成できます。
  • 各 Google Cloud Platform プロジェクトには 160 個のシャッフル スロットがあります。これは、約 50 TB のデータを同時にシャッフルするのに十分な数です。
  • 各 Google Cloud Platform プロジェクトでは、Compute Engine インスタンスと Streaming Engine の間でデータを送信するために、Streaming Engine のスループットのクラウド リージョンごとに 1 分あたり 60 GB を取得します。

確認できるのは、Cloud Dataflow での現在の割り当て使用量です。

  1. Google Cloud Platform Console で、[API とサービス] に移動します。
    [API とサービス] に移動する
  2. [ダッシュボード] をクリックします。
  3. [Dataflow API] をクリックします。
  4. [割り当て] をクリックします。
    たとえば、シャッフル スロットの現在の割り当て使用量を調べるには、[割り当て] ページにある [Shuffle slots] グラフを確認します。
    [割り当て] ページのシャッフル スロット

Cloud Dataflow サービスは、BigQueryCloud StorageCloud Pub/SubCompute Engine など、GCP のさまざまなコンポーネントを使用します。これら(また、その他の GCP サービス)は、プロジェクト内で使用できるリソースの最大数を制限する割り当てを使用します。Cloud Dataflow を使用する場合は、これらのサービスの割り当て設定の調整が必要になることがあります。

Compute Engine の割り当て

パイプラインを Cloud Dataflow サービス上で実行すると、Cloud Dataflow によってパイプライン コードを実行する Compute Engine インスタンスが作成されます。

Compute Engine の割り当てはリージョンごとに指定されます。プロジェクトの Compute Engine 割り当てを確認し、必要に応じて次の調整をリクエストします。

  • CPU: Cloud Dataflow のデフォルトのマシンタイプは、バッチの場合は n1-standard-1、ストリーミングの場合は n1-standard-4 です。FlexRS ではデフォルトで n1-standard-2 マシンを使用します。ベータ版の FlexRS では 90% のプリエンプティブ VM と 10% の通常の VM を使用します。Compute Engine では、各インスタンスの総 CPU 数を合計することによって、CPU の数を計算します。たとえば、実行中の 10 個の n1-standard-4 インスタンスは 40 CPU として計算されます。マシンタイプから CPU 数へのマッピングについては、Compute Engine のマシンタイプをご覧ください。
  • 使用中の IP アドレス: プロジェクトで使用中の IP アドレスの数は、必要なインスタンス数に十分に対応できる必要があります。10 個の Compute Engine インスタンスを使用するには、10 個の使用中 IP アドレスが必要です。
  • Persistent Disk: Cloud Dataflow では Persistent Disk が各インスタンスに接続されます。
    • デフォルトのディスクサイズは、バッチの場合は 250 GB、ストリーミング パイプラインの場合は 420 GB です。10 インスタンスの場合、デフォルトでは、バッチジョブに 2,500 GB の Persistent Disk が必要になります。
    • Cloud Dataflow Shuffle バッチ パイプラインのデフォルトのディスクサイズは 25 GB です。
    • Streaming Engine ストリーミング パイプラインのデフォルトのディスクサイズは 30 GB です。
  • マネージド インスタンス グループ: Cloud Dataflow は、Compute Engine インスタンスをマネージド インスタンス グループとしてデプロイします。次の関連割り当てが使用可能であることを確認する必要があります。
    • Cloud Dataflow ジョブごとに 1 つのインスタンス グループ
    • Cloud Dataflow ジョブごとに 1 つの管理対象インスタンス グループ
    • Cloud Dataflow ジョブごとに 1 つのインスタンス テンプレート

追加の割り当て

使用しているソースとシンクに応じて、追加の割り当てが必要になることもあります。

  1. Cloud Pub/Sub: Cloud Pub/Sub を使用している場合は、追加の割り当てが必要になる場合があります。割り当てを計画する場合は、Cloud Pub/Sub からのメッセージを 1 つ処理するために 3 つのオペレーションが必要であるので注意してください。カスタム タイムスタンプを使用する場合は、カスタム タイムスタンプを追跡するために Cloud Dataflow によって別のサブスクリプションが作成されるため、予想されるオペレーション数を 2 倍にする必要があります。
  2. BigQuery: BigQuery にストリーミング API を使用している場合は、割り当て上限とその他の制限が適用されます

制限

このセクションでは、Cloud Dataflow で提供される実際のサービスの制限について説明します。

制限
パイプラインあたりの最大ワーカー数。 1,000
ジョブ作成リクエストの最大サイズ。パイプラインの説明に、多数の手順と非常に冗長な名前が含まれていると、この制限に達する可能性があります。 10 MB
副入力シャードの最大数。 20,000
このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。