割り当てポリシー

AI Platform Training にはリソースの割り当てと使用に上限があり、プロジェクトごとに割り当てが適用されます。具体的なポリシーは、リソースの可用性、ユーザー プロファイル、サービス利用状況の履歴などの要因に応じて異なり、予告なく変更される場合があります。

以下のセクションでは、システムの現在の割り当て上限を示しています。

サービス リクエストの上限

60 秒間に作成できる個別の API リクエスト数には上限があります。それぞれの上限は、以降のセクションで説明するように、特定の 1 つの API または API のグループに対して適用されます。

プロジェクトのリクエストの割り当ては、Google Cloud Console にある AI Platform Training の API Manager で確認できます。割り当て上限の横にある編集アイコンをクリックして [割り当ての増加を申し込む] をクリックすると、割り当ての増加を申し込むことができます。

ジョブ リクエスト

projects.jobs.create リクエスト(トレーニング ジョブとバッチ予測ジョブの合計)には、次の上限が適用されます。

期間 上限
60 秒 60

オンライン予測リクエスト

projects.predict リクエストには、次の上限が適用されます。

期間 上限
60 秒 6,000

リソース管理リクエスト

このリストのサポートされているリクエストすべての合計に、次の上限が適用されます。

期間 上限
60 秒 300

上記の delete リクエストとすべてのバージョンの create リクエストでは、同時に実行できるリクエストの合計数が 10 件に制限されています。

リソースの割り当て

リクエスト回数の上限に加えて、以下のリソース使用の上限もあります。

  • モデル数の上限: 100。
  • バージョン数の上限: 200。バージョン上限は、プロジェクト内のバージョンの合計数が対象となります。バージョン数はアクティブな各モデル間で必要に応じて分配することができます。

割り当ての増加リクエスト

このページで説明した割り当てはプロジェクトごとに適用されますが、必要に応じて上限を引き上げることもできます。さらに処理能力が必要な場合は、割り当ての増加を申し込むことができます。

  • Google Cloud Console を使用して、AI Platform Training の API Manager にある割り当ての増加をリクエストします。

    1. 増加する割り当てのセクションを探します。

    2. 割り当て使用状況グラフの下部の割り当て値の横にある鉛筆アイコンをクリックします。

    3. 必要な増加量を入力します。

      • 必要な割り当て量が割り当て上限ダイアログに表示された範囲内であれば、新しい値を入力して [保存] をクリックします。

      • 表示された最大値を超えて割り当てを増加する場合には、[割り当ての増加を申し込む] をクリックし、リクエスト方法の手順に沿って増加をリクエストします。

  • Google Cloud Console に表示されていない割り当てを増やす場合、表示されている最大値よりも大きい割り当てをご希望の場合、またはデフォルトの上限 500 MB を超えるモデルをデプロイする必要がある場合は、カスタム リクエスト フォームを使用してください。

    1. AI Platform Training 割り当てリクエスト フォームに移動します。また、割り当て増加のダイアログ ボックスにある [割り当ての増加を申し込む] リンクを使用することもできます。

    2. これまでの状況の説明、割り当ての増加が必要な理由など、必須項目を入力します。

    3. [送信] をクリックします。リクエストに対する返信メールが届きます。

仮想マシンの同時使用の上限

プロジェクトの Google Cloud 処理リソースの使用量は、トレーニングに使用される仮想マシンの数と、バッチ予測に使用されるノードの数によって測定されます。このセクションでは、プロジェクト全体でこれらのリソースを同時に使用する場合の上限について説明します。

トレーニングでの CPU の同時使用の制限

一般的なプロジェクトでは、同時に使用する仮想 CPU の数は、プロジェクトの使用履歴に基づいてスケーリングされます。

  • CPU の同時使用数: 最初は 20 個の CPU ですが、一般的には 450 個までスケーリングされます。これらの上限は、すべてのマシンタイプで同時に使用する CPU の最大数の合計を表します。

モデルのトレーニングに使用する CPU は Compute Engine の CPU としてカウントされません。また、AI Platform Training の割り当てでは、他のコンピューティング要件のために Compute Engine VM にアクセスすることはできません。Compute Engine VM を起動するには、Compute Engine のドキュメントに記載されているように、Compute Engine の割り当てをリクエストする必要があります。

トレーニングでの GPU の同時使用の上限

一般的なプロジェクトで最初に AI Platform Training を使用する場合、トレーニング ML モデルで同時に使用できる GPU の数は次のように制限されます。

  • GPU の同時使用数: 同時に使用できる GPU の最大数。タイプごとに次のように分けられます。

    • Tesla K80 GPU の同時使用数: 30
    • Tesla P4 GPU の同時使用数: 8
    • Tesla P100 GPU の同時使用数: 30
    • Tesla V100 GPU の同時使用数: 8
    • Tesla T4 GPU の同時使用数: 6

プロジェクトの割り当ては複数の要因によって決まるため、特定のプロジェクトの割り当ては上記の数値よりも少ない場合があります。モデルのトレーニングに使用する GPU は Compute Engine の GPU としてカウントされません。また、AI Platform Training の割り当てでは、GPU を使用する Compute Engine VM にアクセスすることはできません。GPU を使用する Compute Engine VM を起動するには、Compute Engine のドキュメントに記載されているように、Compute Engine GPU の割り当てをリクエストする必要があります。

GPU について詳しくは、GPU を使用してクラウド内のモデルをトレーニングする方法をご覧ください。

トレーニングでの TPU の同時使用の上限

GPU と同様、AI Platform Training のための TOU 割り当ては、Cloud TPU 割り当てとは別のものです。モデルのトレーニングに使用する TPU は Compute Engine の TPU としてカウントされません。また、AI Platform Training の割り当てでは、TPU を使用する Compute Engine VM にアクセスできません。

Cloud Console は、Compute Engine では Cloud TPU の割り当てのみを表示します。Compute Engine で使用する Cloud TPU 割り当てを要求する場合は、リクエストを Cloud TPU チームに送信します

Google Cloud のすべてのプロジェクトには、少なくとも 1 つの Cloud TPU 用のデフォルトの AI Platform Training 割り当てが付与されます。割り当ては Cloud TPU 1 個につき TPU コア 8 個単位で割り当てられます。この割り当ては、Cloud Console には表示されません

AI Platform Training 用の追加の TPU 割り当てを要求する場合は、AI Platform Training リクエスト フォームに記入してください。割り当てが承認されると通知が届きます。次のステップでは、TPU を使用するように Google Cloud プロジェクトを構成します。TPU の使用に関するガイドをご覧ください。

需要が多い場合、すべての割り当てリクエストを承諾できるとは限らないことをご了承ください。

次のステップ