割り当てポリシー

AI Platform Training にはリソースの割り当てと使用に上限があり、プロジェクトごとに割り当てが適用されます。具体的なポリシーは、リソースの可用性、ユーザー プロファイル、サービス利用状況の履歴などの要因に応じて異なり、予告なく変更される場合があります。

以下のセクションでは、システムの現在の割り当て上限を示しています。

サービス リクエスト件数の上限

60 秒間に作成できる個別の API リクエスト件数には上限があります。それぞれの上限は、以降のセクションで説明するように、特定の 1 つの API または API のグループに対して適用されます。

プロジェクトのリクエストの割り当ては、Google Cloud Console にある AI Platform Training の API Manager で確認できます。割り当て上限の横にある編集アイコンをクリックしてから [割り当ての増加を申し込む] をクリックすると、割り当ての増加を申し込むことができます。

ジョブ リクエスト

projects.jobs.create リクエスト(トレーニング ジョブとバッチ予測ジョブの組み合わせ)には、次の上限が適用されます。

期間 上限
60 秒 60

オンライン予測リクエスト

projects.predict リクエストには、次の上限が適用されます。

期間 上限
60 秒 6,000

リソース管理リクエスト

このリストのサポートされているリクエストすべての合計に、次の上限が適用されます。

期間 上限
60 秒 300

上記の delete リクエストとすべてのバージョンの create リクエストでは、同時に実行できるリクエストの合計数が 10 件に制限されています。

仮想マシンの同時使用の上限

プロジェクトでの Google Cloud 処理リソースの使用量は、プロジェクトが使用する仮想マシンの数で測定されます。このセクションでは、プロジェクト全体でこれらのリソースを同時に使用する場合の上限について説明します。

トレーニングでの CPU の同時使用の制限

一般的なプロジェクトでは、同時に使用する仮想 CPU の数は、プロジェクトの使用履歴に基づいてスケーリングされます。

  • CPU の同時使用数: 最初は 20 個ですが、一般的には 450 個までスケーリングされます。これらの上限は、すべてのマシンタイプで同時に使用する CPU の最大数の合計を表します。

モデルのトレーニングに使用する CPU は Compute Engine の CPU としてカウントされません。また、AI Platform Training の割り当てでは、他のコンピューティング要件のために Compute Engine VM にアクセスすることはできません。Compute Engine VM を起動するには、Compute Engine のドキュメントに記載されているように、Compute Engine の割り当てをリクエストする必要があります。

トレーニングでの GPU の同時使用の上限

一般的なプロジェクトで最初に AI Platform Training を使用する場合、トレーニング ML モデルで同時に使用できる GPU の数は次のように制限されます。

  • GPU の同時使用数: 同時に使用できる GPU の最大数。タイプごとに次のように分けられます。

    • A100 GPU の同時使用数: 8(割り当ての引き上げをリクエストする方法を参照)。
    • Tesla K80 GPU の同時使用数: 30
    • Tesla P4 GPU の同時使用数: 8
    • Tesla P100 GPU の同時使用数: 30
    • Tesla V100 GPU の同時使用数: 8
    • Tesla T4 GPU の同時使用数: 6

プロジェクトの割り当ては複数の要因によって決まるため、特定のプロジェクトの割り当ては上記の数値よりも少ない場合があります。モデルのトレーニングに使用する GPU は Compute Engine の GPU としてカウントされません。また、AI Platform Training の割り当てでは、GPU を使用する Compute Engine VM にアクセスすることはできません。GPU を使用する Compute Engine VM を起動するには、Compute Engine のドキュメントに記載されているように、Compute Engine GPU の割り当てをリクエストする必要があります。

GPU について詳しくは、GPU を使用してクラウド内のモデルをトレーニングする方法をご覧ください。

トレーニングでの TPU の同時使用の上限

GPU と同様、AI Platform Training のための TOU 割り当ては、Cloud TPU 割り当てとは別のものです。モデルのトレーニングに使用する TPU は Compute Engine の TPU としてカウントされません。また、AI Platform Training の割り当てでは、TPU を使用する Compute Engine VM にアクセスすることはできません。

Cloud Console は、Compute Engine では Cloud TPU の割り当てのみを表示します。Compute Engine で使用する Cloud TPU 割り当てを要求する場合は、リクエストを Cloud TPU チームに送信します

Google Cloud のすべてのプロジェクトには、少なくとも 1 つの Cloud TPU 用のデフォルトの AI Platform Training 割り当てが付与されます。割り当ては Cloud TPU 1 個につき TPU コア 8 個単位で割り当てられます。この割り当ては、Cloud Console には表示されません

割り当ての増加リクエスト

このページで説明した割り当てはプロジェクトごとに適用されますが、必要に応じて上限を引き上げることもできます。さらに処理能力が必要な場合は、次のいずれかの方法で割り当ての増加を申し込むことができます。

  • Google Cloud Console を使用して、AI Platform Training の API Manager にある割り当ての増加をリクエストします。

    1. 増加する割り当てのセクションを探します。

    2. 割り当て使用状況グラフの下部の割り当て値の横にある鉛筆アイコンをクリックします。

    3. 必要な増加量を入力します。

      • 必要な割り当て量が割り当て上限ダイアログに表示された範囲内であれば、新しい値を入力して [保存] をクリックします。

      • 表示された最大値を超えて割り当てを増加する場合には、[割り当ての増加を申し込む] をクリックし、2 番目の方法の手順に沿って増加をリクエストします。

  • Cloud Console に表示されていない割り当て上限を引き上げたい場合は、次のいずれかを行います。

トレーニングでのディスクの同時使用の上限

一般的なプロジェクトでは、同時使用する仮想ディスクの数は、プロジェクトの使用履歴に基づいてスケーリングされます。

  • ディスクの同時使用数: 標準ハードディスク ドライブ(HDD)の場合は 4,000 GB、ソリッド ステート ドライブ(SSD)の場合は 500 GB から始まり、通常、HDD の場合は 180,000 GB、SSD の場合は 75,000 GB までスケーリングできます。これらの上限は、すべてのマシンタイプで同時に使用するディスクの最大数の合計を表します。

モデルのトレーニングに使用するディスクは Compute Engine のディスクとしてカウントされません。また、AI Platform Training の割り当てでは、他のコンピューティング要件のために Compute Engine 仮想マシン インスタンス(VM)にアクセスすることはできません。Compute Engine VM を作成する場合は、Compute Engine の割り当てをリクエストする必要があります。

次のステップ