AI Platform Training にはリソースの割り当てと使用に上限があり、プロジェクトごとに割り当てが適用されます。具体的なポリシーは、リソースの可用性、ユーザー プロファイル、サービス利用状況の履歴などの要因に応じて異なり、予告なく変更される場合があります。
以下のセクションでは、システムの現在の割り当て上限を示しています。
サービス リクエスト件数の上限
60 秒間に作成できる個別の API リクエスト件数には上限があります。それぞれの上限は、以降のセクションで説明するように、特定の 1 つの API または API のグループに対して適用されます。
プロジェクトのリクエストの割り当ては、Google Cloud コンソールの AI Platform Training の API Manager で確認できます。割り当て上限の横にある編集アイコンをクリックして [割り当ての増加を申し込む] をクリックすると、割り当ての増加を申し込むことができます。
ジョブ リクエスト
projects.jobs.create リクエスト(トレーニング ジョブとバッチ予測ジョブの組み合わせ)には、次の上限が適用されます。
期間 | 上限 |
---|---|
60 秒 | 60 |
オンライン予測リクエスト
projects.predict リクエストには、次の上限が適用されます。
期間 | 上限 |
---|---|
60 秒 | 600,000 |
リソース管理リクエスト
このリストのサポートされているリクエストすべての合計に、次の上限が適用されます。
projects.jobs、projects.models、projects.models.versions、projects.operations に関する list リクエスト。
projects.jobs、projects.models、projects.models.versions、projects.operations に関する get リクエスト
projects.models、projects.models.versions に関する delete リクエスト。
projects.models、projects.models.versions に関する create リクエスト。
projects.jobs、projects.operations に関する cancel リクエスト。
期間 | 上限 |
---|---|
60 秒 | 300 |
上記の delete リクエストとすべてのバージョンの create リクエストでは、同時に実行できるリクエストの合計数が 10 件に制限されています。
仮想マシンの同時使用の上限
プロジェクトでの Google Cloud 処理リソースの使用量は、プロジェクトが使用する仮想マシンの数で測定されます。このセクションでは、プロジェクト全体でこれらのリソースを同時に使用する場合の上限について説明します。
トレーニングでの CPU の同時使用の制限
一般的なプロジェクトでは、同時に使用する仮想 CPU の数は、プロジェクトの使用履歴に基づいてスケーリングされます。
- CPU の同時使用数: 最初は 20 個ですが、一般的には 450 個までスケーリングされます。これらの上限は、すべてのマシンタイプで同時に使用する CPU の最大数の合計を表します。
リージョンによっては、追加のデフォルトの割り当てを設定できます。次のリージョンで CPU を使用すると、リージョンの割り当てや合計割り当てにカウントされます。
asia-northeast2
: 20 CPUasia-northeast3
: 20 CPUeurope-north1
: 20 CPUeurope-west3
: 20 CPUeurope-west6
: 20 CPUus-east4
: 20 CPUus-west2
: 20 CPUus-west3
: 20 CPU
モデルのトレーニングに使用する CPU は Compute Engine の CPU としてカウントされません。また、AI Platform Training の割り当てでは、他のコンピューティング要件のために Compute Engine VM にアクセスすることはできません。Compute Engine VM を起動するには、Compute Engine のドキュメントに記載されているように、Compute Engine の割り当てをリクエストする必要があります。
トレーニングでの GPU の同時使用の上限
一般的なプロジェクトで最初に AI Platform Training を使用する場合、トレーニング ML モデルで同時に使用できる GPU の数は次のように制限されます。
GPU の同時使用数: 同時に使用できる GPU の最大数。タイプごとに次のように分けられます。
- A100 GPU の同時使用数: 8
- P4 GPU の同時使用数: 8
- P100 GPU の同時使用数: 30
- V100 GPU の同時使用数: 8
- T4 GPU の同時使用数: 6
リージョンによっては、追加のデフォルトの割り当てを設定できます。次のリージョンでリストに書かれた GPU を使用する場合、GPU はリージョン割り当てと合計割り当てにカウントされます。
asia-southeast1
で P4 GPU: 4us-east4
で P4 GPU: 1us-west2
で P4 GPU: 1asia-northeast3
で T4 GPU: 1asia-southeast1
で T4 GPU: 4
プロジェクトの割り当ては複数の要因によって決まるため、特定のプロジェクトの割り当ては上記の数値よりも少ない場合があります。モデルのトレーニングに使用する GPU は Compute Engine の GPU としてカウントされません。また、AI Platform Training の割り当てでは、GPU を使用する Compute Engine VM にアクセスすることはできません。GPU を使用する Compute Engine VM を起動するには、Compute Engine のドキュメントに記載されているように、Compute Engine GPU の割り当てをリクエストする必要があります。
AI Platform Training でより多くの GPU が必要な場合は、ガイド内の割り当ての増加のリクエストをご覧ください。
GPU について詳しくは、GPU を使用してクラウド内のモデルをトレーニングする方法をご覧ください。
トレーニングでの TPU の同時使用の上限
GPU と同様、AI Platform Training のための TOU 割り当ては、Cloud TPU 割り当てとは別のものです。モデルのトレーニングに使用する TPU は Compute Engine の TPU としてカウントされません。また、AI Platform Training の割り当てでは、TPU を使用する Compute Engine VM にアクセスすることはできません。
Google Cloud コンソールは、Compute Engine では Cloud TPU の割り当てのみを表示します。Compute Engine で使用する Cloud TPU 割り当てを要求する場合は、リクエストを Cloud TPU チームに送信します。
Google Cloud のすべてのプロジェクトには、少なくとも 1 つの Cloud TPU 用のデフォルトの AI Platform Training 割り当てが付与されます。割り当ては Cloud TPU 1 個につき TPU コア 8 個単位で割り当てられます。この割り当ては、Google Cloud コンソールには表示されません。
割り当ての増加リクエスト
このページで説明した割り当てはプロジェクトごとに適用されますが、必要に応じて上限を引き上げることもできます。さらに処理能力が必要な場合は、次のいずれかの方法で割り当ての増加を申し込むことができます。
Google Cloud コンソールを使用して、AI Platform Training の API Manager に表示される割り当ての増加をリクエストします。
増加する割り当てのセクションを探します。
割り当て使用状況グラフの下部の割り当て値の横にある鉛筆アイコンをクリックします。
必要な増加量を入力します。
必要な割り当て量が割り当て上限ダイアログに表示された範囲内であれば、新しい値を入力して [保存] をクリックします。
表示された最大値を超えて割り当てを増加する場合には、[割り当ての増加を申し込む] をクリックし、2 番目の方法の手順に沿って増加をリクエストします。
Google Cloud コンソール に表示されていない割り当て(GPU 割り当てなど)を増やす場合は、AI Platform 割り当てリクエスト フォームを使用して割り当ての増加をリクエストします。これらのリクエストはベスト エフォートで処理されるため、このリクエストの確認に関するサービスレベル契約(SLA)やサービスレベル目標(SLO)はありません。
トレーニングでのディスクの同時使用の上限
一般的なプロジェクトでは、同時使用する仮想ディスクの数は、プロジェクトの使用履歴に基づいてスケーリングされます。
- ディスクの同時使用数: 標準ハードディスク ドライブ(HDD)の場合は 4,000 GB、ソリッド ステート ドライブ(SSD)の場合は 500 GB から始まり、通常、HDD の場合は 180,000 GB、SSD の場合は 75,000 GB までスケーリングできます。これらの上限は、すべてのマシンタイプで同時に使用するディスクの最大数の合計を表します。
モデルのトレーニングに使用するディスクは Compute Engine のディスクとしてカウントされません。また、AI Platform Training の割り当てでは、他のコンピューティング要件のために Compute Engine 仮想マシン インスタンス(VM)にアクセスすることはできません。Compute Engine VM を作成する場合は、Compute Engine の割り当てをリクエストする必要があります。