AI Platform Prediction にはリソースの割り当てと使用に上限があり、プロジェクトごとに割り当てが適用されます。具体的なポリシーは、リソースの可用性、ユーザー プロファイル、サービス利用状況の履歴などの要因に応じて異なり、予告なく変更される場合があります。
以下のセクションでは、システムの現在の割り当て上限を示しています。
サービス リクエストの上限
60 秒間に作成できる個別の API リクエスト件数には上限があります。それぞれの上限は、以降のセクションで説明するように、特定の 1 つの API または API のグループに対して適用されます。
プロジェクトのリクエストの割り当ては、Google Cloud コンソールにある AI Platform Prediction の API Manager で確認できます。割り当て上限の横にある編集アイコンをクリックして [割り当ての増加を申し込む] をクリックすると、割り当ての増加を申し込むことができます。
ジョブ リクエスト
projects.jobs.create リクエスト(トレーニング ジョブとバッチ予測ジョブの組み合わせ)には、次の上限が適用されます。
期間 | 上限 |
---|---|
60 秒 | 60 |
オンライン予測リクエスト
projects.predict リクエストには、次の上限が適用されます。
期間 | 上限 |
---|---|
60 秒 | 600,000 |
リソース管理リクエスト
このリストのサポートされているリクエストすべての合計に、次の上限が適用されます。
projects.jobs、projects.models、projects.models.versions、projects.operations に関する list リクエスト。
projects.jobs、projects.models、projects.models.versions、projects.operations に関する get リクエスト
projects.models、projects.models.versions に関する delete リクエスト。
projects.models、projects.models.versions に関する create リクエスト。
projects.jobs、projects.operations に関する cancel リクエスト。
期間 | 上限 |
---|---|
60 秒 | 300 |
上記の delete リクエストとすべてのバージョンの create リクエストでは、同時に実行できるリクエストの合計数が 10 件に制限されています。
リソースの割り当て
リクエスト回数の上限に加えて、以下のリソース使用の上限もあります。
- モデル数の上限: 100。
- バージョン数の上限: 200。バージョン上限は、プロジェクト内のバージョンの合計数が対象となります。バージョン数はアクティブな各モデル間で必要に応じて分配することができます。
モデルサイズの上限
モデル バージョンを作成する際のモデル ディレクトリの合計ファイルサイズは、レガシー(MLS1)マシンタイプを使用している場合は 500 MB 以下、Compute Engine(N1)マシンタイプを使用している場合は 10 GB 以下にする必要があります。詳細については、オンライン予測用のマシンタイプをご覧ください。
モデルサイズの上限引き上げをリクエストすることはできません。
仮想マシンの同時使用の上限
プロジェクトでの Google Cloud 処理リソースの使用量は、プロジェクトが使用する仮想マシンの数で測定されます。このセクションでは、プロジェクト全体でこれらのリソースを同時に使用する場合の上限について説明します。
バッチ予測でのノードの同時使用の上限
一般的なプロジェクトで AI Platform Prediction を初めて使用する場合、バッチ予測で同時に使用できるノードの数は次のように制限されています。
- 予測ノードの並列数: 72
オンライン予測でのノード使用
AI Platform Prediction では、オンライン予測でのノード使用に割り当てを適用しません。詳しくは、予測ノードとリソース割り当てをご覧ください。
オンライン予測での vCPU の同時使用の上限
Compute Engine(N1)マシンタイプを使用して一般的なプロジェクトで最初に AI Platform Prediction を使用する場合、各リージョン エンドポイントで同時に使用できる vCPU の数は次のように制限されます。リージョン エンドポイントによって割り当てが異なることがあります。また、プロジェクトの割り当ては今後変更される可能性があります。
各リージョン エンドポイントの vCPU の同時使用数:
us-central1
: 450us-east1
: 450us-east4
: 20us-west1
: 450northamerica-northeast1
: 20europe-west1
: 450europe-west2
: 20europe-west3
: 20europe-west4
: 450asia-east1
: 450asia-northeast1
: 20asia-southeast1
: 450australia-southeast1
: 20
これはデフォルトの割り当てです。割り当ての増加をリクエストできます。
オンライン予測での GPU の同時使用の上限
一般的なプロジェクトで最初に AI Platform Prediction を使用する場合、各リージョン エンドポイントで同時に使用できる GPU の数は次のように制限されます。リージョン エンドポイントによって割り当てが異なることがあります。また、プロジェクトの割り当ては今後変更される可能性があります。
GPU の同時使用数: 同時に使用できる GPU の最大数。タイプとリージョン エンドポイントごとに次のように分けられます。
- Tesla P4 GPU の同時使用数:
us-central1
: 2us-east4
: 2northamerica-northeast1
: 2europe-west4
: 2asia-southeast1
: 2australia-southeast1
: 2
- Tesla P100 GPU の同時使用数:
us-central1
: 30us-east1
: 30us-west1
: 30europe-west1
: 30asia-southeast1
: 30
- Tesla T4 GPU の同時使用数:
us-central1
: 6us-east1
: 6us-west1
: 6europe-west2
: 2europe-west4
: 6asia-northeast1
: 2asia-southeast1
: 6
- Tesla V100 GPU の同時使用数:
us-central1
: 2us-west1
: 2europe-west4
: 2
これはデフォルトの割り当てです。割り当ての増加をリクエストできます。
予測に使用する GPU は Compute Engine の GPU としてカウントされません。また、AI Platform Prediction の割り当てでは、GPU を使用する Compute Engine VM にアクセスすることはできません。GPU を使用する Compute Engine VM を起動するには、Compute Engine のドキュメントに記載されているように、Compute Engine GPU の割り当てをリクエストする必要があります。
詳細については、オンライン予測に GPU を使用する方法をご覧ください。
割り当ての増加リクエスト
このページで説明した割り当てはプロジェクトごとに適用されますが、必要に応じて上限を引き上げることもできます。さらに処理能力が必要な場合は、次のいずれかの方法で割り当ての増加を申し込むことができます。
Google Cloud Console を使用して、AI Platform Prediction の API Manager に表示される割り当ての増加をリクエストします。
増加する割り当てのセクションを探します。
割り当て使用状況グラフの下部の割り当て値の横にある鉛筆アイコンをクリックします。
必要な増加量を入力します。
必要な割り当て量が割り当て上限ダイアログに表示された範囲内であれば、新しい値を入力して [保存] をクリックします。
表示された最大値を超えて割り当てを増加する場合には、[割り当ての増加を申し込む] をクリックし、2 番目の方法の手順に沿って増加をリクエストします。
Google Cloud コンソール に表示されていない割り当て(GPU 割り当てなど)を増やす場合は、AI Platform 割り当てリクエスト フォームを使用して割り当ての増加をリクエストします。これらのリクエストはベスト エフォートで処理されます。つまり、このリクエストの確認に関するサービスレベル契約(SLA)やサービスレベル目標(SLO)はありません。