RUNNING
状態または ERROR
状態の永続リソースは、すべて再起動できます。永続リソースを再起動すると、永続リソース自身では対応できないエラーから動作を復元できます。永続リソースを再起動して、最新のクラスタを手動で取得することもできます。このページでは、Google Cloud コンソールと REST API を使用して永続リソースを再起動する方法について説明します。
必要なロール
永続リソースの作成に必要な権限を取得するには、目的のプロジェクトに対する Vertex AI 管理者(roles/aiplatform.admin
)IAM ロールの付与を管理者に依頼します。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
この事前定義ロールには、永続リソースの再起動に必要な aiplatform.persistentResources.update
権限が設定されています。
カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。
永続リソースを再起動する
永続リソースの再起動手順については、次のいずれかのタブを選択してください。永続リソース上で実行中のトレーニング ジョブがないことを確認します。
コンソール
Google Cloud コンソールで永続リソースを再起動するには次の手順に従います。
Google Cloud コンソールで、[永続リソース] ページに移動します。
再起動する永続リソースの名前の横にある縦長の楕円形(
)をクリックします。[再起動] をクリックします。
[確認] をクリックします。
gcloud
後述のコマンドデータを使用する前に、次のように置き換えます。
- PROJECT_ID: 再起動する永続リソースのプロジェクト ID。
- LOCATION: 再起動する永続リソースのリージョン。
- PERSISTENT_RESOURCE_ID: 再起動する永続リソースの ID。
次のコマンドを実行します。
Linux、macOS、Cloud Shell
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \ --project=PROJECT_ID \ --region=LOCATION
Windows(PowerShell)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ` --project=PROJECT_ID ` --region=LOCATION
Windows(cmd.exe)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^ --project=PROJECT_ID ^ --region=LOCATION
次のようなレスポンスが返されます。
Using endpoint [https://us-central1-aiplatform.googleapis.com/] Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent. You may view the status of your persistent resource with the command $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource
REST
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: 再起動する永続リソースのプロジェクト ID。
- LOCATION: 再起動する永続リソースのリージョン。
- PERSISTENT_RESOURCE_ID: 再起動する永続リソースの ID。
HTTP メソッドと URL:
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
response:{ "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata", "genericMetadata": { "createTime": "2024-03-18T17:31:54.955004Z", "updateTime": "2024-03-18T17:31:55.204817Z", "state": "RUNNING", "worksOn": [ "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource" ] }, "progressMessage": "Waiting for persistent resource shut down." } }
永続リソースの再起動は長時間実行オペレーションであり、その間はその永続リソースを削除できません。このオペレーションには progressMessage
フィールドがあり、エラーが発生した場合は、ここにエラー ステータスが書き込まれます。オペレーションが "done: true"
を示した後、永続リソースのステータスを確認します。永続リソースが RUNNING
状態であれば、その再起動が正常に完了し、トレーニング ジョブを実行できる状態になっています。
制限事項
永続リソースの再起動には次の制限があります。
- 永続リソースを再起動すると、不足しているリソースの容量が失われることがあります。リソースの正確な保持は保証されません。
- Ray on Vertex AI では再起動できません。
- 自動スケーリングしたワーカープールを持つ永続リソースは最小のレプリカ数で再起動します。