永続リソースを再起動する

RUNNING 状態または ERROR 状態の永続リソースは、すべて再起動できます。永続リソースを再起動すると、永続リソース自身では対応できないエラーから動作を復元できます。永続リソースを再起動して、最新のクラスタを手動で取得することもできます。このページでは、Google Cloud コンソールと REST API を使用して永続リソースを再起動する方法について説明します。

必要なロール

永続リソースの作成に必要な権限を取得するには、目的のプロジェクトに対する Vertex AI 管理者roles/aiplatform.admin)IAM ロールの付与を管理者に依頼します。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

この事前定義ロールには、永続リソースの再起動に必要な aiplatform.persistentResources.update 権限が設定されています。

カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。

永続リソースを再起動する

永続リソースの再起動手順については、次のいずれかのタブを選択してください。永続リソース上で実行中のトレーニング ジョブがないことを確認します。

コンソール

Google Cloud コンソールで永続リソースを再起動するには次の手順に従います。

  1. Google Cloud コンソールで、[永続リソース] ページに移動します。

    永続リソースに移動

  2. 再起動する永続リソースの名前の横にある縦長の楕円形()をクリックします。

  3. [再起動] をクリックします。

  4. [確認] をクリックします。

gcloud

後述のコマンドデータを使用する前に、次のように置き換えます。

  • PROJECT_ID: 再起動する永続リソースのプロジェクト ID。
  • LOCATION: 再起動する永続リソースのリージョン。
  • PERSISTENT_RESOURCE_ID: 再起動する永続リソースの ID。

次のコマンドを実行します。

Linux、macOS、Cloud Shell

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \
    --project=PROJECT_ID \
    --region=LOCATION

Windows(PowerShell)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID `
    --project=PROJECT_ID `
    --region=LOCATION

Windows(cmd.exe)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^
    --project=PROJECT_ID ^
    --region=LOCATION

次のようなレスポンスが返されます。

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent.

You may view the status of your persistent resource with the command

  $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource

REST

リクエストのデータを使用する前に、次のように置き換えます。

  • PROJECT_ID: 再起動する永続リソースのプロジェクト ID。
  • LOCATION: 再起動する永続リソースのリージョン。
  • PERSISTENT_RESOURCE_ID: 再起動する永続リソースの ID。

HTTP メソッドと URL:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

リクエストを送信するには、次のいずれかのオプションを展開します。

次のような JSON レスポンスが返されます。

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

永続リソースの再起動は長時間実行オペレーションであり、その間はその永続リソースを削除できません。このオペレーションには progressMessage フィールドがあり、エラーが発生した場合は、ここにエラー ステータスが書き込まれます。オペレーションが "done: true" を示した後、永続リソースのステータスを確認します。永続リソースが RUNNING 状態であれば、その再起動が正常に完了し、トレーニング ジョブを実行できる状態になっています。

制限事項

永続リソースの再起動には次の制限があります。

  • 永続リソースを再起動すると、不足しているリソースの容量が失われることがあります。リソースの正確な保持は保証されません。
  • Ray on Vertex AI では再起動できません。
  • 自動スケーリングしたワーカープールを持つ永続リソースは最小のレプリカ数で再起動します。

次のステップ