영구 리소스 재부팅

RUNNING 또는 ERROR 상태의 영구 리소스를 재부팅할 수 있습니다. 영구 리소스를 재부팅하면 영구 리소스가 자체적으로 복구할 수 없는 오류로부터 복구할 수 있습니다. 영구 리소스를 재부팅하여 수작업으로 최신 클러스터를 더 가져올 수도 있습니다. 이 페이지에서는 Google Cloud 콘솔 및 REST API를 사용하여 영구 리소스를 재부팅하는 방법을 보여줍니다.

필요한 역할

영구 리소스를 재부팅하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대해 Vertex AI 관리자(roles/aiplatform.admin) IAM 역할을 부여해 달라고 요청하세요. 역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.

이 사전 정의된 역할에는 영구 리소스를 재부팅하는 데 필요한 aiplatform.persistentResources.update 권한이 포함되어 있습니다.

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

영구 리소스 재부팅

영구 리소스를 재부팅하는 방법을 보려면 다음 탭 중 하나를 선택합니다. 영구 리소스에서 실행 중인 학습 작업이 없는지 확인합니다.

Console

Google Cloud 콘솔에서 영구 리소스를 재부팅하려면 다음을 수행합니다.

  1. Google Cloud 콘솔에서 영구 리소스 페이지로 이동합니다.

    영구 리소스로 이동

  2. 재부팅할 영구 리소스 이름 옆의 세로 줄임표()를 클릭합니다.

  3. 재부팅을 클릭합니다.

  4. 확인을 클릭합니다.

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • PROJECT_ID: 재부팅할 영구 리소스의 프로젝트 ID입니다.
  • LOCATION: 재부팅할 영구 리소스의 리전입니다.
  • PERSISTENT_RESOURCE_ID: 재부팅할 영구 리소스의 ID입니다.

HTTP 메서드 및 URL:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

다음과 비슷한 JSON 응답이 표시됩니다.

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

영구 리소스 재부팅은 장기 실행 작업이므로 영구 리소스를 삭제할 수 없습니다. 작업에는 오류가 발생할 경우 오류 상태로 채워지는 progressMessage 필드가 포함됩니다. 작업이 "done: true"로 표시되면 영구 리소스의 상태를 확인합니다. 영구 리소스가 RUNNING 상태이면 재부팅이 성공하고 학습 작업을 실행할 준비가 된 것입니다.

제한사항

영구 리소스 재부팅의 제한사항은 다음과 같습니다.

  • 경우에 따라 영구 리소스를 재부팅할 때 부족한 리소스의 용량이 손실될 수 있습니다. 전체 리소스 보관은 보장되지 않습니다.
  • Vertex AI 기반 Ray에서는 재부팅을 사용할 수 없습니다.
  • 자동 확장된 작업자 풀이 포함된 영구 리소스는 최소 복제본 수로 재부팅됩니다.

다음 단계