Reinicializar um recurso persistente

É possível reinicializar qualquer recurso permanente que esteja no estado RUNNING ou ERROR. A reinicialização de um recurso persistente permite que você se recupere de erros dos quais o recurso permanente não consegue se recuperar por conta própria. Também é possível reinicializar um recurso permanente para receber manualmente clusters mais atualizados. Nesta página, mostramos como reinicializar um recurso permanente usando o console do Google Cloud e a API REST.

Funções exigidas

Para receber a permissão necessária a fim de reiniciar um recurso permanente, peça ao administrador para conceder a você o papel do IAM de Administrador da Vertex AI (roles/aiplatform.admin) no projeto. Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Esse papel predefinido contém a permissão aiplatform.persistentResources.update, que é necessária para reiniciar um recurso permanente.

Também é possível conseguir essa permissão com papéis personalizados ou outros papéis predefinidos.

Reinicializar um recurso persistente

Selecione uma das guias a seguir para ver instruções sobre como reiniciar um recurso permanente. Confirme se não há jobs de treinamento em execução no recurso persistente.

Console

Para reinicializar um recurso permanente no console do Google Cloud, faça o seguinte:

  1. No console do Google Cloud, acesse a página Recursos permanentes.

    Acessar recursos permanentes

  2. Ao lado do nome do recurso persistente que você quer reinicializar, clique nas reticências verticais ().

  3. Clique em Reinicializar.

  4. Clique em Confirmar.

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID: o ID do projeto do recurso permanente que você quer reiniciar.
  • LOCATION: a região do recurso permanente que você quer reiniciar.
  • PERSISTENT_RESOURCE_ID: o ID do recurso permanente que você quer reinicializar.

Método HTTP e URL:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

Reiniciar um recurso permanente é uma operação de longa duração em que não é possível excluir o recurso permanente. A operação contém um campo progressMessage que é preenchido com um status de erro, se um deles ocorrer. Após a operação indicar "done: true", verifique o status do recurso persistente. Se o recurso permanente estiver no estado RUNNING, a reinicialização será bem-sucedida e está pronto para executar jobs de treinamento.

Limitações

Confira a seguir as limitações para reiniciar um recurso persistente:

  • Em alguns casos, é possível perder a capacidade de recursos escassos ao reinicializar um recurso permanente. A retenção total de recursos não é garantida.
  • A reinicialização não está disponível no Ray na Vertex AI.
  • Os recursos permanentes que contêm pools de workers com escalonamento automático são reinicializados com a contagem mínima de réplicas.

A seguir