Use as dicas a seguir para corrigir problemas no cluster do AI Platform Pipelines.
Noções básicas sobre o motivo da falha na execução de um pipeline
Cada etapa em uma execução de pipeline tem um registro que descreve a atividade da etapa. Leia e analise estes registros para entender melhor por que a execução falhou. Use as instruções a seguir para verificar os registros de uma execução de pipeline.
Abra o AI Platform Pipelines no console do Google Cloud.
Clique em Abrir painel de pipelines para o cluster do Kubeflow Pipelines. A interface do usuário do Kubeflow Pipelines é aberta em uma nova guia.
No painel de navegação à esquerda, clique em Experimentos. Será exibida uma lista de experimentos de pipeline.
Clique em Todas as execuções. Será exibida uma lista de execuções de pipelines.
Clique no nome de execução do pipeline que você quer resolver. Será aberto um grafo que exibe as etapas no pipeline.
As etapas de pipeline com uma marca de seleção verde foram concluídas. As etapas com um ponto de exclamação vermelho falharam.
Clique na etapa do pipeline que você quer resolver. Será exibida uma seção com os artefatos, as entradas, as saídas, os volumes, o manifesto e os registros da etapa.
Revise cada guia para entender as entradas e saídas, os artefatos criados e a atividade gravada no registro. Talvez seja necessário pesquisar várias etapas para encontrar a origem do erro.
Acesso proibido ao painel do Kubeflow Pipelines
Se você receber a mensagem proibido ao acessar o painel do Kubeflow Pipelines de um cluster do AI Platform Pipelines, não terá permissões suficientes para acessar o cluster. Esse problema pode ocorrer quando outra pessoa cria um cluster do Google Kubernetes Engine e implanta o AI Platform Pipelines para você.
Para resolver esse problema, peça ao administrador do Google Cloud para usar as instruções a seguir para conceder à sua conta acesso ao AI Platform Pipelines:
Use as instruções a seguir para conceder acesso ao cluster do AI Platform Pipelines a uma conta de usuário.
Abra o AI Platform Pipelines no console do Google Cloud.
Encontre seu cluster do AI Platform Pipelines. Anote o cluster e a zona para usar nas próximas etapas.
Abra uma sessão do Cloud Shell.
O Cloud Shell é aberto em um frame na parte inferior do Console do Google Cloud. Use o Cloud Shell para concluir o restante deste processo.
Execute o comando a seguir para definir o projeto padrão do Google Cloud para esta sessão do Cloud Shell.
gcloud config set project PROJECT_ID
Substitua PROJECT_ID pelo ID do projeto do Google Cloud.
Execute o seguinte comando para encontrar a conta de serviço que seu cluster do GKE usa.
gcloud container clusters describe CLUSTER_NAME --zone ZONE \ --format="flattened(nodePools[].config.serviceAccount)"
Substitua:
- CLUSTER_NAME: o nome do cluster do GKE;
- ZONE: a zona em que o cluster foi criado.
A resposta pode indicar que o cluster usa uma conta de serviço chamada
default
. Esse valor se refere à conta de serviço padrão do Compute Engine. Execute o comando a seguir para encontrar o nome completo dessa conta de serviço.gcloud iam service-accounts list \ --filter "compute@developer.gserviceaccount.com"
Saiba mais sobre a conta de serviço padrão do Compute Engine.
Conceda à sua conta de usuário o papel de usuário da conta de serviço na conta de serviço do cluster do GKE.
gcloud iam service-accounts add-iam-policy-binding \ SERVICE_ACCOUNT_NAME \ --member=user:USERNAME \ --role=roles/iam.serviceAccountUser
Substitua:
- SERVICE_ACCOUNT_NAME: o nome da conta de serviço do cluster do GKE, que você encontrou na etapa anterior. Os nomes das contas de serviço são formatados como *@*.gserviceaccount.com.
- USERNAME: seu nome de usuário no Google Cloud.
Conceda à sua conta de usuário acesso ao papel de leitor de cluster do GKE no projeto.
gcloud projects add-iam-policy-binding PROJECT_ID \ --member user:USERNAME --role roles/container.clusterViewer
Substitua:
- PROJECT_ID: o ID do seu projeto do Google Cloud;
- USERNAME: seu nome de usuário no Google Cloud.
Permissões insuficientes durante a execução de um pipeline
Ao executar um pipeline que acessa os recursos do Google Cloud, você pode receber um erro de permissões insuficiente. Exemplo:
Error executing an HTTP request: HTTP response code 403 with body '{ "error": { "errors": [ { "domain": "global", "reason": "insufficientPermissions", "message": "Insufficient Permission" } ], "code": 403, "message": "Insufficient Permission" } }'
Para uma etapa de pipeline acessar os recursos ou as APIs do Google Cloud, o cluster e o pipeline do Google Kubernetes Engine precisam fazer o seguinte:
- O cluster precisa ter um secret do Kubernetes que forneça acesso aos recursos do Google Cloud. Siga as instruções em Configuração do cluster do GKE para conceder acesso aos recursos do Google Cloud aos seus pipelines.
- A etapa de pipeline precisa especificar que ela requer acesso ao secret do Kubernetes na definição do pipeline. Saiba como definir as etapas do pipeline que acessam os recursos do Google Cloud.
Mensagem de aviso "O servidor só conseguiu atender parcialmente à solicitação"
Você talvez veja a seguinte mensagem quando um cluster for atualizado ou quando o AI Platform Pipelines estiverem sendo implantados.
Sorry, the server was only able to partially fulfill your request. Some data might not be rendered.
Se você vir esta mensagem, aguarde cinco minutos e atualize a página.