Resolução de problemas do Vertex AI

Esta página descreve os passos de resolução de problemas que podem ser úteis se tiver problemas quando usa o Vertex AI.

Os passos de resolução de problemas para alguns componentes da Vertex AI estão listados separadamente. Veja o seguinte:

Para filtrar o conteúdo desta página, clique num tópico:

Modelos da AutoML

Esta secção descreve os passos de resolução de problemas que podem ser úteis se tiver problemas com o AutoML.

Etiquetas em falta no conjunto de teste, validação ou preparação

Problema

Quando usa a divisão de dados predefinida ao preparar um modelo de classificação do AutoML, o Vertex AI pode atribuir um número demasiado reduzido de instâncias de uma classe a um conjunto específico (teste, validação ou preparação), o que provoca um erro durante a preparação. Este problema ocorre com maior frequência quando tem classes desequilibradas ou uma pequena quantidade de dados de preparação.

Solução

Para resolver este problema, adicione mais dados de preparação, divida manualmente os dados para atribuir classes suficientes a cada conjunto ou remova as etiquetas menos frequentes do conjunto de dados. Para mais informações, consulte o artigo Acerca das divisões de dados para modelos do AutoML.

Vertex AI Studio

Quando trabalha com o Vertex AI Studio, pode receber os seguintes erros:

A tentativa de ajustar um modelo devolve Internal error encountered

Problema

Encontra um erro Internal error encountered quando tenta otimizar um modelo.

Solução

Execute o seguinte comando curl para criar um conjunto de dados do Vertex AI vazio. Certifique-se de que configura o ID do projeto no comando.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Após a conclusão do comando, aguarde cinco minutos e tente novamente a otimização do modelo.

Código de erro: 429

Problema

Encontra o seguinte erro:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Solução

Tente mais tarde com recuo. Se continuar a ter erros, contacte o apoio técnico do Vertex AI.

Código de erro: 410

Problema

Encontra o seguinte erro:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Solução

Consulte a vista geral da autenticação para saber mais.

Código de erro: 403

Problema

Encontra o seguinte erro:

403: Permission denied.

Solução

Certifique-se de que a conta que acede à API tem as autorizações adequadas.

Vertex AI Pipelines

Esta secção descreve os passos de resolução de problemas que podem ser úteis se tiver problemas com os Vertex AI Pipelines.

Não tem autorização para agir em nome da conta de serviço

Problema

Quando executa o fluxo de trabalho do Vertex AI Pipelines, pode encontrar a seguinte mensagem de erro:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Solução

Este erro significa que a conta de serviço que executa o fluxo de trabalho não tem acesso aos recursos que precisa de usar.

Para resolver este problema, experimente uma das seguintes opções:

  • Adicione a função Vertex AI Service Agent à conta de serviço.
  • Conceda ao utilizador a autorização iam.serviceAccounts.actAs na conta de serviço.

Erro Internal error happened

Problema

Se o pipeline falhar com uma mensagem Internal error happened, verifique o Explorador de registos e pesquise o nome do pipeline. Pode ver um erro como o seguinte:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Isto significa que a interligação de VPC para o Vertex AI inclui um intervalo de IP que foi eliminado.

Solução

Para resolver este problema, atualize o peering de VPC com o comando update e inclua intervalos de IP válidos.

Âmbito do OAuth ou público-alvo do token de ID fornecido inválido

Problema

Quando executa o fluxo de trabalho do Vertex AI Pipelines, recebe a seguinte mensagem de erro:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Solução

Isto significa que não forneceu credenciais num dos componentes do pipeline ou não usou ai_platform.init() para definir credenciais.

Para resolver este problema, defina as credenciais para o componente de pipeline relevante ou defina as credenciais do ambiente e use ai_platform.init() no início do código.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

Os componentes do Vertex AI Pipelines requerem mais espaço em disco do que 100 GB

Problema

O espaço em disco predefinido atribuído aos componentes do Vertex AI Pipelines é de 100 GB e o aumento do espaço em disco não é suportado. Consulte o Localizador de problemas público para este problema.

Solução

Para que um componente use mais de 100 GB de espaço em disco, converta o componente numa tarefa personalizada através do método components. Com este operador, pode atribuir o tipo de máquina e o tamanho do disco que o componente usa.

Para ver um exemplo de como usar este operador, consulte Vertex AI Pipelines: Preparação personalizada com componentes Google Cloud de pipeline, na secção Converta o componente num trabalho personalizado do Vertex AI.

Problemas de rede do Vertex AI

Esta secção descreve os passos de resolução de problemas que podem ser úteis se tiver problemas com a rede do Vertex AI.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

As cargas de trabalho não podem aceder a pontos finais na sua rede VPC quando usam intervalos de IP públicos usados de forma privada para o Vertex AI

Problema

Por predefinição, não são importados intervalos de IP públicos usados de forma privada.

Solução

Para usar intervalos de IPs públicos usados de forma privada, tem de ativar a importação de intervalos de IPs públicos usados de forma privada

com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project

Problema

Recebe erros do formulário com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project quando executa cargas de trabalho ou implementa pontos finais.

Isto ocorre quando altera as reservas de acesso a serviços privados para as suas cargas de trabalho. Os intervalos eliminados podem não ter sido registados na API Vertex AI.

Solução

Execute gcloud services vpc-peerings update para servicenetworking após atualizar as atribuições de acesso a serviços privados.

O pipeline ou a tarefa não consegue aceder aos pontos finais na sua rede VPC com peering

Problema

O pipeline do Vertex AI excede o tempo limite quando tenta estabelecer ligação a recursos na sua rede VPC.

Solução

Experimente o seguinte para resolver o problema:

  • Certifique-se de que concluiu todos os passos em Configure a interligação de redes VPC.
  • Reveja a configuração da sua rede VPC com peering. Certifique-se de que a sua rede importa rotas do intervalo de rede de serviços correto enquanto a tarefa está em execução.

    Aceda ao intercâmbio da rede da VPC

  • Certifique-se de que tem uma regra de firewall que permite ligações a partir deste intervalo para o destino na sua rede.

  • Se a ligação de peering não importar nenhuma rota enquanto a tarefa estiver em execução, significa que a configuração de rede de serviços não está a ser usada. Isto deve-se provavelmente ao facto de ter concluído a configuração da interligação com uma rede diferente da rede predefinida. Se for este o caso, certifique-se de que especifica a sua rede quando inicia uma tarefa. Use o nome de rede totalmente qualificado no seguinte formato: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

    Para mais informações, consulte a Vista geral dos trajetos.

O pipeline ou a tarefa não consegue aceder aos pontos finais noutras redes além da sua rede

Problema

O seu pipeline ou tarefa não consegue aceder a pontos finais em redes além da sua rede.

Solução

Por predefinição, a configuração de peering só exporta rotas para as sub-redes locais na sua VPC.

Além disso, o intercâmbio transitivo não é compatível, e apenas as redes com intercâmbio direto podem comunicar.

  • Para permitir que o Vertex AI se ligue através da sua rede e alcance pontos finais noutras redes, tem de exportar as rotas de rede para a ligação de peering. Edite a configuração da sua rede VPC com peering e ative Export custom routes.

Aceda ao intercâmbio da rede da VPC

Uma vez que o intercâmbio transitivo não é suportado, o Vertex AI não aprende rotas para outras redes e serviços com intercâmbio, mesmo com o Export Custom Routes ativado. Para informações sobre soluções alternativas, consulte o artigo Ampliar a acessibilidade da rede dos Vertex AI Pipelines.

No route to host sem conflitos de trajetos evidentes na Google Cloud consola

Problema

As únicas rotas que pode ver na Google Cloud consola são as conhecidas pela sua própria VPC, bem como os intervalos reservados quando conclui a configuração do VPC Network Peering.

Em raras ocasiões, uma tarefa do Vertex AI pode gerar uma reclamação no route to host ao tentar alcançar um endereço IP que a sua VPC está a exportar para a rede do Vertex AI.

Isto pode dever-se ao facto de as tarefas do Vertex AI serem executadas num espaço de nomes de rede num cluster do GKE gerido cujo intervalo de IPs entra em conflito com o IP de destino. Consulte os fundamentos de rede do GKE para mais informações.

Nestes casos, a carga de trabalho tenta estabelecer ligação ao IP no respetivo espaço de nomes de rede e apresenta o erro se não conseguir alcançá-lo.

Solução

Crie a sua carga de trabalho para devolver os endereços IP do espaço de nomes local e confirme que isto não entra em conflito com nenhuma rota que esteja a exportar através da ligação de peering. Se existir um conflito, transmita uma lista de reservedIpRanges[] nos parâmetros da tarefa que não se sobreponham a nenhum intervalo na sua rede de VPC. A tarefa usa estes intervalos para os endereços IP internos da carga de trabalho.

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Problema

Os erros do formulário RANGES_EXHAUSTED e RANGES_NOT_RESERVED e RANGES_DELETED_LATER indicam um problema com a configuração subjacente do intercâmbio da rede da VPC. Estes são erros de rede e não erros do próprio serviço Vertex AI.

Solução

Quando se deparar com um erro RANGES_EXHAUSTED, deve primeiro considerar se esta acusação é válida.

Para mais informações, consulte o artigo Erros de validação da infraestrutura de serviços

Se o erro persistir, contacte o apoio técnico.

Router status is temporarily unavailable

Problema

Quando inicia o Vertex AI Pipelines, recebe uma mensagem de erro semelhante à seguinte:

Router status is temporarily unavailable. Please try again later

Solução

A mensagem de erro indica que esta é uma condição temporária. Experimente iniciar novamente o Vertex AI Pipelines.

Se o erro persistir, contacte o apoio técnico.

As cargas de trabalho não conseguem resolver os nomes de anfitrião para domínios DNS na sua VPC

Problema

As cargas de trabalho do Vertex AI não conseguem estabelecer ligação aos nomes de anfitrião configurados na sua VPC. Já confirmou que estes nomes de anfitrião são acessíveis a partir de clientes na sua VPC.

Isto deve-se ao facto de as cargas de trabalho serem executadas num projeto gerido pela Google. A VPC neste ambiente gerido tem de estar em peering com a sua para consumir qualquer um dos seus recursos de rede. Além disso, todas as zonas DNS às quais estas cargas de trabalho precisam de aceder têm de ser partilhadas especificamente com a VPC gerida pela Google.

Solução

  • Certifique-se de que configurou o intercâmbio da rede da VPC para o Vertex AI na sua rede da VPC.
  • Conclua os passos para partilhar as suas zonas de DNS privadas com a rede de produtores da Vertex AI.
  • Certifique-se de que as suas cargas de trabalho do Vertex AI são iniciadas com a flag --network a especificar a sua rede VPC. Isto permite-lhes ser executados na rede gerida pela Google e aceder às zonas de DNS que partilhou.

Problemas de conetividade causados por comportamentos do lado do cliente

Se tiver problemas de conetividade ao tentar usar as APIs Google Cloud, a causa principal pode estar do lado do cliente. Esta secção sugere soluções do lado do cliente que podem melhorar a sua experiência.

Reposições de ligação e pacotes perdidos

Problema

Quando tenta usar as Google Cloud APIs, ocorrem reposições de ligação e pacotes perdidos.

Solução

Para ajudar a resolver este problema, considere o seguinte:

  • Para um volume elevado de tráfego de transações com requisitos de baixa latência, considere se existem problemas conhecidos com os cartões de linha de clientes no local que possam causar a reposição de ligações TCP ou a perda de pacotes.
  • Considere se algum serviço do lado do cliente no caminho do pedido usa iptables. Estes podem incluir clusters do Kubernetes ou algumas firewalls com estado e dispositivos NAT. Por predefinição, o subsistema de acompanhamento de ligações (conntrack) do Linux segue rigorosamente as especificações do protocolo TCP e, por exemplo, rejeita pacotes TCP fora de sequência. Para desativar este comportamento, ative o parâmetro do kernel do Linux net.netfilter.nf_conntrack_tcp_be_liberal ou o respetivo equivalente.

Ligações incompletas

Problema

Quando tenta usar as Google Cloud APIs, tem ligações incompletas.

Solução

Para ajudar a resolver este problema, considere o seguinte:

  • Quando o caminho de encaminhamento tem várias rotas de volta para o cliente, certifique-se de que compreende o conceito de encaminhamento de caminho inverso. Desative este comportamento se suspeitar que está a bloquear ligações.
  • Para ligações com equilíbrio de carga, considere se as regras da firewall de entrada permitem pacotes de resposta a ambos os equilibradores de carga.

Outros problemas de ligação não relacionados com a API

Para ajudar a resolver problemas de ligação não relacionados com a API, considere o seguinte:

  • Se existirem proxies no caminho do pedido, pondere se podem introduzir algum dos problemas que está a ter. Reveja a documentação e certifique-se de que resolve os problemas do proxy quando se deparar com problemas como latência inexplicável, ligações interrompidas, substituições de DNS, bloqueios de origem cruzada e outros problemas semelhantes.
  • Especialmente quando processa respostas 429 de Google Cloud APIs, a lógica do lado do cliente que tenta novamente a ligação imediatamente pode agravar o problema. Certifique-se de que compreende e implementa a retirada exponencial quando implementar novas tentativas.

Previsão da Vertex AI

Esta secção descreve os passos de resolução de problemas que podem ser úteis se tiver problemas com a previsão do Vertex AI.

Erro de novas tentativas excedidas

Problema

Recebe um erro, como o seguinte, quando executa tarefas de previsão em lote, o que indica que a máquina que executa o modelo personalizado pode não conseguir concluir as previsões dentro do limite de tempo.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Isto pode acontecer quando o serviço de previsão do Vertex AI se regista no serviço Google Front End, que encaminha as ligações do cliente para a API Vertex AI Prediction.

O serviço Google Front End excede o tempo limite da ligação e devolve um código de resposta HTTP 500 ao cliente se não receber uma resposta da API no prazo de 10 minutos.

Solução

Para resolver este problema, experimente uma das seguintes opções:

  • Aumente os nós de computação ou altere o tipo de máquina.
  • Crie o seu contentor de previsão para enviar códigos de resposta HTTP 102 periódicos. Esta ação repõe o temporizador de 10 minutos no serviço de front-end da Google.

O projeto já está associado à VPC

Problema

Ao implementar um ponto final, pode ver uma mensagem de erro como a seguinte, que indica que os seus pontos finais da Vertex AI usaram anteriormente uma rede de nuvem privada virtual e os recursos não foram limpos corretamente.

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

Solução

Para resolver este problema, experimente executar este comando no Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

Isto desliga manualmente a sua antiga rede VPC da VPC de rede de serviços.

Falha de implementação ou eliminação de ponto final inesperada

Problema

Uma implementação de modelo falha inesperadamente, é detetado que um ponto final foi eliminado ou um modelo implementado anteriormente foi desimplementado.

A sua conta de faturação pode ser inválida. Se permanecer inválido durante muito tempo, alguns recursos podem ser removidos dos projetos associados à sua conta. Por exemplo, os seus pontos finais e modelos podem ser eliminados. Os recursos removidos não são recuperáveis.

Solução

Para resolver este problema, pode experimentar o seguinte:

Para mais informações, consulte o artigo Perguntas sobre faturação.

Problemas com a conta de serviço personalizada do Vertex AI

Esta secção descreve os passos de resolução de problemas que podem ser úteis se tiver problemas com as contas de serviço.

A implementação do modelo falha com o erro da conta de serviço serviceAccountAdmin

Problema

A implementação do modelo falha com um erro, como o seguinte:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Solução

Este erro significa que a sua conta de serviço personalizada pode não ter sido configurada corretamente. Para criar uma conta de serviço personalizada com as autorizações do IAM corretas, consulte o artigo Use uma conta de serviço personalizada.

Não é possível obter o token de identidade quando usa uma conta de serviço personalizada

Problema

Quando usa uma conta de serviço personalizada, as tarefas de preparação executadas numa única réplica não conseguem aceder ao serviço de metadados do Compute Engine necessário para obter um token.

É apresentado um erro semelhante ao seguinte:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Solução

Para obter o token de identidade com uma conta de serviço personalizada, tem de usar iamcredentials.googleapis.com.

Modelos preparados personalizados

Esta secção descreve os passos de resolução de problemas que podem ser úteis se tiver problemas com modelos personalizados.

Problemas de treino personalizado

Podem ocorrer os seguintes problemas durante a preparação personalizada. Os problemas aplicam-se aos recursos CustomJob e HyperparameterTuningJob, incluindo os criados pelos recursos TrainingPipeline.

Código de erro: 400

Problema

Encontra o seguinte erro:

400 Machine type MACHINE_TYPE is not supported.

Pode ver esta mensagem de erro se o tipo de máquina selecionado não for suportado para a preparação do Vertex AI ou se um recurso específico não estiver disponível na região selecionada.

Solução

Use apenas tipos de máquinas disponíveis nas regiões adequadas.

A réplica foi concluída com um código de estado diferente de zero

Problema

Durante a preparação distribuída, um erro de qualquer trabalhador faz com que a preparação falhe.

Solução

Para verificar o rastreio da pilha do trabalhador, veja os registos de preparação personalizados na Google Cloud consola.

Consulte os outros tópicos de resolução de problemas para corrigir erros comuns e, em seguida, crie um novo recurso CustomJob, HyperparameterTuningJob ou TrainingPipeline. Em muitos casos, os códigos de erro são causados por problemas no código de preparação e não pelo serviço Vertex AI. Para determinar se é este o caso, pode executar o código de preparação na sua máquina local ou no Compute Engine.

A réplica ficou sem memória

Problema

Pode ocorrer um erro se uma instância de máquina virtual (VM) de preparação ficar sem memória durante a preparação.

Solução

Pode ver a utilização de memória das suas VMs de preparação na Google Cloud consola.

Mesmo quando recebe este erro, pode não ver uma utilização de memória de 100% na VM, porque os serviços que não a sua aplicação de preparação que são executados na VM também consomem recursos. Para tipos de máquinas com menos memória, outros serviços podem consumir uma percentagem relativamente grande de memória. Por exemplo, numa n1-standard-4VM, os serviços podem consumir até 40% da memória.

Pode otimizar o consumo de memória da sua aplicação de preparação ou escolher um tipo de máquina maior com mais memória.

Recursos insuficientes numa região

Problema

Encontra um problema de rutura de stock numa região.

Solução

O Vertex AI prepara os seus modelos através de recursos do Compute Engine. O Vertex AI não pode agendar a sua carga de trabalho se o Compute Engine estiver no limite da capacidade para uma determinada CPU ou GPU numa região. Este problema não está relacionado com a sua quota do projeto.

Quando atinge a capacidade do Compute Engine, o Vertex AI tenta novamente executar o comando CustomJob ou HyperparameterTuningJob até três vezes. A tarefa falha se todas as novas tentativas falharem.

Normalmente, a indisponibilidade ocorre quando está a usar GPUs. Se encontrar este erro ao usar GPUs, experimente mudar para um tipo de GPU diferente. Se puder usar outra região, experimente fazer a preparação numa região diferente.

Erro de autorização ao aceder a outro serviço Google Cloud

Se encontrar um erro de autorização ao aceder a outro serviço Google Cloud a partir do seu código de formação (por exemplo: google.api_core.exceptions.PermissionDenied: 403), pode ter um dos seguintes problemas:

Problemas de desempenho ao usar o FUSE do Cloud Storage

Problema

As tarefas do FUSE do Cloud Storage estão a ser executadas lentamente.

Solução

Consulte as "Diretrizes de otimização do desempenho" no artigo Use o Cloud Storage como um sistema de ficheiros montado.

pip install falha quando usa o KFP com o VPC Service Controls

Problema

É apresentado o seguinte erro:

ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(&lt;pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10&gt;, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/

Solução

O perímetro de serviço do VPC Service Controls bloqueia o acesso do Vertex AI a APIs e serviços de terceiros na Internet. Para instalar os pacotes, use packageUris para instalar as dependências de contentores do Cloud Storage. Para uma discussão geral sobre a utilização desta técnica, consulte a secção "Use contentores personalizados" no artigo VPC Service Controls com o Vertex AI.

Erro interno

Problema

A sua preparação falhou devido a um erro do sistema.

Solução

O problema pode ser temporário. Tente reenviar o CustomJob, HyperparameterTuningJob ou TrainingPipeline. Se o erro persistir, contacte o apoio técnico.

Código de erro 500 quando usa uma imagem de contentor personalizada

Problema

Vê um erro 500 nos seus registos.

Solução

Este tipo de erro é provavelmente um problema com a sua imagem de contentor personalizada e não um erro da Vertex AI.

A conta de serviço não consegue aceder ao contentor do Cloud Storage quando é implementada num ponto final

Problema

Quando tenta implementar um modelo num ponto final e a sua conta de serviço não tem acesso ao contentor do Cloud Storage relacionado, pode ver o seguinte erro:storage.objects.list

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

Por predefinição, o contentor personalizado que implementa o seu modelo usa uma conta de serviço que não tem acesso ao seu contentor do Cloud Storage.

Solução

Para resolver este problema, experimente uma das seguintes opções:

  • Copie o ficheiro ao qual está a tentar aceder do contentor para artefactos do modelo ao carregar o modelo. O Vertex AI copia-o para uma localização à qual a conta de serviço predefinida tem acesso, semelhante a todos os outros artefactos do modelo.

  • Copie o ficheiro para o contentor como parte do processo de criação do contentor.

  • Especifique uma conta de serviço personalizada.

Pesquisa de arquitetura neural

Problemas conhecidos

  • Depois de cancelar a tarefa de NAS, a tarefa principal (a principal) é interrompida, mas algumas das avaliações secundárias continuam a apresentar o estado Em execução. Ignore o estado de teste da criança que mostra Em execução neste caso. As provas foram interrompidas, mas a IU continua a mostrar o estado Em execução. Desde que a tarefa principal tenha parado, não lhe é cobrado nenhum valor adicional.
  • Depois de comunicar as recompensas no treinador, aguarde (suspenda) 10 minutos antes de os trabalhos de teste terminarem.
  • Quando usar o Cloud Shell para executar o comando TensorBoard, o link de saída gerado pode não funcionar. Neste caso, anote o número da porta, use a ferramenta Pré-visualização Web e selecione o número da porta correto para apresentar os gráficos.

    Aceder à ferramenta Web Preview:

    Um gráfico de atribuição de funcionalidades para uma duração prevista de um passeio de bicicleta.

  • Se vir mensagens de erro como as seguintes nos registos do formador:

    gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
    

    Usar uma máquina com mais RAM, porque uma condição de falta de memória está a causar este erro.

  • Se o seu formador personalizado não conseguir encontrar o diretório de tarefas job-dir FLAG, importe job_dir com um sublinhado em vez de um hífen. Uma nota no tutorial-1 explica isto.

  • Erro NaN durante a preparação Podem existir erros NaN na tarefa de preparação, como NaN : Tensor had NaN values. A taxa de aprendizagem pode ser demasiado elevada para a arquitetura sugerida. Para mais informações, consulte o artigo Erros relacionados com a taxa de aprendizagem e a falta de memória (OOM).

  • Erro de falta de memória durante a preparação Podem existir erros de falta de memória (OOM) na tarefa de preparação. O tamanho do lote pode ser demasiado grande para a memória do acelerador. Para mais informações, consulte o artigo Erros relacionados com a taxa de aprendizagem e a falta de memória (OOM).

  • A tarefa do controlador de seleção do modelo de tarefa proxy termina No caso raro de a tarefa do controlador de seleção do modelo de tarefa proxy terminar, pode retomar a tarefa seguindo estes passos.

  • O trabalho do controlador de pesquisa de tarefas de proxy termina No caso raro de o trabalho do controlador de pesquisa de tarefas de proxy terminar, pode retomar o trabalho seguindo estes passos.

  • A conta de serviço não tem autorização para aceder ao Artifact Registry ou ao contentor. Se receber um erro como Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas ou um erro semelhante para o acesso ao contentor, atribua a esta conta de serviço uma função de editor de armazenamento no seu projeto.

Vertex AI Feature Store

Esta secção descreve os passos de resolução de problemas que podem ser úteis se tiver problemas com o Vertex AI Feature Store.

Resource not found ao enviar um pedido de carregamento de streaming ou de publicação online

Problema

Depois de configurar um Feature Store, um tipo de entidade ou recursos de funcionalidades, existe um atraso antes de esses recursos serem propagados para o serviço FeaturestoreOnlineServingService. Por vezes, esta propagação atrasada pode causar um erro resource not found quando envia um carregamento de streaming ou um pedido de publicação online imediatamente após criar um recurso.

Solução

Se receber este erro, aguarde alguns minutos e, em seguida, tente novamente o seu pedido.

O carregamento em lote foi bem-sucedido para as funcionalidades recém-criadas, mas o pedido de publicação online devolve valores vazios

Problema

Apenas para funcionalidades criadas recentemente, existe um atraso antes de essas funcionalidades serem propagadas para o serviço FeaturestoreOnlineServingService. As funcionalidades e os valores existem, mas demoram algum tempo a propagar-se. Isto pode fazer com que o seu pedido de publicação online devolva valores vazios.

Solução

Se vir esta inconsistência, aguarde alguns minutos e, em seguida, tente novamente o pedido de publicação online.

A utilização da CPU é elevada para um nó de serviço online

Problema

A utilização da CPU para um nó de publicação online é elevada.

Solução

Para mitigar este problema, pode aumentar o número de nós de publicação online aumentando manualmente a quantidade de nós ou ativando o dimensionamento automático. Tenha em atenção que, mesmo que o dimensionamento automático esteja ativado, o Vertex AI Feature Store precisa de tempo para reequilibrar os dados quando são adicionados ou removidos nós. Para ver informações sobre como ver as métricas de distribuição de valores de atributos ao longo do tempo, consulte o artigo Veja as métricas de valores de atributos.

A utilização da CPU é elevada para o nó de publicação online mais usado

Problema

Se a utilização da CPU for elevada para o nó mais usado, pode aumentar o número de nós de publicação ou alterar o padrão de acesso à entidade para pseudaleatório.

Solução

Definir o padrão de acesso a entidades como pseudaleatório mitiga a utilização elevada da CPU resultante do acesso frequente a entidades localizadas próximas umas das outras no Feature Store. Se nenhuma das soluções for eficaz, implemente uma cache do lado do cliente para evitar aceder repetidamente às mesmas entidades.

A latência de publicação online é elevada quando o CPS é baixo

Problema

O período de inatividade ou atividade baixa a um QPS baixo pode resultar na expiração de algumas caches do lado do servidor. Isto pode resultar numa latência elevada quando o tráfego para os nós de publicação online é retomado a um QPS normal ou superior.

Solução

Para mitigar este problema, tem de manter a ligação ativa enviando tráfego artificial de, pelo menos, 5 QPS para o featurestore.

A tarefa de carregamento em lote falha após seis horas

Problema

A tarefa de carregamento em lote pode falhar porque a sessão de leitura expira após seis horas.

Solução

Para evitar o limite de tempo, aumente o número de trabalhadores para concluir a tarefa de carregamento no limite de tempo de seis horas.

Erro Resource exceeded ao exportar valores de atributos

Problema

A exportação de um grande volume de dados pode falhar com um erro de recurso excedido se a tarefa de exportação exceder a quota interna.

Solução

Para evitar este erro, pode configurar os parâmetros do intervalo de tempo, start_time e end_time, para processar quantidades mais pequenas de dados de cada vez. Para obter informações sobre a exportação completa, consulte o artigo Exportação completa.

Vertex AI Vizier

Quando usa o Vertex AI Vizier, pode deparar-se com os seguintes problemas.

Erro interno

Problema

O erro interno ocorre quando existe um erro do sistema.

Solução

Pode ser temporário. Tente reenviar o pedido e, se o erro persistir, contacte o apoio técnico.

Erros de autorizações ao usar funções de contas de serviço com o Vertex AI

Problema

Recebe erros de autorizações gerais quando usa funções de contas de serviço com o Vertex AI.

Estes erros podem aparecer no Cloud Logging nos registos de componentes do produto ou nos registos de auditoria. Também podem aparecer em qualquer combinação dos projetos afetados.

Estes problemas podem dever-se a uma ou ambas das seguintes situações:

  • Uso da função Service Account Token Creator quando devia ter sido usada a função Service Account User ou vice-versa. Estas funções concedem autorizações diferentes numa conta de serviço e não são intercambiáveis. Para saber mais sobre as diferenças entre as funções de Service Account Token Creator e Service Account User, consulte o artigo Funções da conta de serviço.

  • Concedeu autorizações de uma conta de serviço em vários projetos, o que não é permitido por predefinição.

Solução

Para resolver o problema, experimente uma ou mais das seguintes opções:

  • Determine se é necessária a função de Service Account Token Creator ou Service Account User. Para saber mais, leia a documentação da IAM para os serviços do Vertex AI que está a usar, bem como quaisquer outras integrações de produtos que esteja a usar.

  • Se concedeu autorizações a uma conta de serviço em vários projetos, certifique-se de que iam.disableCrossProjectServiceAccountUsage para permitir que as contas de serviço sejam anexadas em vários projetos. não está aplicada. Para garantir que iam.disableCrossProjectServiceAccountUsage não é aplicada, execute o seguinte comando:

    gcloud resource-manager org-policies disable-enforce \
      iam.disableCrossProjectServiceAccountUsage \
      --project=PROJECT_ID