Notas da versão 1.13.3 do Google Distributed Cloud com isolamento físico

30 de agosto de 2024


O Google Distributed Cloud (GDC) com isolamento físico 1.13.3 está disponível.
Consulte a visão geral do produto para saber mais sobre os recursos do Distributed Cloud.

Gerenciamento de clusters:

  • Introduzimos um conjunto mais amplo de perfis de GPU com várias instâncias (MIG) (modo uniforme e misto). É possível criar clusters do Google Kubernetes Engine em VMs de GPU (VMs A3) com vários esquemas de segmentação de GPU e atender dinamicamente às necessidades de recursos de GPU dos serviços que hospedam cargas de trabalho de inteligência artificial (IA).

Hardware:

  • Novos servidores DL380a com as mais recentes GPUs NVIDIA Hopper H100 (2x2 NVL), combinadas com os mais novos processadores Intel de 5ª geração, estão disponíveis.

Máquinas virtuais:

  • Um novo tipo de VM A3 otimizado para GPU está disponível. O tipo de VM A3 tem 4 GPUs NVIDIA H100 de 80 GB anexadas, que podem executar suas cargas de trabalho de IA que exigem modelos de linguagem grandes de até 100 bilhões de parâmetros.
  • São introduzidos formatos menores de VM A3, com uma GPU H100 de 80 GB e duas GPUs H100 de 80 GB anexadas por VM. Esse recurso está na visualização.

Vertex AI:



Atualizamos a versão da imagem do Rocky OS para 20240731 para aplicar os patches de segurança e atualizações importantes mais recentes.


Faturamento:

  • O usuário não consegue criar BillingAccountBinding devido a um erro de webhook de validação.

Armazenamento em blocos:

  • Pods do Grafana travados no estado Init devido a erros de ativação de volume.
  • Há um erro de várias anexações do Trident.

Serviço de banco de dados:

  • O subcomponente dbs-fleet tem um erro de reconciliação ao fazer upgrade.
  • A criação de DBCluster falha após o upgrade.

Gerenciamento de identidade e acesso:

  • Os pods gatekeeper-audit no namespace opa-system são reiniciados com frequência.

Monitoramento:

  • Os pods do gateway da loja do Cortex podem entrar em loop de falha na inicialização durante a sincronização com o backend de armazenamento. Os pods excedem os limites de memória, fazendo com que o Kubernetes os encerre.
  • Os pods de proxy de métricas do plano de controle do Kube podem entrar em crashloop com erro de espera de extração de imagem.
  • Um aumento no WAL (registro de gravação antecipada) faz com que o Prometheus use muita memória. Devido a esse problema, o nó da VM do plano de controle do sistema informa eventos NodeHasInsufficientMemory e EvictionThresholdMet.

Rede:

  • A imagem de troca não conseguiu extrair ou extrair uma imagem.

Armazenamento de objetos:

  • Alguns avisos de upgrade do armazenamento de objetos podem ser ignorados.

Sistema operacional:

  • Os pods estão travados em um estado ContainerCreating em um único nó.

Servidores físicos:

  • O provisionamento do servidor DL380a falha.

Fazer upgrade:

  • Uma falha do Helm durante o upgrade causa uma série de rollbacks.
  • Ao fazer upgrade do HW2.0 e do Ubuntu, o upgrade do nó mostra incorretamente o RockyLinux.
  • O pod dhcp-tftp-core-server não foi esgotado.
  • O OrganizationUpgradeestá travado na etapa de upgrade do nó.
  • Falha intermitente de conectividade com o VIP do cluster externo.
  • O kernel não consegue criar o contêiner.
  • Um erro Incorrect version of Trident aparece durante o upgrade.
  • Durante o provisionamento do cluster de usuário, alguns pods não são programados.
  • O upgrade da organização do locatário falha na etapa de verificação de simulação com ErrImagePull.
  • O upgrade da organização raiz está parado em um job de assinatura com falha.
  • Durante o upgrade, a tarefa de uma organização raiz falha devido à falta de contas de serviço.
  • Falha no upgrade em shared-service-cluster upgrade
  • O nó falha durante o upgrade do cluster de usuário.
  • O upgrade da organização raiz falha na verificação de simulação.
  • Há um tempo limite persistente durante a organizationupgrade raiz inicial.
  • O subcomponente obj-syslog-server não consegue fazer a reconciliação na organização raiz.

Máquinas virtuais:

  • O plug-in do dispositivo NVIDIA DaemonSet falha com a mensagem driver rpc error em nós de cluster com GPUs. Esse problema faz com que as GPUs fiquem indisponíveis para máquinas virtuais e pods.
  • A VM do cluster do sistema não está pronta.
  • Um volume de dados informa que o espaço de trabalho temporário não foi encontrado.
  • O subcomponente obj-syslog-server não consegue fazer a reconciliação na organização raiz.

Vertex AI:

  • A função de API pré-treinada streaming_recognize do Speech-to-Text falha devido a um problema com a biblioteca de cliente.
  • A pesquisa de status do job não é compatível com a API batchTranslateDocument.
  • As solicitações batchTranslateDocument podem causar problemas de desempenho.
  • Na primeira vez que você ativa as APIs pré-treinadas, o console do GDC pode mostrar um status inconsistente após alguns minutos.
  • As solicitações de tradução com mais de 250 caracteres podem falhar nos pods do translation-prediction-server.
  • O GPUAllocation do cluster de serviço compartilhado não está configurado corretamente.
  • Ao fazer upgrade da versão 1.9.x para a 1.13.3, o controlador de gerenciamento do ciclo de vida de componentes operacionais (OCLCM, na sigla em inglês) para subcomponentes da Vertex AI pode mostrar erros.
  • As solicitações de tradução podem gerar o código de erro RESOURCE_EXHAUSTED quando o limite de frequência do sistema é excedido.
  • As solicitações batchTranslateDocument retornam o erro 503 "Batch Document translation is not implemented se o parâmetro operável enableRAG não estiver definido como true no cluster.

Monitoramento:

  • Correção de um problema em que o ConfigMap do Prober era redefinido para não incluir jobs de sondagem.

Rede:

  • Foi corrigido um problema com um PodCIDR não atribuído a nós, mesmo que um ClusterCIDRConfig seja criado.

Sistema operacional:

  • Foi corrigido um problema com o job do Ansible bm-system-machine-preflight-check para um nó bare metal ou de VM que falhava com Either ip_tables or nf_tables kernel module must be loaded.

Servidores físicos:

  • Foi corrigido um problema com a falha na inicialização do servidor devido a problemas de POST no servidor HPE.

Fazer upgrade:

  • Correção de um problema de falha na atualização do subcomponente iac-zoneselection-global.

Vertex AI:

  • Foi corrigido um problema em que o MonitoringTarget mostrava um status Not Ready quando os clusters de usuários estavam sendo criados, fazendo com que as APIs pré-treinadas mostrassem continuamente um estado Enabling na interface do usuário.

Gerenciador de complementos:

Fazer upgrade:

  • A documentação de upgrade fornece durações estimadas para as diferentes etapas do processo de upgrade.