Notas de lançamento do Google Distributed Cloud air-gapped 1.13.3

30 de agosto de 2024


O Google Distributed Cloud (GDC) air-gapped 1.13.3 está disponível.
Consulte a descrição geral do produto para saber mais sobre as funcionalidades do Distributed Cloud.

Gestão de clusters:

  • Foi introduzido um conjunto mais amplo de perfis de GPU multi-instância (MIG) (modo uniforme e misto). Pode criar clusters do Google Kubernetes Engine em VMs com GPUs (VMs A3) com vários esquemas de divisão de GPUs e satisfazer dinamicamente as necessidades de recursos de GPUs dos serviços que alojam cargas de trabalho de inteligência artificial (IA).

Hardware:

  • Estão disponíveis novos servidores DL380a com as GPUs NVIDIA Hopper H100 mais recentes (2x2 NVL), associados aos processadores Intel de 5.ª geração mais recentes.

Máquinas virtuais:

  • Está disponível um novo tipo de VM A3 otimizado para GPU. O tipo de VM A3 tem 4 GPUs NVIDIA H100 de 80 GB anexadas, que podem executar as suas cargas de trabalho de IA que requerem modelos de linguagem grandes com até 100 mil milhões de parâmetros.
  • São introduzidos formatos de VM A3 mais pequenos, com 1 GPU H100 de 80 GB e 2 GPUs H100 de 80 GB anexadas por VM. Esta funcionalidade está em pré-visualização.

Vertex AI:



Atualizou a versão da imagem do Rocky OS para 20240731 para aplicar os patches de segurança mais recentes e atualizações importantes.


Faturação:

  • O utilizador não consegue criar o recurso BillingAccountBinding devido a um erro do webhook de validação.

Armazenamento de blocos:

  • Pods do Grafana bloqueados no estado Init devido a erros de montagem de volume.
  • Existe um erro de anexos múltiplos do Trident.

Serviço de base de dados:

  • O subcomponente dbs-fleet tem um erro de conciliação durante a atualização.
  • A criação de DBCluster falha após a atualização.

Gestão de identidade e de acesso:

  • Os pods no espaço de nomes opa-system são reiniciados com frequência.gatekeeper-audit

Monitorização:

  • Os pods do gateway da loja do Cortex podem entrar em crashloop no arranque durante a sincronização com o armazenamento de back-end. Os pods excedem os respetivos limites de memória, o que faz com que o Kubernetes os termine.
  • Os pods do proxy de métricas do plano de controlo do Kube podem entrar em crashloop com um erro de recuo de obtenção de imagens.
  • Um aumento no WAL (write-ahead log) faz com que o Prometheus use muita memória. O nó da VM do plano de controlo do sistema comunica eventos NodeHasInsufficientMemory e EvictionThresholdMet devido a este problema.

Redes:

  • A mudança de imagem não conseguiu extrair nem obter uma imagem.

Armazenamento de objetos:

  • Alguns avisos de atualização do armazenamento de objetos podem ser ignorados.

Sistema operativo:

  • Os pods estão presos num estado ContainerCreating num único nó.

Servidores físicos:

  • O servidor DL380a não é aprovisionado.

Atualizar:

  • Uma falha do Helm durante a atualização provoca uma série de reversões.
  • Quando atualiza a partir do HW2.0 e do Ubuntu, a atualização do nó apresenta incorretamente o RockyLinux.
  • O pod dhcp-tftp-core-server não é esvaziado.
  • O OrganizationUpgrade está bloqueado na fase de atualização do nó.
  • Falha de conetividade intermitente ao VIP do cluster externo.
  • O kernel não consegue criar o contentor.
  • É apresentado um erro Incorrect version of Trident durante a atualização.
  • Durante o aprovisionamento do cluster de utilizadores, não é possível agendar alguns pods.
  • A atualização da organização de inquilinos falha na fase de verificação prévia com ErrImagePull.
  • A atualização da organização raiz está bloqueada numa tarefa de assinatura com falha.
  • Durante a atualização, a tarefa de uma organização principal falha devido à falta de contas de serviço.
  • Falha na atualização a shared-service-cluster upgrade
  • O nó falha durante a atualização do cluster de utilizadores.
  • A atualização da organização principal falha na verificação prévia.
  • Existe um limite de tempo persistente durante a raiz inicial organizationupgrade.
  • O subcomponente obj-syslog-server falha a conciliação na organização raiz.

Máquinas virtuais:

  • O plugin de dispositivo NVIDIA DaemonSet falha com a mensagem driver rpc error em nós de cluster com GPUs. Este problema faz com que as GPUs fiquem indisponíveis para máquinas virtuais e pods.
  • A VM do cluster do sistema não está pronta.
  • Um volume de dados informa que não foi encontrado espaço de trabalho.
  • O subcomponente obj-syslog-server falha a conciliação na organização raiz.

Vertex AI:

  • A função de API pré-preparada de conversão de voz em texto streaming_recognize falha devido a um problema com a biblioteca de cliente.
  • A sondagem do estado da tarefa não é suportada para a API batchTranslateDocument.
  • As solicitações batchTranslateDocument podem causar problemas de desempenho.
  • Na primeira vez que ativa as APIs pré-preparadas, a consola do GDC pode apresentar um estado inconsistente após alguns minutos.
  • Os pedidos de tradução com mais de 250 carateres podem falhar nos pods translation-prediction-server.
  • O GPUAllocation para o cluster de serviços partilhados não está configurado corretamente.
  • Quando atualiza da versão 1.9.x para a 1.13.3, o controlador de gestão do ciclo de vida de componentes operáveis (OCLCM) para subcomponentes da Vertex AI pode apresentar erros.
  • Os pedidos de tradução podem gerar o código de erro RESOURCE_EXHAUSTED quando o limite de frequência do sistema foi excedido.
  • Os pedidos batchTranslateDocument devolvem o erro 503 "Batch Document translation is not implemented se o parâmetro enableRAG operable não estiver definido como true no cluster.

Monitorização:

  • Foi corrigido um problema em que o ConfigMap do Prober era reposto para não incluir tarefas de sondagem.

Redes:

  • Foi corrigido um problema com um PodCIDR não atribuído a nós, mesmo que um ClusterCIDRConfig seja criado.

Sistema operativo:

  • Foi corrigido um problema com a tarefa do Ansible para um nó de metal puro ou de VM que falhava com bm-system-machine-preflight-check Either ip_tables or nf_tables kernel module must be loaded.

Servidores físicos:

  • Foi corrigido um problema com o arranque do servidor que falhava devido a problemas de POST no servidor HPE.

Atualizar:

  • Foi corrigido um problema com a falha da atualização no subcomponente iac-zoneselection-global.

Vertex AI:

  • Foi corrigido um problema em que o MonitoringTarget mostrava o estado Not Ready quando os clusters de utilizadores estavam a ser criados, o que fazia com que as APIs pré-preparadas mostrassem continuamente o estado Enabling na interface do utilizador.

Gestor de suplementos:

Atualizar:

  • A documentação de atualização fornece durações estimadas para as diferentes fases do processo de atualização.