Esta página foi traduzida pela API Cloud Translation.

Notas da versão 1.13.3 do Google Distributed Cloud com isolamento físico

30 de agosto de 2024

O Google Distributed Cloud (GDC) com isolamento físico 1.13.3 está disponível.
Consulte a visão geral do produto para saber mais sobre os recursos do Distributed Cloud.

Gerenciamento de clusters:

Introduzimos um conjunto mais amplo de perfis de GPU com várias instâncias (MIG) (modo uniforme e misto). É possível criar clusters do Google Kubernetes Engine em VMs de GPU (VMs A3) com vários esquemas de segmentação de GPU e atender dinamicamente às necessidades de recursos de GPU dos serviços que hospedam cargas de trabalho de inteligência artificial (IA).

Hardware:

Novos servidores DL380a com as mais recentes GPUs NVIDIA Hopper H100 (2x2 NVL), combinadas com os mais novos processadores Intel de 5ª geração, estão disponíveis.

Máquinas virtuais:

Um novo tipo de VM A3 otimizado para GPU está disponível. O tipo de VM A3 tem 4 GPUs NVIDIA H100 de 80 GB anexadas, que podem executar suas cargas de trabalho de IA que exigem modelos de linguagem grandes de até 100 bilhões de parâmetros.
São introduzidos formatos menores de VM A3, com uma GPU H100 de 80 GB e duas GPUs H100 de 80 GB anexadas por VM. Esse recurso está na visualização.

Vertex AI:

Incluímos suporte para novos formatos de arquivo de tradução de documentos (DOC, PPT, TXT, XLS).
Adição da API e suporte para tradução em lote de documentos.
Foi adicionado um novo formato para o tipo de acelerador de GPUs MIG no pool de recursos para previsões on-line.
Adicionamos suporte ao recurso de detecção automática de idioma para traduções inline e documentos armazenados em buckets.
A plataforma de API está na fase de produção.

Atualizamos a versão da imagem do SO Ubuntu da Canonical para 20240811 para aplicar os patches de segurança e atualizações importantes mais recentes. Para aproveitar as correções de bugs e vulnerabilidades de segurança, faça upgrade de todos os nós a cada lançamento. As seguintes vulnerabilidades de segurança foram corrigidas:

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

Atualizamos a versão da imagem do Rocky OS para 20240731 para aplicar os patches de segurança e atualizações importantes mais recentes.

Faturamento:

O usuário não consegue criar BillingAccountBinding devido a um erro de webhook de validação.

Armazenamento em blocos:

Pods do Grafana travados no estado Init devido a erros de ativação de volume.
Há um erro de várias anexações do Trident.

Serviço de banco de dados:

O subcomponente dbs-fleet tem um erro de reconciliação ao fazer upgrade.
A criação de DBCluster falha após o upgrade.

Gerenciamento de identidade e acesso:

Os pods gatekeeper-audit no namespace opa-system são reiniciados com frequência.

Monitoramento:

Os pods do gateway da loja do Cortex podem entrar em loop de falha na inicialização durante a sincronização com o backend de armazenamento. Os pods excedem os limites de memória, fazendo com que o Kubernetes os encerre.
Os pods de proxy de métricas do plano de controle do Kube podem entrar em crashloop com erro de espera de extração de imagem.
Um aumento no WAL (registro de gravação antecipada) faz com que o Prometheus use muita memória. Devido a esse problema, o nó da VM do plano de controle do sistema informa eventos NodeHasInsufficientMemory e EvictionThresholdMet.

Rede:

A imagem de troca não conseguiu extrair ou extrair uma imagem.

Armazenamento de objetos:

Alguns avisos de upgrade do armazenamento de objetos podem ser ignorados.

Sistema operacional:

Os pods estão travados em um estado ContainerCreating em um único nó.

Servidores físicos:

O provisionamento do servidor DL380a falha.

Fazer upgrade:

Uma falha do Helm durante o upgrade causa uma série de rollbacks.
Ao fazer upgrade do HW2.0 e do Ubuntu, o upgrade do nó mostra incorretamente o RockyLinux.
O pod dhcp-tftp-core-server não foi esgotado.
O OrganizationUpgradeestá travado na etapa de upgrade do nó.
Falha intermitente de conectividade com o VIP do cluster externo.
O kernel não consegue criar o contêiner.
Um erro Incorrect version of Trident aparece durante o upgrade.
Durante o provisionamento do cluster de usuário, alguns pods não são programados.
O upgrade da organização do locatário falha na etapa de verificação de simulação com ErrImagePull.
O upgrade da organização raiz está parado em um job de assinatura com falha.
Durante o upgrade, a tarefa de uma organização raiz falha devido à falta de contas de serviço.
Falha no upgrade em shared-service-cluster upgrade
O nó falha durante o upgrade do cluster de usuário.
O upgrade da organização raiz falha na verificação de simulação.
Há um tempo limite persistente durante a organizationupgrade raiz inicial.
O subcomponente obj-syslog-server não consegue fazer a reconciliação na organização raiz.

Máquinas virtuais:

O plug-in do dispositivo NVIDIA DaemonSet falha com a mensagem driver rpc error em nós de cluster com GPUs. Esse problema faz com que as GPUs fiquem indisponíveis para máquinas virtuais e pods.
A VM do cluster do sistema não está pronta.
Um volume de dados informa que o espaço de trabalho temporário não foi encontrado.
O subcomponente obj-syslog-server não consegue fazer a reconciliação na organização raiz.

Vertex AI:

A função de API pré-treinada streaming_recognize do Speech-to-Text falha devido a um problema com a biblioteca de cliente.
A pesquisa de status do job não é compatível com a API batchTranslateDocument.
As solicitações batchTranslateDocument podem causar problemas de desempenho.
Na primeira vez que você ativa as APIs pré-treinadas, o console do GDC pode mostrar um status inconsistente após alguns minutos.
As solicitações de tradução com mais de 250 caracteres podem falhar nos pods do translation-prediction-server.
O GPUAllocation do cluster de serviço compartilhado não está configurado corretamente.
Ao fazer upgrade da versão 1.9.x para a 1.13.3, o controlador de gerenciamento do ciclo de vida de componentes operacionais (OCLCM, na sigla em inglês) para subcomponentes da Vertex AI pode mostrar erros.
As solicitações de tradução podem gerar o código de erro RESOURCE_EXHAUSTED quando o limite de frequência do sistema é excedido.
As solicitações batchTranslateDocument retornam o erro 503 "Batch Document translation is not implemented se o parâmetro operável enableRAG não estiver definido como true no cluster.

Monitoramento:

Correção de um problema em que o ConfigMap do Prober era redefinido para não incluir jobs de sondagem.

Rede:

Foi corrigido um problema com um PodCIDR não atribuído a nós, mesmo que um ClusterCIDRConfig seja criado.

Sistema operacional:

Foi corrigido um problema com o job do Ansible bm-system-machine-preflight-check para um nó bare metal ou de VM que falhava com Either ip_tables or nf_tables kernel module must be loaded.

Servidores físicos:

Foi corrigido um problema com a falha na inicialização do servidor devido a problemas de POST no servidor HPE.

Fazer upgrade:

Correção de um problema de falha na atualização do subcomponente iac-zoneselection-global.

Vertex AI:

Foi corrigido um problema em que o MonitoringTarget mostrava um status Not Ready quando os clusters de usuários estavam sendo criados, fazendo com que as APIs pré-treinadas mostrassem continuamente um estado Enabling na interface do usuário.

Gerenciador de complementos:

A versão do Google Distributed Cloud para bare metal foi atualizada para 1.29.300-gke.185 para aplicar os patches de segurança e atualizações importantes mais recentes.

Consulte as notas da versão 1.29.300-gke.185 do Google Distributed Cloud para bare metal para mais detalhes.

Fazer upgrade:

A documentação de upgrade fornece durações estimadas para as diferentes etapas do processo de upgrade.