Esta página foi traduzida pela API Cloud Translation.

Notas de lançamento do Google Distributed Cloud air-gapped 1.13.3

30 de agosto de 2024

O Google Distributed Cloud (GDC) air-gapped 1.13.3 está disponível.
Consulte a descrição geral do produto para saber mais sobre as funcionalidades do Distributed Cloud.

Gestão de clusters:

Foi introduzido um conjunto mais amplo de perfis de GPU multi-instância (MIG) (modo uniforme e misto). Pode criar clusters do Google Kubernetes Engine em VMs com GPUs (VMs A3) com vários esquemas de divisão de GPUs e satisfazer dinamicamente as necessidades de recursos de GPUs dos serviços que alojam cargas de trabalho de inteligência artificial (IA).

Hardware:

Estão disponíveis novos servidores DL380a com as GPUs NVIDIA Hopper H100 mais recentes (2x2 NVL), associados aos processadores Intel de 5.ª geração mais recentes.

Máquinas virtuais:

Está disponível um novo tipo de VM A3 otimizado para GPU. O tipo de VM A3 tem 4 GPUs NVIDIA H100 de 80 GB anexadas, que podem executar as suas cargas de trabalho de IA que requerem modelos de linguagem grandes com até 100 mil milhões de parâmetros.
São introduzidos formatos de VM A3 mais pequenos, com 1 GPU H100 de 80 GB e 2 GPUs H100 de 80 GB anexadas por VM. Esta funcionalidade está em pré-visualização.

Vertex AI:

Incluído suporte para novos formatos de ficheiros de tradução de documentos (DOC, PPT, TXT, XLS).
Foi adicionada a API e o suporte para a tradução de documentos em lote.
Foi suportado um novo formato para o tipo de acelerador de GPUs MIG no conjunto de recursos para previsões online.
Foi adicionada compatibilidade com a funcionalidade de deteção automática de idiomas para traduções inline e documentos armazenados em contentores.
A plataforma de API está na fase de produção.

Atualizámos a versão da imagem do SO Ubuntu canónico para 20240811 para aplicar os patches de segurança mais recentes e atualizações importantes. Para tirar partido das correções de erros e vulnerabilidades de segurança, tem de atualizar todos os nós com cada lançamento. As seguintes vulnerabilidades de segurança foram corrigidas:

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

Atualizou a versão da imagem do Rocky OS para 20240731 para aplicar os patches de segurança mais recentes e atualizações importantes.

Faturação:

O utilizador não consegue criar o recurso BillingAccountBinding devido a um erro do webhook de validação.

Armazenamento de blocos:

Pods do Grafana bloqueados no estado Init devido a erros de montagem de volume.
Existe um erro de anexos múltiplos do Trident.

Serviço de base de dados:

O subcomponente dbs-fleet tem um erro de conciliação durante a atualização.
A criação de DBCluster falha após a atualização.

Gestão de identidade e de acesso:

Os pods no espaço de nomes opa-system são reiniciados com frequência.gatekeeper-audit

Monitorização:

Os pods do gateway da loja do Cortex podem entrar em crashloop no arranque durante a sincronização com o armazenamento de back-end. Os pods excedem os respetivos limites de memória, o que faz com que o Kubernetes os termine.
Os pods do proxy de métricas do plano de controlo do Kube podem entrar em crashloop com um erro de recuo de obtenção de imagens.
Um aumento no WAL (write-ahead log) faz com que o Prometheus use muita memória. O nó da VM do plano de controlo do sistema comunica eventos NodeHasInsufficientMemory e EvictionThresholdMet devido a este problema.

Redes:

A mudança de imagem não conseguiu extrair nem obter uma imagem.

Armazenamento de objetos:

Alguns avisos de atualização do armazenamento de objetos podem ser ignorados.

Sistema operativo:

Os pods estão presos num estado ContainerCreating num único nó.

Servidores físicos:

O servidor DL380a não é aprovisionado.

Atualizar:

Uma falha do Helm durante a atualização provoca uma série de reversões.
Quando atualiza a partir do HW2.0 e do Ubuntu, a atualização do nó apresenta incorretamente o RockyLinux.
O pod dhcp-tftp-core-server não é esvaziado.
O OrganizationUpgrade está bloqueado na fase de atualização do nó.
Falha de conetividade intermitente ao VIP do cluster externo.
O kernel não consegue criar o contentor.
É apresentado um erro Incorrect version of Trident durante a atualização.
Durante o aprovisionamento do cluster de utilizadores, não é possível agendar alguns pods.
A atualização da organização de inquilinos falha na fase de verificação prévia com ErrImagePull.
A atualização da organização raiz está bloqueada numa tarefa de assinatura com falha.
Durante a atualização, a tarefa de uma organização principal falha devido à falta de contas de serviço.
Falha na atualização a shared-service-cluster upgrade
O nó falha durante a atualização do cluster de utilizadores.
A atualização da organização principal falha na verificação prévia.
Existe um limite de tempo persistente durante a raiz inicial organizationupgrade.
O subcomponente obj-syslog-server falha a conciliação na organização raiz.

Máquinas virtuais:

O plugin de dispositivo NVIDIA DaemonSet falha com a mensagem driver rpc error em nós de cluster com GPUs. Este problema faz com que as GPUs fiquem indisponíveis para máquinas virtuais e pods.
A VM do cluster do sistema não está pronta.
Um volume de dados informa que não foi encontrado espaço de trabalho.
O subcomponente obj-syslog-server falha a conciliação na organização raiz.

Vertex AI:

A função de API pré-preparada de conversão de voz em texto streaming_recognize falha devido a um problema com a biblioteca de cliente.
A sondagem do estado da tarefa não é suportada para a API batchTranslateDocument.
As solicitações batchTranslateDocument podem causar problemas de desempenho.
Na primeira vez que ativa as APIs pré-preparadas, a consola do GDC pode apresentar um estado inconsistente após alguns minutos.
Os pedidos de tradução com mais de 250 carateres podem falhar nos pods translation-prediction-server.
O GPUAllocation para o cluster de serviços partilhados não está configurado corretamente.
Quando atualiza da versão 1.9.x para a 1.13.3, o controlador de gestão do ciclo de vida de componentes operáveis (OCLCM) para subcomponentes da Vertex AI pode apresentar erros.
Os pedidos de tradução podem gerar o código de erro RESOURCE_EXHAUSTED quando o limite de frequência do sistema foi excedido.
Os pedidos batchTranslateDocument devolvem o erro 503 "Batch Document translation is not implemented se o parâmetro enableRAG operable não estiver definido como true no cluster.

Monitorização:

Foi corrigido um problema em que o ConfigMap do Prober era reposto para não incluir tarefas de sondagem.

Redes:

Foi corrigido um problema com um PodCIDR não atribuído a nós, mesmo que um ClusterCIDRConfig seja criado.

Sistema operativo:

Foi corrigido um problema com a tarefa do Ansible para um nó de metal puro ou de VM que falhava com bm-system-machine-preflight-check Either ip_tables or nf_tables kernel module must be loaded.

Servidores físicos:

Foi corrigido um problema com o arranque do servidor que falhava devido a problemas de POST no servidor HPE.

Atualizar:

Foi corrigido um problema com a falha da atualização no subcomponente iac-zoneselection-global.

Vertex AI:

Foi corrigido um problema em que o MonitoringTarget mostrava o estado Not Ready quando os clusters de utilizadores estavam a ser criados, o que fazia com que as APIs pré-preparadas mostrassem continuamente o estado Enabling na interface do utilizador.

Gestor de suplementos:

A versão do Google Distributed Cloud para bare metal é atualizada para 1.29.300-gke.185 para aplicar os patches de segurança mais recentes e atualizações importantes.

Consulte as notas de lançamento do Google Distributed Cloud for bare metal 1.29.300-gke.185 para ver detalhes.

Atualizar:

A documentação de atualização fornece durações estimadas para as diferentes fases do processo de atualização.