30 de agosto de 2024
Consulte a visão geral do produto para saber mais sobre os recursos do Distributed Cloud.
Gerenciamento de clusters:
- Introduzimos um conjunto mais amplo de perfis de GPU com várias instâncias (MIG) (modo uniforme e misto). É possível criar clusters do Google Kubernetes Engine em VMs de GPU (VMs A3) com vários esquemas de segmentação de GPU e atender dinamicamente às necessidades de recursos de GPU dos serviços que hospedam cargas de trabalho de inteligência artificial (IA).
Hardware:
- Novos servidores DL380a com as mais recentes GPUs NVIDIA Hopper H100 (2x2 NVL), combinadas com os mais novos processadores Intel de 5ª geração, estão disponíveis.
Máquinas virtuais:
- Um novo tipo de VM A3 otimizado para GPU está disponível. O tipo de VM A3 tem 4 GPUs NVIDIA H100 de 80 GB anexadas, que podem executar suas cargas de trabalho de IA que exigem modelos de linguagem grandes de até 100 bilhões de parâmetros.
- São introduzidos formatos menores de VM A3, com uma GPU H100 de 80 GB e duas GPUs H100 de 80 GB anexadas por VM. Esse recurso está na visualização.
Vertex AI:
- Incluímos suporte para novos formatos de arquivo de tradução de documentos (DOC, PPT, TXT, XLS).
- Adição da API e suporte para tradução em lote de documentos.
- Foi adicionado um novo formato para o tipo de acelerador de GPUs MIG no pool de recursos para previsões on-line.
- Adicionamos suporte ao recurso de detecção automática de idioma para traduções inline e documentos armazenados em buckets.
- A plataforma de API está na fase de produção.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Atualizamos a versão da imagem do Rocky OS para 20240731 para aplicar os patches de segurança e atualizações importantes mais recentes.
Faturamento:
-
O usuário não consegue criar
BillingAccountBindingdevido a um erro de webhook de validação.
Armazenamento em blocos:
-
Pods do Grafana travados no estado
Initdevido a erros de ativação de volume. - Há um erro de várias anexações do Trident.
Serviço de banco de dados:
-
O subcomponente
dbs-fleettem um erro de reconciliação ao fazer upgrade. -
A criação de
DBClusterfalha após o upgrade.
Gerenciamento de identidade e acesso:
-
Os pods
gatekeeper-auditno namespaceopa-systemsão reiniciados com frequência.
Monitoramento:
- Os pods do gateway da loja do Cortex podem entrar em loop de falha na inicialização durante a sincronização com o backend de armazenamento. Os pods excedem os limites de memória, fazendo com que o Kubernetes os encerre.
- Os pods de proxy de métricas do plano de controle do Kube podem entrar em crashloop com erro de espera de extração de imagem.
-
Um aumento no WAL (registro de gravação antecipada) faz com que o Prometheus use muita memória. Devido a esse problema, o nó da VM do plano de controle do sistema informa eventos
NodeHasInsufficientMemoryeEvictionThresholdMet.
Rede:
- A imagem de troca não conseguiu extrair ou extrair uma imagem.
Armazenamento de objetos:
- Alguns avisos de upgrade do armazenamento de objetos podem ser ignorados.
Sistema operacional:
-
Os pods estão travados em um estado
ContainerCreatingem um único nó.
Servidores físicos:
- O provisionamento do servidor DL380a falha.
Fazer upgrade:
- Uma falha do Helm durante o upgrade causa uma série de rollbacks.
- Ao fazer upgrade do HW2.0 e do Ubuntu, o upgrade do nó mostra incorretamente o RockyLinux.
-
O pod
dhcp-tftp-core-servernão foi esgotado. -
O
OrganizationUpgradeestá travado na etapa de upgrade do nó. - Falha intermitente de conectividade com o VIP do cluster externo.
- O kernel não consegue criar o contêiner.
-
Um erro
Incorrect version of Tridentaparece durante o upgrade. - Durante o provisionamento do cluster de usuário, alguns pods não são programados.
-
O upgrade da organização do locatário falha na etapa de verificação de simulação com
ErrImagePull. - O upgrade da organização raiz está parado em um job de assinatura com falha.
- Durante o upgrade, a tarefa de uma organização raiz falha devido à falta de contas de serviço.
-
Falha no upgrade em
shared-service-cluster upgrade - O nó falha durante o upgrade do cluster de usuário.
- O upgrade da organização raiz falha na verificação de simulação.
-
Há um tempo limite persistente durante a
organizationupgraderaiz inicial. -
O subcomponente
obj-syslog-servernão consegue fazer a reconciliação na organização raiz.
Máquinas virtuais:
-
O plug-in do dispositivo NVIDIA
DaemonSetfalha com a mensagemdriver rpc errorem nós de cluster com GPUs. Esse problema faz com que as GPUs fiquem indisponíveis para máquinas virtuais e pods. - A VM do cluster do sistema não está pronta.
- Um volume de dados informa que o espaço de trabalho temporário não foi encontrado.
-
O subcomponente
obj-syslog-servernão consegue fazer a reconciliação na organização raiz.
Vertex AI:
-
A função de API pré-treinada
streaming_recognizedo Speech-to-Text falha devido a um problema com a biblioteca de cliente. -
A pesquisa de status do job não é compatível com a API
batchTranslateDocument. -
As solicitações
batchTranslateDocumentpodem causar problemas de desempenho. - Na primeira vez que você ativa as APIs pré-treinadas, o console do GDC pode mostrar um status inconsistente após alguns minutos.
-
As solicitações de tradução com mais de 250 caracteres podem falhar nos pods do
translation-prediction-server. -
O
GPUAllocationdo cluster de serviço compartilhado não está configurado corretamente. - Ao fazer upgrade da versão 1.9.x para a 1.13.3, o controlador de gerenciamento do ciclo de vida de componentes operacionais (OCLCM, na sigla em inglês) para subcomponentes da Vertex AI pode mostrar erros.
-
As solicitações de tradução podem gerar o código de erro
RESOURCE_EXHAUSTEDquando o limite de frequência do sistema é excedido. -
As solicitações
batchTranslateDocumentretornam o erro503 "Batch Document translation is not implementedse o parâmetro operávelenableRAGnão estiver definido comotrueno cluster.
Monitoramento:
- Correção de um problema em que o ConfigMap do Prober era redefinido para não incluir jobs de sondagem.
Rede:
-
Foi corrigido um problema com um
PodCIDRnão atribuído a nós, mesmo que umClusterCIDRConfigseja criado.
Sistema operacional:
- Foi corrigido um problema com o job do Ansible
bm-system-machine-preflight-checkpara um nó bare metal ou de VM que falhava comEither ip_tables or nf_tables kernel module must be loaded.
Servidores físicos:
- Foi corrigido um problema com a falha na inicialização do servidor devido a problemas de POST no servidor HPE.
Fazer upgrade:
- Correção de um problema de falha na atualização do subcomponente
iac-zoneselection-global.
Vertex AI:
-
Foi corrigido um problema em que o
MonitoringTargetmostrava um statusNot Readyquando os clusters de usuários estavam sendo criados, fazendo com que as APIs pré-treinadas mostrassem continuamente um estadoEnablingna interface do usuário.
Gerenciador de complementos:
A versão do Google Distributed Cloud para bare metal foi atualizada para 1.29.300-gke.185 para aplicar os patches de segurança e atualizações importantes mais recentes.
Consulte as notas da versão 1.29.300-gke.185 do Google Distributed Cloud para bare metal para mais detalhes.
Fazer upgrade:
- A documentação de upgrade fornece durações estimadas para as diferentes etapas do processo de upgrade.