30 de agosto de 2024
Consulte a visão geral do produto para saber mais sobre os recursos do Distributed Cloud.
Gerenciamento de clusters:
- Introduzimos um conjunto mais amplo de perfis de GPU com várias instâncias (MIG) (modo uniforme e misto). É possível criar clusters do Google Kubernetes Engine em VMs de GPU (VMs A3) com vários esquemas de segmentação de GPU e atender dinamicamente às necessidades de recursos de GPU dos serviços que hospedam cargas de trabalho de inteligência artificial (IA).
Hardware:
- Novos servidores DL380a com as mais recentes GPUs NVIDIA Hopper H100 (2x2 NVL), combinadas com os mais novos processadores Intel de 5ª geração, estão disponíveis.
Máquinas virtuais:
- Um novo tipo de VM A3 otimizado para GPU está disponível. O tipo de VM A3 tem 4 GPUs NVIDIA H100 de 80 GB anexadas, que podem executar suas cargas de trabalho de IA que exigem modelos de linguagem grandes de até 100 bilhões de parâmetros.
- São introduzidos formatos menores de VM A3, com uma GPU H100 de 80 GB e duas GPUs H100 de 80 GB anexadas por VM. Esse recurso está na visualização.
Vertex AI:
- Incluímos suporte para novos formatos de arquivo de tradução de documentos (DOC, PPT, TXT, XLS).
- Adição da API e suporte para tradução em lote de documentos.
- Foi adicionado um novo formato para o tipo de acelerador de GPUs MIG no pool de recursos para previsões on-line.
- Adicionamos suporte ao recurso de detecção automática de idioma para traduções inline e documentos armazenados em buckets.
- A plataforma de API está na fase de produção.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Atualizamos a versão da imagem do Rocky OS para 20240731 para aplicar os patches de segurança e atualizações importantes mais recentes.
Faturamento:
-
O usuário não consegue criar
BillingAccountBinding
devido a um erro de webhook de validação.
Armazenamento em blocos:
-
Pods do Grafana travados no estado
Init
devido a erros de ativação de volume. - Há um erro de várias anexações do Trident.
Serviço de banco de dados:
-
O subcomponente
dbs-fleet
tem um erro de reconciliação ao fazer upgrade. -
A criação de
DBCluster
falha após o upgrade.
Gerenciamento de identidade e acesso:
-
Os pods
gatekeeper-audit
no namespaceopa-system
são reiniciados com frequência.
Monitoramento:
- Os pods do gateway da loja do Cortex podem entrar em loop de falha na inicialização durante a sincronização com o backend de armazenamento. Os pods excedem os limites de memória, fazendo com que o Kubernetes os encerre.
- Os pods de proxy de métricas do plano de controle do Kube podem entrar em crashloop com erro de espera de extração de imagem.
-
Um aumento no WAL (registro de gravação antecipada) faz com que o Prometheus use muita memória. Devido a esse problema, o nó da VM do plano de controle do sistema informa eventos
NodeHasInsufficientMemory
eEvictionThresholdMet
.
Rede:
- A imagem de troca não conseguiu extrair ou extrair uma imagem.
Armazenamento de objetos:
- Alguns avisos de upgrade do armazenamento de objetos podem ser ignorados.
Sistema operacional:
-
Os pods estão travados em um estado
ContainerCreating
em um único nó.
Servidores físicos:
- O provisionamento do servidor DL380a falha.
Fazer upgrade:
- Uma falha do Helm durante o upgrade causa uma série de rollbacks.
- Ao fazer upgrade do HW2.0 e do Ubuntu, o upgrade do nó mostra incorretamente o RockyLinux.
-
O pod
dhcp-tftp-core-server
não foi esgotado. -
O
OrganizationUpgrade
está travado na etapa de upgrade do nó. - Falha intermitente de conectividade com o VIP do cluster externo.
- O kernel não consegue criar o contêiner.
-
Um erro
Incorrect version of Trident
aparece durante o upgrade. - Durante o provisionamento do cluster de usuário, alguns pods não são programados.
-
O upgrade da organização do locatário falha na etapa de verificação de simulação com
ErrImagePull
. - O upgrade da organização raiz está parado em um job de assinatura com falha.
- Durante o upgrade, a tarefa de uma organização raiz falha devido à falta de contas de serviço.
-
Falha no upgrade em
shared-service-cluster upgrade
- O nó falha durante o upgrade do cluster de usuário.
- O upgrade da organização raiz falha na verificação de simulação.
-
Há um tempo limite persistente durante a
organizationupgrade
raiz inicial. -
O subcomponente
obj-syslog-server
não consegue fazer a reconciliação na organização raiz.
Máquinas virtuais:
-
O plug-in do dispositivo NVIDIA
DaemonSet
falha com a mensagemdriver rpc error
em nós de cluster com GPUs. Esse problema faz com que as GPUs fiquem indisponíveis para máquinas virtuais e pods. - A VM do cluster do sistema não está pronta.
- Um volume de dados informa que o espaço de trabalho temporário não foi encontrado.
-
O subcomponente
obj-syslog-server
não consegue fazer a reconciliação na organização raiz.
Vertex AI:
-
A função de API pré-treinada
streaming_recognize
do Speech-to-Text falha devido a um problema com a biblioteca de cliente. -
A pesquisa de status do job não é compatível com a API
batchTranslateDocument
. -
As solicitações
batchTranslateDocument
podem causar problemas de desempenho. - Na primeira vez que você ativa as APIs pré-treinadas, o console do GDC pode mostrar um status inconsistente após alguns minutos.
-
As solicitações de tradução com mais de 250 caracteres podem falhar nos pods do
translation-prediction-server
. -
O
GPUAllocation
do cluster de serviço compartilhado não está configurado corretamente. - Ao fazer upgrade da versão 1.9.x para a 1.13.3, o controlador de gerenciamento do ciclo de vida de componentes operacionais (OCLCM, na sigla em inglês) para subcomponentes da Vertex AI pode mostrar erros.
-
As solicitações de tradução podem gerar o código de erro
RESOURCE_EXHAUSTED
quando o limite de frequência do sistema é excedido. -
As solicitações
batchTranslateDocument
retornam o erro503 "Batch Document translation is not implemented
se o parâmetro operávelenableRAG
não estiver definido comotrue
no cluster.
Monitoramento:
- Correção de um problema em que o ConfigMap do Prober era redefinido para não incluir jobs de sondagem.
Rede:
-
Foi corrigido um problema com um
PodCIDR
não atribuído a nós, mesmo que umClusterCIDRConfig
seja criado.
Sistema operacional:
- Foi corrigido um problema com o job do Ansible
bm-system-machine-preflight-check
para um nó bare metal ou de VM que falhava comEither ip_tables or nf_tables kernel module must be loaded
.
Servidores físicos:
- Foi corrigido um problema com a falha na inicialização do servidor devido a problemas de POST no servidor HPE.
Fazer upgrade:
- Correção de um problema de falha na atualização do subcomponente
iac-zoneselection-global
.
Vertex AI:
-
Foi corrigido um problema em que o
MonitoringTarget
mostrava um statusNot Ready
quando os clusters de usuários estavam sendo criados, fazendo com que as APIs pré-treinadas mostrassem continuamente um estadoEnabling
na interface do usuário.
Gerenciador de complementos:
A versão do Google Distributed Cloud para bare metal foi atualizada para 1.29.300-gke.185 para aplicar os patches de segurança e atualizações importantes mais recentes.
Consulte as notas da versão 1.29.300-gke.185 do Google Distributed Cloud para bare metal para mais detalhes.
Fazer upgrade:
- A documentação de upgrade fornece durações estimadas para as diferentes etapas do processo de upgrade.