30 de agosto de 2024
Consulte a descrição geral do produto para saber mais sobre as funcionalidades do Distributed Cloud.
Gestão de clusters:
- Foi introduzido um conjunto mais amplo de perfis de GPU multi-instância (MIG) (modo uniforme e misto). Pode criar clusters do Google Kubernetes Engine em VMs com GPUs (VMs A3) com vários esquemas de divisão de GPUs e satisfazer dinamicamente as necessidades de recursos de GPUs dos serviços que alojam cargas de trabalho de inteligência artificial (IA).
Hardware:
- Estão disponíveis novos servidores DL380a com as GPUs NVIDIA Hopper H100 mais recentes (2x2 NVL), associados aos processadores Intel de 5.ª geração mais recentes.
Máquinas virtuais:
- Está disponível um novo tipo de VM A3 otimizado para GPU. O tipo de VM A3 tem 4 GPUs NVIDIA H100 de 80 GB anexadas, que podem executar as suas cargas de trabalho de IA que requerem modelos de linguagem grandes com até 100 mil milhões de parâmetros.
- São introduzidos formatos de VM A3 mais pequenos, com 1 GPU H100 de 80 GB e 2 GPUs H100 de 80 GB anexadas por VM. Esta funcionalidade está em pré-visualização.
Vertex AI:
- Incluído suporte para novos formatos de ficheiros de tradução de documentos (DOC, PPT, TXT, XLS).
- Foi adicionada a API e o suporte para a tradução de documentos em lote.
- Foi suportado um novo formato para o tipo de acelerador de GPUs MIG no conjunto de recursos para previsões online.
- Foi adicionada compatibilidade com a funcionalidade de deteção automática de idiomas para traduções inline e documentos armazenados em contentores.
- A plataforma de API está na fase de produção.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Atualizou a versão da imagem do Rocky OS para 20240731 para aplicar os patches de segurança mais recentes e atualizações importantes.
Faturação:
-
O utilizador não consegue criar o recurso
BillingAccountBinding
devido a um erro do webhook de validação.
Armazenamento de blocos:
-
Pods do Grafana bloqueados no estado
Init
devido a erros de montagem de volume. - Existe um erro de anexos múltiplos do Trident.
Serviço de base de dados:
-
O subcomponente
dbs-fleet
tem um erro de conciliação durante a atualização. -
A criação de
DBCluster
falha após a atualização.
Gestão de identidade e de acesso:
-
Os pods no espaço de nomes
opa-system
são reiniciados com frequência.gatekeeper-audit
Monitorização:
- Os pods do gateway da loja do Cortex podem entrar em crashloop no arranque durante a sincronização com o armazenamento de back-end. Os pods excedem os respetivos limites de memória, o que faz com que o Kubernetes os termine.
- Os pods do proxy de métricas do plano de controlo do Kube podem entrar em crashloop com um erro de recuo de obtenção de imagens.
-
Um aumento no WAL (write-ahead log) faz com que o Prometheus use muita memória. O nó da VM do plano de controlo do sistema comunica eventos
NodeHasInsufficientMemory
eEvictionThresholdMet
devido a este problema.
Redes:
- A mudança de imagem não conseguiu extrair nem obter uma imagem.
Armazenamento de objetos:
- Alguns avisos de atualização do armazenamento de objetos podem ser ignorados.
Sistema operativo:
-
Os pods estão presos num estado
ContainerCreating
num único nó.
Servidores físicos:
- O servidor DL380a não é aprovisionado.
Atualizar:
- Uma falha do Helm durante a atualização provoca uma série de reversões.
- Quando atualiza a partir do HW2.0 e do Ubuntu, a atualização do nó apresenta incorretamente o RockyLinux.
-
O pod
dhcp-tftp-core-server
não é esvaziado. -
O
OrganizationUpgrade
está bloqueado na fase de atualização do nó. - Falha de conetividade intermitente ao VIP do cluster externo.
- O kernel não consegue criar o contentor.
-
É apresentado um erro
Incorrect version of Trident
durante a atualização. - Durante o aprovisionamento do cluster de utilizadores, não é possível agendar alguns pods.
-
A atualização da organização de inquilinos falha na fase de verificação prévia com
ErrImagePull
. - A atualização da organização raiz está bloqueada numa tarefa de assinatura com falha.
- Durante a atualização, a tarefa de uma organização principal falha devido à falta de contas de serviço.
-
Falha na atualização a
shared-service-cluster upgrade
- O nó falha durante a atualização do cluster de utilizadores.
- A atualização da organização principal falha na verificação prévia.
-
Existe um limite de tempo persistente durante a raiz inicial
organizationupgrade
. -
O subcomponente
obj-syslog-server
falha a conciliação na organização raiz.
Máquinas virtuais:
-
O plugin de dispositivo NVIDIA
DaemonSet
falha com a mensagemdriver rpc error
em nós de cluster com GPUs. Este problema faz com que as GPUs fiquem indisponíveis para máquinas virtuais e pods. - A VM do cluster do sistema não está pronta.
- Um volume de dados informa que não foi encontrado espaço de trabalho.
-
O subcomponente
obj-syslog-server
falha a conciliação na organização raiz.
Vertex AI:
-
A função de API pré-preparada de conversão de voz em texto
streaming_recognize
falha devido a um problema com a biblioteca de cliente. -
A sondagem do estado da tarefa não é suportada para a API
batchTranslateDocument
. -
As solicitações
batchTranslateDocument
podem causar problemas de desempenho. - Na primeira vez que ativa as APIs pré-preparadas, a consola do GDC pode apresentar um estado inconsistente após alguns minutos.
-
Os pedidos de tradução com mais de 250 carateres podem falhar nos pods
translation-prediction-server
. -
O
GPUAllocation
para o cluster de serviços partilhados não está configurado corretamente. - Quando atualiza da versão 1.9.x para a 1.13.3, o controlador de gestão do ciclo de vida de componentes operáveis (OCLCM) para subcomponentes da Vertex AI pode apresentar erros.
-
Os pedidos de tradução podem gerar o código de erro
RESOURCE_EXHAUSTED
quando o limite de frequência do sistema foi excedido. -
Os pedidos
batchTranslateDocument
devolvem o erro503 "Batch Document translation is not implemented
se o parâmetroenableRAG
operable não estiver definido comotrue
no cluster.
Monitorização:
- Foi corrigido um problema em que o ConfigMap do Prober era reposto para não incluir tarefas de sondagem.
Redes:
-
Foi corrigido um problema com um
PodCIDR
não atribuído a nós, mesmo que umClusterCIDRConfig
seja criado.
Sistema operativo:
- Foi corrigido um problema com a tarefa do Ansible para um nó de metal puro ou de VM que falhava com
bm-system-machine-preflight-check
Either ip_tables or nf_tables kernel module must be loaded
.
Servidores físicos:
- Foi corrigido um problema com o arranque do servidor que falhava devido a problemas de POST no servidor HPE.
Atualizar:
- Foi corrigido um problema com a falha da atualização no subcomponente
iac-zoneselection-global
.
Vertex AI:
-
Foi corrigido um problema em que o
MonitoringTarget
mostrava o estadoNot Ready
quando os clusters de utilizadores estavam a ser criados, o que fazia com que as APIs pré-preparadas mostrassem continuamente o estadoEnabling
na interface do utilizador.
Gestor de suplementos:
A versão do Google Distributed Cloud para bare metal é atualizada para 1.29.300-gke.185 para aplicar os patches de segurança mais recentes e atualizações importantes.
Consulte as notas de lançamento do Google Distributed Cloud for bare metal 1.29.300-gke.185 para ver detalhes.
Atualizar:
- A documentação de atualização fornece durações estimadas para as diferentes fases do processo de atualização.