Notas da versão 1.13.1 do Google Distributed Cloud com isolamento físico

28 de junho de 2024


O Google Distributed Cloud (GDC) com isolamento físico 1.13.1 está disponível.
Consulte a visão geral do produto para saber mais sobre os recursos do Distributed Cloud.

Atualizamos a versão da imagem do SO Ubuntu da Canonical para 20240515 para aplicar os patches de segurança e atualizações importantes mais recentes. Para aproveitar as correções de bugs e vulnerabilidades de segurança, faça upgrade de todos os nós a cada lançamento. As seguintes vulnerabilidades de segurança foram corrigidas:


Atualizamos a versão da imagem do Rocky OS para 20240506 para aplicar os patches de segurança e atualizações importantes mais recentes. As seguintes vulnerabilidades de segurança foram corrigidas:


As seguintes vulnerabilidades de segurança de imagens de contêiner foram corrigidas:


Corrigida uma vulnerabilidade com bancos de dados executados como contêineres no cluster do sistema.


Faturamento:

  • Adicionamos a capacidade de ativar o faturamento do parceiro ao criar uma organização para que o Google possa cobrar diretamente do parceiro.

Gerenciamento de clusters:

Endereçamento IP personalizado:

  • Adicionada a capacidade de substituir o endereço IP atribuído às organizações para ativar os recursos de interconexão do Direct Connect (DX).

Serviço de banco de dados:

  • Adicionamos uma grande atualização para oferecer mais segurança e confiabilidade. Todas as cargas de trabalho de banco de dados agora são executadas no cluster de serviço. Essa atualização exige a remoção dos bancos de dados atuais. Para proteger seus dados, exporte e exclua todos os clusters de banco de dados antes do upgrade. Consulte a documentação do serviço de banco de dados para saber como exportar e importar dados.
  • Adição de um recurso para o AlloyDB oferecer suporte à alta disponibilidade (HA) na mesma zona.
  • Adição da capacidade do AlloyDB de oferecer suporte a recursos de backup, restauração e recuperação pontual.
  • Adicionada a capacidade do AlloyDB de oferecer suporte a recursos avançados de importação, exportação e migração de dados.

Expansão dinâmica:

  • Adicione mais recursos de computação e armazenamento com expansão dinâmica sem precisar concluir uma nova implantação. As versões do GDC anteriores à 1.13.1 só permitiam a adição de hardware em uma nova implantação. Esse tipo de expansão é conhecido como expansão estática.

Harbor-as-a-Service:

  • Adicionamos o Harbor como um serviço (HaaS, na sigla em inglês), que é um serviço totalmente gerenciado que armazena e gerencia imagens de contêiner usando o Harbor.

Tipos de máquina:

Marketplace:

  • Introduzimos a configuração personalizável dos serviços do Marketplace.
  • O Starburst Enterprise (BYOL) está disponível no marketplace isolado. O Starburst Enterprise oferece um mecanismo SQL MPP distribuído, escalonável e rápido para seu data lakehouse com federação de consultas a muitas outras fontes de dados.
  • A edição do Prisma Cloud Compute da Palo Alto Networks (BYOL) está disponível no marketplace isolado. A edição Compute do Prisma Cloud da Palo Alto Networks oferece proteções modernas para aplicativos distribuídos.

Implantações em várias zonas:

  • Adição da funcionalidade multizona, que oferece alta disponibilidade e recursos de recuperação de desastres semelhantes à nuvem como serviço para simplificar o gerenciamento de recursos em zonas do GDC. Os recursos de implantação em várias zonas estão em prévia.

Infraestrutura de chave pública:

  • Ao emitir certificados da Web, é possível configurar diferentes modos de PKI após a criação da organização. Os modos configuráveis incluem Infra PKI totalmente gerenciado, BYO-SubCA, BYO-Cert com ACME e BYO-Cert.

Armazenamento de objetos:

  • Adicionamos um campo Spec.location de bucket para especificar a zona em que os objetos estão localizados. Durante a criação do bucket, se nenhum valor for fornecido, o campo será preenchido automaticamente com o nome da zona em que o bucket foi criado. Os buckets atuais têm o campo preenchido automaticamente com o nome da zona em que estão localizados.

Máquinas virtuais (VM):

Vertex AI:

VPN:


Artifact Registry:

  • Ao criar o cluster de administrador raiz, a operação poderá falhar se houver uma longa lista de servidores durante a inicialização.

Backup e restauração:

  • A tentativa de restaurar um backup em um cluster de usuário com restrição de cota falha.

Faturamento:

  • As métricas de faturamento não são emitidas corretamente para o cortex devido à falta de MetricsProxySidecar.

Armazenamento em blocos:

  • Os pods de inicialização de máquinas virtuais não conseguem mapear volumes.
  • Falhas relacionadas ao armazenamento podem tornar o sistema inutilizável.
  • Os volumes permanentes são criados com um tamanho incorreto.
  • Quando uma organização é desativada, pode haver um problema ao excluir um StorageVirtualMachine.
  • Os segredos e certificados não são limpos após a desativação de uma organização.
  • Uma falha na reconciliação de exclusão pode ocorrer no StorageVirtualMachine.
  • Os jobs do Ansible ficam presos durante o upgrade do bare metal.

Gerenciamento de clusters:

  • O job machine-init falha durante o provisionamento do cluster.
  • A conexão de um pod de banco de dados em execução no cluster de serviço com um bucket de armazenamento de objetos no cluster de administrador da organização falha.
  • A verificação de simulação falha.
  • Os clusters de usuário recriados podem ficar presos na reconciliação.

Serviço de banco de dados:

  • Para bancos de dados voltados ao usuário, o provisionamento inicial, o redimensionamento ou a ativação da alta disponibilidade em um cluster de banco de dados existente leva até 40 minutos a mais do que antes, e o desempenho é de duas a três vezes mais lento do que antes.
  • A clonagem do serviço de banco de dados não funciona para um cluster com restrição de cota de armazenamento devido a um problema com backup e restauração.
  • A aplicação de IOPs pode afetar o desempenho do armazenamento.

DNS:

  • As DNSSEC precisam ser desativadas explicitamente em resolved.conf.

Harbor:

  • A exclusão de instâncias do Harbor não exclui os espelhos de registro associados. O pool de nós pode estar preso em um estado de Provisioning.

Módulo de segurança de hardware:

  • As licenças de teste desativadas ainda são detectáveis no CipherTrust Manager, acionando avisos de expiração falsos.
  • Um vazamento de descritor de arquivo causa um erro ServicesNotStarted.

Infraestrutura como código (IAC):

  • A criação excessiva de tokens do GitLab pode preencher os bancos de dados do GitLab.

Key Management Service (KMS):

  • Quando o uso de memória kms-rootkey-controller excede o limite 600Mi, o controlador entra em um CrashLoopBackOff devido a um status OOMKilled.

Geração de registros:

  • O registrador de auditoria de armazenamento de objetos não consegue resolver o host DNS.

Monitoramento:

  • Os painéis não mostram métricas da Vertex AI.
  • O pod mon-cortex tem um erro de reconciliação.
  • O pod metrics-server-exporter no cluster do sistema está em loop de falha.
  • O ConfigMap mon-prober-backend-prometheus-config é redefinido para não incluir jobs de sondagem, e o alerta MON-A0001 é acionado.
  • Depois de configurar o serviço do Monitoring para enviar alertas, vários alertas duplicados são criados automaticamente.
  • O objeto ObservabilityPipeline mostra registros Reconciler error que precisam ser ignorados.

Bootstrap multizona:

  • Não há papéis específicos para inicializar implantações multizonais.
  • O recurso Bootstrap criado é incompatível com a lógica que o processa.
  • Um recurso necessário não é criado durante a inicialização, fazendo com que os componentes que dependem dele não funcionem corretamente.

Rede:

  • O nó está inacessível.
  • Há problemas de conectividade com as instâncias do serviço de banco de dados.
  • Um PodCIDR não é atribuído a nós, mesmo que um ClusterCIDRConfig seja criado.
  • Um nó de VM tem um tempo impreciso ou desviado.
  • Os endereços IP de peering da sessão de interconexão EVPN multizona gerados estão incorretos.
  • Não é possível acessar o nó na rede de dados.

Armazenamento de objetos:

  • A exclusão de uma organização pode não ser concluída.

Sistema operacional:

  • Em raras situações, os pods ficam presos no estado init em um nó específico.
  • O job do Ansible bm-system-machine-preflight-check para um nó de bare metal ou VM falha com Either ip_tables or nf_tables kernel module must be loaded.

Infraestrutura do pacote de operações (OI):

  • Para o Hardware 3.0, não é mais necessário iniciar o Smart Storage Administration (SSA).

Segurança de perímetro:

  • O cluster do sistema da organização fica preso durante a inicialização da organização.
  • O firewall da PANW AddressGroups não é atualizado com as mudanças do OCITcidr-claim, resultando em domínios iac.gdch.domain.example não resolvidos.

Segurança da plataforma:

  • Quando o modo BYO SubCA da PKI gera uma nova solicitação de assinatura de certificado (CSR) enquanto um certificado assinado anteriormente é enviado por upload para a SubCA, o reconciliador não verifica se a nova CSR corresponde ao certificado assinado antigo e marca o recurso personalizado (CR) cert-manager CertificateRequest como Ready. Isso ocorre durante a renovação ou rotação manual do certificado da subCA.
  • Um problema conhecido em cert-manager resulta na emissão sem sucesso de certificados de PKI BYO (traga seu próprio) com o Ambiente de gerenciamento automático de certificados (ACME).

Servidores físicos:

  • O servidor está preso no estado provisioning.
  • A inicialização do servidor falha devido a problemas de POST no servidor HPE.
  • O servidor está preso no estado de provisionamento.

Resource Manager:

  • O status de um projeto não é mostrado no console do GDC.

Fazer upgrade:

  • O bm-system e outros jobs que executam o playbook do Ansible estão presos em gathering facts.
  • O IP de gerenciamento de um servidor fica inacessível durante o upgrade.
  • O upgrade falha no subcomponente iac-zoneselection-global.

Vertex AI:

  • O MonitoringTarget mostra um status Not Ready quando os clusters de usuários estão sendo criados, fazendo com que as APIs pré-treinadas mostrem continuamente um estado Enabling na interface do usuário.
  • O pod e o serviço de front-end de tradução não são inicializados porque o secret do cluster do sistema ODS está desatualizado.

Máquinas virtuais:

  • A importação de imagens BYO falha para imagens qcow2 e raw.
  • O provisionamento de um disco de uma imagem personalizada falha.
  • O upgrade do armazenamento de objetos mostra um erro durante a verificação de simulação ou pós-voo.

Faturamento:

  • Foi corrigido um problema em que o job do gerador de faturas não criava um recurso personalizado de fatura devido ao nome inválido GDCH_INTERNAL.

Rede:

  • Correção de um problema que fazia o upgrade falhar devido a uma geração sem êxito do recurso personalizado hairpinlink.
  • Erros de distração "Ocorreu um erro ao receber a velocidade da porta" são mostrados na instalação de rede.

Gerenciador de complementos:

Atualização da versão:

  • A versão da imagem baseada no Debian é atualizada para bookworm-v1.0.1-gke.1.

Infraestrutura do pacote de operações (OI):

  • A conta Marvin do OI, usada para gerenciamento de configuração no ambiente de infraestrutura do OI, tem um período de expiração de 60 dias.