30 de agosto de 2024
Consulta la descripción general del producto para obtener información sobre las funciones de Distributed Cloud.
Administración de clústeres:
- Se introdujo un conjunto más amplio de perfiles de GPU de instancias múltiples (MIG) (modo uniforme y mixto). Puedes crear clústeres de Google Kubernetes Engine en VMs con GPU (VMs A3) con una variedad de esquemas de segmentación de GPU y abordar de forma dinámica las necesidades de recursos de GPU de los servicios que alojan cargas de trabajo de inteligencia artificial (IA).
Hardware:
- Ya están disponibles los nuevos servidores DL380a con las GPUs NVIDIA Hopper H100 más recientes (2x2 NVL), junto con los procesadores Intel de 5ª generación más nuevos.
Máquinas virtuales:
- Hay disponible un nuevo tipo de VM A3 optimizada para GPU. El tipo de VM A3 tiene 4 GPU NVIDIA H100 de 80 GB conectadas, que pueden ejecutar tus cargas de trabajo de IA que requieren modelos de lenguaje grandes de hasta 100,000 millones de parámetros.
- Se introducen formas de VM A3 más pequeñas, con 1 GPU H100 de 80 GB y 2 GPU H100 de 80 GB conectadas por VM. Esta función está en vista previa.
Vertex AI:
- Se agregó compatibilidad con nuevos formatos de archivo para la traducción de documentos (DOC, PPT, TXT, XLS).
- Se agregó la API y la compatibilidad con la traducción de documentos por lotes.
- Se admitió un nuevo formato para el tipo de acelerador de las GPUs de MIG en el grupo de recursos para las predicciones en línea.
- Se agregó compatibilidad con la función de detección automática de idiomas para las traducciones intercaladas y los documentos almacenados en buckets.
- La plataforma de API se encuentra en la etapa de producción.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Se actualizó la versión de la imagen de SO Rocky a 20240731 para aplicar los parches de seguridad y las actualizaciones importantes más recientes.
Facturación:
-
El usuario no puede crear
BillingAccountBinding
debido a un error del webhook de validación.
Almacenamiento en bloque:
-
Los Pods de Grafana están bloqueados en el estado
Init
debido a errores de montaje de volumen. - Se produjo un error de vinculación múltiple de Trident.
Servicio de base de datos:
-
El subcomponente
dbs-fleet
tiene un error de conciliación durante la actualización. -
La creación de
DBCluster
falla después de la actualización.
Administración de identidades y accesos:
-
Los Pods
gatekeeper-audit
en el espacio de nombresopa-system
se reinician con frecuencia.
Supervisión:
- Los Pods de la puerta de enlace de almacenamiento de Cortex pueden entrar en un bucle de fallas durante el inicio mientras se sincronizan con el backend de almacenamiento. Los pods superan sus límites de memoria, lo que provoca que Kubernetes los finalice.
- Los pods del proxy de métricas del plano de control de Kube pueden entrar en un bucle de fallas con un error de retirada de extracción de imágenes.
-
Un aumento en el WAL (registro de escritura por adelantado) hace que Prometheus use mucha memoria. Debido a este problema, el nodo de VM del plano de control del sistema informa eventos
NodeHasInsufficientMemory
yEvictionThresholdMet
.
Redes:
- No se pudo extraer ni extraer una imagen del interruptor.
Almacenamiento de objetos:
- Se pueden ignorar algunas advertencias de actualización del almacenamiento de objetos.
Sistema operativo:
-
Los Pods están atascados en el estado
ContainerCreating
en un solo nodo.
Servidores físicos:
- No se puede aprovisionar el servidor DL380a.
Actualizar:
- Una falla de Helm durante la actualización provoca una serie de reversiones.
- Cuando se actualiza desde HW2.0 y Ubuntu, la actualización del nodo muestra incorrectamente RockyLinux.
-
No se vació el Pod de
dhcp-tftp-core-server
. -
El
OrganizationUpgrade
está atascado en la etapa de actualización del nodo. - Falla de conectividad intermitente a la VIP del clúster externo.
- El kernel no puede crear el contenedor.
-
Aparece un error
Incorrect version of Trident
durante la actualización. - Durante el aprovisionamiento del clúster de usuarios, no se pueden programar algunos Pods.
-
La actualización de la organización del arrendatario falla en la etapa de verificación previa con
ErrImagePull
. - La actualización de la organización raíz se detuvo en un trabajo de firma fallido.
- Durante la actualización, falla la tarea de una organización raíz debido a la falta de cuentas de servicio.
-
La actualización falla en
shared-service-cluster upgrade
- El nodo falla durante la actualización del clúster de usuario.
- La actualización de la organización raíz falla en la verificación previa.
-
Hay un tiempo de espera persistente durante el
organizationupgrade
raíz inicial. -
El subcomponente
obj-syslog-server
no se concilia en la organización raíz.
Máquinas virtuales:
-
El complemento del dispositivo NVIDIA
DaemonSet
falla con el mensajedriver rpc error
en los nodos del clúster con GPU. Este problema hace que las GPUs no estén disponibles para las máquinas virtuales y los Pods. - La VM del clúster del sistema no está lista.
- Un volumen de datos informa que no se encontró el espacio de trabajo.
-
El subcomponente
obj-syslog-server
no se concilia en la organización raíz.
Vertex AI:
-
La función de la API
streaming_recognize
previamente entrenada de Speech-to-Text falla debido a un problema con la biblioteca cliente. -
El sondeo del estado del trabajo no es compatible con la API de
batchTranslateDocument
. -
Las solicitudes
batchTranslateDocument
pueden causar problemas de rendimiento. - La primera vez que habilites las APIs previamente entrenadas, es posible que la consola de GDC muestre un estado incoherente después de unos minutos.
-
Las solicitudes de traducción con más de 250 caracteres pueden fallar en los pods de
translation-prediction-server
. -
El
GPUAllocation
para el clúster de servicio compartido no está configurado correctamente. - Cuando se actualiza de la versión 1.9.x a la 1.13.3, es posible que el controlador de Operable Component Lifecycle Management (OCLCM) para los subcomponentes de Vertex AI muestre errores.
-
Es posible que las solicitudes de traducción generen el código de error
RESOURCE_EXHAUSTED
cuando se supere el límite de frecuencia del sistema. -
Las solicitudes de
batchTranslateDocument
devuelven el error503 "Batch Document translation is not implemented
si el parámetro operableenableRAG
no se establece entrue
en el clúster.
Supervisión:
- Se corrigió un problema por el que se restablecía el ConfigMap de Prober para que no incluyera trabajos de sondeo.
Redes:
-
Se corrigió un problema por el que no se asignaba un
PodCIDR
a los nodos, aunque se creara unClusterCIDRConfig
.
Sistema operativo:
- Se corrigió un problema con el trabajo de
bm-system-machine-preflight-check
Ansible para un nodo de equipo físico o VM que fallaba conEither ip_tables or nf_tables kernel module must be loaded
.
Servidores físicos:
- Se corrigió un problema con la falla del arranque del servidor debido a problemas de POST en el servidor de HPE.
Actualizar:
- Se corrigió un problema por el que fallaba la actualización en el subcomponente
iac-zoneselection-global
.
Vertex AI:
-
Se solucionó un problema por el que
MonitoringTarget
mostraba un estadoNot Ready
cuando se creaban clústeres de usuarios, lo que provocaba que las APIs previamente entrenadas mostraran continuamente un estadoEnabling
en la interfaz de usuario.
Administrador de complementos:
La versión de Google Distributed Cloud para equipos físicos se actualizó a la versión 1.29.300-gke.185 para aplicar los parches de seguridad y las actualizaciones importantes más recientes.
Consulta las notas de la versión 1.29.300-gke.185 de Google Distributed Cloud para Bare Metal para obtener más información.
Actualizar:
- La documentación de actualización proporciona duraciones estimadas para las diferentes etapas del proceso de actualización.