30 de agosto del 2024
Consulta la descripción general del producto para obtener información sobre las funciones de Distributed Cloud.
Gestión de clústeres:
- Se ha introducido un conjunto más amplio de perfiles de GPU con varias instancias (MIG) (modo uniforme y mixto). Puedes crear clústeres de Google Kubernetes Engine en VMs con GPU (VMs A3) con varios esquemas de segmentación de GPU y abordar dinámicamente las necesidades de recursos de GPU de los servicios que alojan cargas de trabajo de inteligencia artificial (IA).
Hardware:
- Ya están disponibles los nuevos servidores DL380a con las últimas GPUs NVIDIA Hopper H100 (2x2 NVL), junto con los procesadores Intel de quinta generación más recientes.
Máquinas virtuales:
- Hay disponible un nuevo tipo de máquina virtual A3 optimizada para GPUs. El tipo de VM A3 tiene 4 GPUs NVIDIA H100 de 80 GB conectadas, que pueden ejecutar tus cargas de trabajo de IA que requieran modelos de lenguaje grandes de hasta 100.000 millones de parámetros.
- Se han introducido formas de máquinas virtuales A3 más pequeñas, con 1 GPU H100 de 80 GB y 2 GPUs H100 de 80 GB conectadas por máquina virtual. Esta función está en versión preliminar.
Vertex AI:
- Se ha incluido la compatibilidad con nuevos formatos de archivo para la traducción de documentos (DOC, PPT, TXT y XLS).
- Se ha añadido la API y la compatibilidad con la traducción de documentos por lotes.
- Se ha añadido un nuevo formato para el tipo de acelerador de las GPUs MIG en el pool de recursos para las predicciones online.
- Se ha añadido la función de detección automática del idioma para traducciones insertadas y documentos almacenados en contenedores.
- La plataforma de APIs está en la fase de producción.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
Se ha actualizado la versión de la imagen de Rocky OS a 20240731 para aplicar los parches de seguridad y las actualizaciones importantes más recientes.
Facturación:
-
El usuario no puede crear un
BillingAccountBindingdebido a un error del webhook de validación.Para obtener más información, consulta Problemas conocidos.
Almacenamiento en bloques:
-
Los pods de Grafana se quedan en el estado
Initdebido a errores de montaje de volumen.Para obtener más información, consulta Problemas conocidos.
-
Se ha producido un error de archivos adjuntos múltiples de Trident.
Para obtener más información, consulta Problemas conocidos.
Database Service:
-
El subcomponente
dbs-fleettiene un error de conciliación al actualizarse.Para obtener más información, consulta Problemas conocidos.
-
La creación de
DBClusterfalla después de la actualización.Para obtener más información, consulta Problemas conocidos.
Gestión de identidades y accesos:
-
Los pods
gatekeeper-auditdel espacio de nombresopa-systemse reinician con frecuencia.Para obtener más información, consulta Problemas conocidos.
Monitorización:
-
Los pods de la pasarela de la tienda de Cortex pueden entrar en un bucle de fallos al iniciarse mientras se sincronizan con el backend de almacenamiento. Los pods superan sus límites de memoria, lo que provoca que Kubernetes los termine.
Para obtener más información, consulta Problemas conocidos.
-
Los pods proxy de métricas del plano de control de Kube pueden entrar en un bucle de fallos con un error de retardo de extracción de imágenes.
Para obtener más información, consulta Problemas conocidos.
-
El aumento del registro WAL (registro anticipado de escritura) provoca que Prometheus use mucha memoria. El nodo de VM del plano de control del sistema informa de los eventos
NodeHasInsufficientMemoryyEvictionThresholdMetdebido a este problema.Para obtener más información, consulta Problemas conocidos.
Redes:
-
No se ha podido extraer o extraer una imagen del conmutador.
Para obtener más información, consulta Problemas conocidos.
Almacenamiento de objetos:
-
Algunas advertencias de actualización del almacenamiento de objetos se pueden ignorar.
Para obtener más información, consulta Problemas conocidos.
Sistema operativo:
-
Los pods se quedan en estado
ContainerCreatingen un solo nodo.Para obtener más información, consulta Problemas conocidos.
Servidores físicos:
-
El servidor DL380a no se puede aprovisionar.
Para obtener más información, consulta Problemas conocidos.
Cambio:
- Si se produce un error de Helm durante la actualización, se producirán una serie de restauraciones.
Para obtener más información, consulta Problemas conocidos.
-
Al actualizar de HW2.0 y Ubuntu, la actualización del nodo muestra RockyLinux de forma incorrecta.
Para obtener más información, consulta Problemas conocidos.
-
El pod
dhcp-tftp-core-serverno se ha vaciado.Para obtener más información, consulta Problemas conocidos.
-
El
OrganizationUpgradese ha quedado bloqueado en la fase de actualización de nodos.Para obtener más información, consulta Problemas conocidos.
-
Fallo de conectividad intermitente a la IP virtual del clúster externo.
Para obtener más información, consulta Problemas conocidos.
-
El kernel no puede crear el contenedor.
Para obtener más información, consulta Problemas conocidos.
-
Aparece un error
Incorrect version of Tridentdurante la actualización.Para obtener más información, consulta Problemas conocidos.
-
Durante el aprovisionamiento de clústeres de usuarios, no se pueden programar algunos pods.
Para obtener más información, consulta Problemas conocidos.
-
La actualización de la organización del cliente falla en la fase de comprobación previa con el error
ErrImagePull.Para obtener más información, consulta Problemas conocidos.
-
La actualización de la organización raíz se ha quedado bloqueada en un trabajo de firma fallido.
Para obtener más información, consulta Problemas conocidos.
-
Durante la actualización, la tarea de una organización raíz falla porque faltan cuentas de servicio.
Para obtener más información, consulta Problemas conocidos.
-
No se puede actualizar a
shared-service-cluster upgradePara obtener más información, consulta Problemas conocidos.
-
El nodo falla durante la actualización del clúster de usuarios.
Para obtener más información, consulta Problemas conocidos.
-
La actualización de la organización raíz falla en la comprobación previa.
Para obtener más información, consulta Problemas conocidos.
-
Hay un tiempo de espera persistente durante la raíz inicial
organizationupgrade.Para obtener más información, consulta Problemas conocidos.
-
El subcomponente
obj-syslog-serverno se reconcilia en la organización raíz.Para obtener más información, consulta Problemas conocidos.
Máquinas virtuales:
-
El complemento de dispositivo NVIDIA
DaemonSetfalla y muestra el mensajedriver rpc erroren los nodos del clúster con GPUs. Este problema provoca que las GPUs no estén disponibles para las máquinas virtuales y los pods.Para obtener más información, consulta Problemas conocidos.
-
La VM del clúster del sistema no está lista.
Para obtener más información, consulta Problemas conocidos.
-
Un volumen de datos informa de que no se encuentra el espacio de trabajo.
Para obtener más información, consulta Problemas conocidos.
-
El subcomponente
obj-syslog-serverno se reconcilia en la organización raíz.Para obtener más información, consulta Problemas conocidos.
Vertex AI:
-
La función de API preentrenada
streaming_recognizede Speech-to-Text falla debido a un problema con la biblioteca de cliente.Para obtener más información, consulta Problemas conocidos.
-
No se admite el sondeo del estado de los trabajos en la API
batchTranslateDocument.Para obtener más información, consulta Problemas conocidos.
-
Las solicitudes
batchTranslateDocumentpueden causar problemas de rendimiento.Para obtener más información, consulta Problemas conocidos.
-
La primera vez que habilites las APIs preentrenadas, es posible que la consola de GDC muestre un estado incoherente al cabo de unos minutos.
Para obtener más información, consulta Problemas conocidos.
-
Las solicitudes de traducción con más de 250 caracteres pueden provocar un fallo en los pods de
translation-prediction-server.Para obtener más información, consulta Problemas conocidos.
-
El
GPUAllocationdel clúster de servicios compartidos no está configurado correctamente.Para obtener más información, consulta Problemas conocidos.
-
Al actualizar de la versión 1.9.x a la 1.13.3, es posible que el controlador de gestión del ciclo de vida de los componentes operativos (OCLCM) de los subcomponentes de Vertex AI muestre errores.
Para obtener más información, consulta Problemas conocidos.
-
Las solicitudes de traducción pueden generar el código de error
RESOURCE_EXHAUSTEDcuando se ha superado el límite de frecuencia del sistema.Para obtener más información, consulta Problemas conocidos.
-
Las solicitudes
batchTranslateDocumentdevuelven el error503 "Batch Document translation is not implementedsi el parámetro operableenableRAGno se define comotrueen el clúster.Para obtener más información, consulta Problemas conocidos.
Monitorización:
- Se ha corregido un problema que provocaba que el ConfigMap de Prober se restableciera para no incluir ningún trabajo de sondeo.
Redes:
-
Se ha corregido un problema que provocaba que no se asignara un
PodCIDRa los nodos aunque se creara unClusterCIDRConfig.Para obtener más información, consulta Problemas conocidos.
Sistema operativo:
- Se ha corregido un problema que provocaba que la
bm-system-machine-preflight-checktarea de Ansible de un nodo de máquina virtual o Bare Metal fallara conEither ip_tables or nf_tables kernel module must be loaded.Para obtener más información, consulta Problemas conocidos.
Servidores físicos:
- Se ha corregido un problema que provocaba que el arranque del servidor fallara debido a problemas con POST en el servidor HPE.
Para obtener más información, consulta Problemas conocidos.
Cambio:
- Se ha corregido un problema que provocaba un error al actualizar el subcomponente
iac-zoneselection-global.Para obtener más información, consulta Problemas conocidos.
Vertex AI:
-
Se ha corregido un problema que provocaba que
MonitoringTargetmostrara el estadoNot Readycuando se creaban clústeres de usuarios, lo que hacía que las APIs preentrenadas mostraran continuamente el estadoEnablingen la interfaz de usuario.
Gestor de complementos:
La versión de Google Distributed Cloud para bare metal se ha actualizado a la 1.29.300-gke.185 para aplicar los últimos parches de seguridad y actualizaciones importantes.
Para obtener más información, consulta las notas de la versión 1.29.300-gke.185 de Google Distributed Cloud para Bare Metal.
Cambio:
- En la documentación de actualización se indican las duraciones estimadas de las diferentes fases del proceso de actualización.