Se usó la API de Cloud Translation para traducir esta página.

Notas de la versión 1.13.3 de Google Distributed Cloud aislado

30 de agosto de 2024

Ya está disponible la versión 1.13.3 de Google Distributed Cloud (GDC) aislado.
Consulta la descripción general del producto para obtener información sobre las funciones de Distributed Cloud.

Administración de clústeres:

Se introdujo un conjunto más amplio de perfiles de GPU de instancias múltiples (MIG) (modo uniforme y mixto). Puedes crear clústeres de Google Kubernetes Engine en VMs con GPU (VMs A3) con una variedad de esquemas de segmentación de GPU y abordar de forma dinámica las necesidades de recursos de GPU de los servicios que alojan cargas de trabajo de inteligencia artificial (IA).

Hardware:

Ya están disponibles los nuevos servidores DL380a con las GPUs NVIDIA Hopper H100 más recientes (2x2 NVL), junto con los procesadores Intel de 5ª generación más nuevos.

Máquinas virtuales:

Hay disponible un nuevo tipo de VM A3 optimizada para GPU. El tipo de VM A3 tiene 4 GPU NVIDIA H100 de 80 GB conectadas, que pueden ejecutar tus cargas de trabajo de IA que requieren modelos de lenguaje grandes de hasta 100,000 millones de parámetros.
Se introducen formas de VM A3 más pequeñas, con 1 GPU H100 de 80 GB y 2 GPU H100 de 80 GB conectadas por VM. Esta función está en vista previa.

Vertex AI:

Se agregó compatibilidad con nuevos formatos de archivo para la traducción de documentos (DOC, PPT, TXT, XLS).
Se agregó la API y la compatibilidad con la traducción de documentos por lotes.
Se admitió un nuevo formato para el tipo de acelerador de las GPUs de MIG en el grupo de recursos para las predicciones en línea.
Se agregó compatibilidad con la función de detección automática de idiomas para las traducciones intercaladas y los documentos almacenados en buckets.
La plataforma de API se encuentra en la etapa de producción.

Se actualizó la versión de la imagen de SO Ubuntu de Canonical a 20240811 para aplicar los parches de seguridad y las actualizaciones importantes más recientes. Para aprovechar las correcciones de errores y vulnerabilidades de seguridad, debes actualizar todos los nodos con cada versión. Se corrigieron las siguientes vulnerabilidades de seguridad:

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

Se actualizó la versión de la imagen de SO Rocky a 20240731 para aplicar los parches de seguridad y las actualizaciones importantes más recientes.

Facturación:

El usuario no puede crear BillingAccountBinding debido a un error del webhook de validación.
Para obtener más información, consulta Problemas conocidos.

Almacenamiento en bloque:

Los Pods de Grafana están bloqueados en el estado Init debido a errores de montaje de volumen.
Para obtener más información, consulta Problemas conocidos.
Se produjo un error de vinculación múltiple de Trident.
Para obtener más información, consulta Problemas conocidos.

Servicio de base de datos:

El subcomponente dbs-fleet tiene un error de conciliación durante la actualización.
Para obtener más información, consulta Problemas conocidos.
La creación de DBCluster falla después de la actualización.
Para obtener más información, consulta Problemas conocidos.

Administración de identidades y accesos:

Los Pods gatekeeper-audit en el espacio de nombres opa-system se reinician con frecuencia.
Para obtener más información, consulta Problemas conocidos.

Supervisión:

Los Pods de la puerta de enlace de almacenamiento de Cortex pueden entrar en un bucle de fallas durante el inicio mientras se sincronizan con el backend de almacenamiento. Los pods superan sus límites de memoria, lo que provoca que Kubernetes los finalice.
Para obtener más información, consulta Problemas conocidos.
Los pods del proxy de métricas del plano de control de Kube pueden entrar en un bucle de fallas con un error de retirada de extracción de imágenes.
Para obtener más información, consulta Problemas conocidos.
Un aumento en el WAL (registro de escritura por adelantado) hace que Prometheus use mucha memoria. Debido a este problema, el nodo de VM del plano de control del sistema informa eventos NodeHasInsufficientMemory y EvictionThresholdMet.
Para obtener más información, consulta Problemas conocidos.

Redes:

No se pudo extraer ni extraer una imagen del interruptor.
Para obtener más información, consulta Problemas conocidos.

Almacenamiento de objetos:

Se pueden ignorar algunas advertencias de actualización del almacenamiento de objetos.
Para obtener más información, consulta Problemas conocidos.

Sistema operativo:

Los Pods están atascados en el estado ContainerCreating en un solo nodo.
Para obtener más información, consulta Problemas conocidos.

Servidores físicos:

No se puede aprovisionar el servidor DL380a.
Para obtener más información, consulta Problemas conocidos.

Actualizar:

Una falla de Helm durante la actualización provoca una serie de reversiones.
Para obtener más información, consulta Problemas conocidos.
Cuando se actualiza desde HW2.0 y Ubuntu, la actualización del nodo muestra incorrectamente RockyLinux.
Para obtener más información, consulta Problemas conocidos.
No se vació el Pod de dhcp-tftp-core-server.
Para obtener más información, consulta Problemas conocidos.
El OrganizationUpgradeestá atascado en la etapa de actualización del nodo.
Para obtener más información, consulta Problemas conocidos.
Falla de conectividad intermitente a la VIP del clúster externo.
Para obtener más información, consulta Problemas conocidos.
El kernel no puede crear el contenedor.
Para obtener más información, consulta Problemas conocidos.
Aparece un error Incorrect version of Trident durante la actualización.
Para obtener más información, consulta Problemas conocidos.
Durante el aprovisionamiento del clúster de usuarios, no se pueden programar algunos Pods.
Para obtener más información, consulta Problemas conocidos.
La actualización de la organización del arrendatario falla en la etapa de verificación previa con ErrImagePull.
Para obtener más información, consulta Problemas conocidos.
La actualización de la organización raíz se detuvo en un trabajo de firma fallido.
Para obtener más información, consulta Problemas conocidos.
Durante la actualización, falla la tarea de una organización raíz debido a la falta de cuentas de servicio.
Para obtener más información, consulta Problemas conocidos.
La actualización falla en shared-service-cluster upgrade
Para obtener más información, consulta Problemas conocidos.
El nodo falla durante la actualización del clúster de usuario.
Para obtener más información, consulta Problemas conocidos.
La actualización de la organización raíz falla en la verificación previa.
Para obtener más información, consulta Problemas conocidos.
Hay un tiempo de espera persistente durante el organizationupgrade raíz inicial.
Para obtener más información, consulta Problemas conocidos.
El subcomponente obj-syslog-server no se concilia en la organización raíz.
Para obtener más información, consulta Problemas conocidos.

Máquinas virtuales:

El complemento del dispositivo NVIDIA DaemonSet falla con el mensaje driver rpc error en los nodos del clúster con GPU. Este problema hace que las GPUs no estén disponibles para las máquinas virtuales y los Pods.
Para obtener más información, consulta Problemas conocidos.
La VM del clúster del sistema no está lista.
Para obtener más información, consulta Problemas conocidos.
Un volumen de datos informa que no se encontró el espacio de trabajo.
Para obtener más información, consulta Problemas conocidos.
El subcomponente obj-syslog-server no se concilia en la organización raíz.
Para obtener más información, consulta Problemas conocidos.

Vertex AI:

La función de la API streaming_recognize previamente entrenada de Speech-to-Text falla debido a un problema con la biblioteca cliente.
Para obtener más información, consulta Problemas conocidos.
El sondeo del estado del trabajo no es compatible con la API de batchTranslateDocument.
Para obtener más información, consulta Problemas conocidos.
Las solicitudes batchTranslateDocument pueden causar problemas de rendimiento.
Para obtener más información, consulta Problemas conocidos.
La primera vez que habilites las APIs previamente entrenadas, es posible que la consola de GDC muestre un estado incoherente después de unos minutos.
Para obtener más información, consulta Problemas conocidos.
Las solicitudes de traducción con más de 250 caracteres pueden fallar en los pods de translation-prediction-server.
Para obtener más información, consulta Problemas conocidos.
El GPUAllocation para el clúster de servicio compartido no está configurado correctamente.
Para obtener más información, consulta Problemas conocidos.
Cuando se actualiza de la versión 1.9.x a la 1.13.3, es posible que el controlador de Operable Component Lifecycle Management (OCLCM) para los subcomponentes de Vertex AI muestre errores.
Para obtener más información, consulta Problemas conocidos.
Es posible que las solicitudes de traducción generen el código de error RESOURCE_EXHAUSTED cuando se supere el límite de frecuencia del sistema.
Para obtener más información, consulta Problemas conocidos.
Las solicitudes de batchTranslateDocument devuelven el error 503 "Batch Document translation is not implemented si el parámetro operable enableRAG no se establece en true en el clúster.
Para obtener más información, consulta Problemas conocidos.

Supervisión:

Se corrigió un problema por el que se restablecía el ConfigMap de Prober para que no incluyera trabajos de sondeo.

Redes:

Se corrigió un problema por el que no se asignaba un PodCIDR a los nodos, aunque se creara un ClusterCIDRConfig.
Para obtener más información, consulta Problemas conocidos.

Sistema operativo:

Se corrigió un problema con el trabajo de bm-system-machine-preflight-check Ansible para un nodo de equipo físico o VM que fallaba con Either ip_tables or nf_tables kernel module must be loaded.
Para obtener más información, consulta Problemas conocidos.

Servidores físicos:

Se corrigió un problema con la falla del arranque del servidor debido a problemas de POST en el servidor de HPE.
Para obtener más información, consulta Problemas conocidos.

Actualizar:

Se corrigió un problema por el que fallaba la actualización en el subcomponente iac-zoneselection-global.
Para obtener más información, consulta Problemas conocidos.

Vertex AI:

Se solucionó un problema por el que MonitoringTarget mostraba un estado Not Ready cuando se creaban clústeres de usuarios, lo que provocaba que las APIs previamente entrenadas mostraran continuamente un estado Enabling en la interfaz de usuario.

Administrador de complementos:

La versión de Google Distributed Cloud para equipos físicos se actualizó a la versión 1.29.300-gke.185 para aplicar los parches de seguridad y las actualizaciones importantes más recientes.

Consulta las notas de la versión 1.29.300-gke.185 de Google Distributed Cloud para Bare Metal para obtener más información.

Actualizar:

La documentación de actualización proporciona duraciones estimadas para las diferentes etapas del proceso de actualización.

Notas de la versión 1.13.3 de Google Distributed Cloud aislado Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

30 de agosto de 2024

Notas de la versión 1.13.3 de Google Distributed Cloud aislado