2024년 8월 30일
Google Distributed Cloud (GDC) 에어 갭 적용 1.13.3을 사용할 수 있습니다.
Distributed Cloud의 기능에 대해 알아보려면 제품 개요를 참고하세요.
Distributed Cloud의 기능에 대해 알아보려면 제품 개요를 참고하세요.
클러스터 관리:
- 더 광범위한 멀티 인스턴스 GPU (MIG) 프로필 (균일 및 혼합 모드)이 도입되었습니다. 다양한 GPU 슬라이싱 스키마를 사용하여 GPU VM(A3 VM)에 Google Kubernetes Engine 클러스터를 만들고 인공지능 (AI) 워크로드를 호스팅하는 서비스의 GPU 리소스 요구사항을 동적으로 해결할 수 있습니다.
하드웨어:
- 최신 NVIDIA Hopper H100 GPU (2x2 NVL)와 최신 5세대 Intel 프로세서가 페어링된 새로운 DL380a 서버를 사용할 수 있습니다.
가상 머신:
- 새로운 GPU 최적화 A3 VM 유형을 사용할 수 있습니다. A3 VM 유형에는 NVIDIA H100 80GB GPU가 4개 연결되어 있으며, 최대 1,000억 개의 매개변수가 필요한 대규모 언어 모델을 사용하는 AI 워크로드를 실행할 수 있습니다.
- VM당 1개의 H100 80GB GPU와 2개의 H100 80GB GPU가 연결된 더 작은 A3 VM 형태가 도입됩니다. 이 기능은 미리보기 버전으로 제공됩니다.
Vertex AI:
- 문서 번역의 새로운 파일 형식 (DOC, PPT, TXT, XLS) 지원이 포함되었습니다.
- 일괄 문서 번역을 위한 API와 지원이 추가되었습니다.
- 온라인 예측을 위한 리소스 풀에서 MIG GPU의 가속기 유형에 대한 새로운 형식을 지원합니다.
- 인라인 번역 및 버킷에 저장된 문서의 언어 자동 감지 기능을 지원했습니다.
- API 플랫폼이 프로덕션 단계에 있습니다.
최신 보안 패치와 중요한 업데이트를 적용하기 위해 Canonical Ubuntu OS 이미지 버전을 20240811로 업데이트했습니다.
버그 및 보안 취약점 수정을 활용하려면 각 출시마다 모든 노드를 업그레이드해야 합니다.
다음 보안 취약점이 수정되었습니다.
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
최신 보안 패치와 중요한 업데이트를 적용하기 위해 Rocky OS 이미지 버전을 20240731로 업데이트했습니다.
결제:
-
유효성 검사 웹훅 오류로 인해 사용자가
BillingAccountBinding
를 만들지 못함
블록 스토리지:
-
볼륨 마운트 오류로 인해 Grafana 포드가
Init
상태로 멈춤 - Trident 다중 연결 오류가 있습니다.
데이터베이스 서비스:
-
업그레이드 시
dbs-fleet
하위 구성요소에 조정 오류가 있습니다. -
업그레이드 후
DBCluster
생성이 실패합니다.
ID 및 액세스 관리:
-
opa-system
네임스페이스의gatekeeper-audit
포드가 자주 다시 시작됩니다.
모니터링:
- 스토리지 백엔드와 동기화하는 동안 Cortex 스토어 게이트웨이 포드가 시작 시 crashloop될 수 있습니다. 포드가 메모리 한도를 초과하여 Kubernetes가 포드를 종료합니다.
- Kube 컨트롤 플레인 측정항목 프록시 포드가 이미지 가져오기 백오프 오류로 인해 비정상 종료될 수 있습니다.
-
WAL (미리 쓰기 로그)이 증가하면 Prometheus가 많은 메모리를 사용합니다. 이 문제로 인해 시스템 컨트롤 플레인 VM 노드가
NodeHasInsufficientMemory
및EvictionThresholdMet
이벤트를 보고합니다.
네트워킹:
- 스위치 이미지가 이미지를 추출하거나 가져오지 못했습니다.
객체 스토리지:
- 일부 객체 스토리지 업그레이드 경고는 무시해도 됩니다.
운영체제:
-
포드가 단일 노드에서
ContainerCreating
상태로 멈춰 있습니다.
물리적 서버:
- DL380a 서버 프로비저닝이 실패합니다.
업그레이드:
- 업그레이드 중에 Helm 오류가 발생하면 일련의 롤백이 발생합니다.
- HW2.0 및 Ubuntu에서 업그레이드할 때 노드 업그레이드에 RockyLinux가 잘못 표시됩니다.
-
dhcp-tftp-core-server
포드가 드레인되지 않습니다. -
OrganizationUpgrade
이 노드 업그레이드 단계에서 멈춰 있습니다. - 외부 클러스터 VIP에 대한 간헐적인 연결 실패
- 커널이 컨테이너를 만들지 못함
-
업그레이드 중에
Incorrect version of Trident
오류가 표시됩니다. - 사용자 클러스터 프로비저닝 중에 일부 포드가 예약되지 않습니다.
-
테넌트 조직 업그레이드가 실행 전 검사 단계에서
ErrImagePull
로 인해 실패합니다. - 실패한 서명 작업으로 인해 루트 조직 업그레이드가 중단되었습니다.
- 업그레이드 중에 서비스 계정이 누락되어 루트 조직의 작업이 실패합니다.
-
shared-service-cluster upgrade
- 사용자 클러스터 업그레이드 중에 노드가 실패합니다.
- 실행 전 검사로 인해 루트 조직 업그레이드가 실패합니다.
-
초기 루트
organizationupgrade
중에 지속적인 시간 초과가 있습니다. -
obj-syslog-server
하위 구성요소가 루트 조직에서 조정에 실패합니다.
가상 머신:
-
GPU가 있는 클러스터 노드에서 NVIDIA 기기 플러그인
DaemonSet
이driver rpc error
메시지와 함께 실패합니다. 이 문제로 인해 가상 머신과 포드에서 GPU를 사용할 수 없습니다. - 시스템 클러스터 VM이 준비되지 않았습니다.
- 데이터 볼륨에서 스크래치 공간을 찾을 수 없다고 보고합니다.
-
obj-syslog-server
하위 구성요소가 루트 조직에서 조정에 실패합니다.
Vertex AI:
-
클라이언트 라이브러리 문제로 인해 Speech-to-Text의
streaming_recognize
사전 학습된 API 함수가 실패합니다. -
batchTranslateDocument
API에서는 작업 상태 폴링이 지원되지 않습니다. -
batchTranslateDocument
요청은 성능 문제를 일으킬 수 있습니다. - 사전 학습된 API를 처음 사용 설정하면 몇 분 후에 GDC 콘솔에 일관되지 않은 상태가 표시될 수 있습니다.
-
250자를 초과하는 번역 요청은
translation-prediction-server
포드를 비정상 종료시킬 수 있습니다. -
공유 서비스 클러스터의
GPUAllocation
가 올바르게 구성되지 않았습니다. - 버전 1.9.x에서 1.13.3으로 업그레이드할 때 Vertex AI 하위 구성요소의 작동 가능한 구성요소 수명 주기 관리 (OCLCM) 컨트롤러에 오류가 표시될 수 있습니다.
-
시스템 빈도 제한이 초과되면 번역 요청에
RESOURCE_EXHAUSTED
오류 코드가 생성될 수 있습니다. -
batchTranslateDocument
요청은 클러스터에서enableRAG
작동 가능 매개변수가true
로 설정되지 않은 경우 오류503 "Batch Document translation is not implemented
을 반환합니다.
모니터링:
- 프로브 작업이 포함되지 않도록 프로브 ConfigMap이 재설정되는 문제가 수정되었습니다.
네트워킹:
-
ClusterCIDRConfig
가 생성되었는데도PodCIDR
가 노드에 할당되지 않는 문제가 수정되었습니다.
운영체제:
- 베어메탈 또는 VM 노드의
bm-system-machine-preflight-check
Ansible 작업이Either ip_tables or nf_tables kernel module must be loaded
로 실패하는 문제가 수정되었습니다.
물리적 서버:
- HPE 서버의 POST 문제로 인해 서버 부트스트랩이 실패하는 문제가 수정되었습니다.
업그레이드:
iac-zoneselection-global
하위 구성요소에서 업그레이드가 실패하는 문제를 수정했습니다.
Vertex AI:
-
사용자 클러스터가 생성될 때
MonitoringTarget
에Not Ready
상태가 표시되어 사전 학습된 API가 사용자 인터페이스에Enabling
상태를 계속 표시하는 문제가 수정되었습니다.
부가기능 관리자:
최신 보안 패치와 중요 업데이트를 적용하기 위해 베어메탈용 Google Distributed Cloud 버전이 1.29.300-gke.185로 업데이트됩니다.
자세한 내용은 베어메탈용 Google Distributed Cloud 1.29.300-gke.185 출시 노트를 참고하세요.
업그레이드:
- 업그레이드 문서에는 업그레이드 프로세스의 다양한 단계에 대한 예상 시간이 나와 있습니다.