에어 갭이 적용된 Google Distributed Cloud 1.13.3 출시 노트

2024년 8월 30일


Google Distributed Cloud (GDC) 에어 갭 적용 1.13.3을 사용할 수 있습니다.
Distributed Cloud의 기능에 대해 알아보려면 제품 개요를 참고하세요.

클러스터 관리:

  • 더 광범위한 멀티 인스턴스 GPU (MIG) 프로필 (균일 및 혼합 모드)이 도입되었습니다. 다양한 GPU 슬라이싱 스키마를 사용하여 GPU VM(A3 VM)에 Google Kubernetes Engine 클러스터를 만들고 인공지능 (AI) 워크로드를 호스팅하는 서비스의 GPU 리소스 요구사항을 동적으로 해결할 수 있습니다.

하드웨어:

  • 최신 NVIDIA Hopper H100 GPU (2x2 NVL)와 최신 5세대 Intel 프로세서가 페어링된 새로운 DL380a 서버를 사용할 수 있습니다.

가상 머신:

  • 새로운 GPU 최적화 A3 VM 유형을 사용할 수 있습니다. A3 VM 유형에는 NVIDIA H100 80GB GPU가 4개 연결되어 있으며, 최대 1,000억 개의 매개변수가 필요한 대규모 언어 모델을 사용하는 AI 워크로드를 실행할 수 있습니다.
  • VM당 1개의 H100 80GB GPU와 2개의 H100 80GB GPU가 연결된 더 작은 A3 VM 형태가 도입됩니다. 이 기능은 미리보기 버전으로 제공됩니다.

Vertex AI:



최신 보안 패치와 중요한 업데이트를 적용하기 위해 Rocky OS 이미지 버전을 20240731로 업데이트했습니다.


결제:

  • 유효성 검사 웹훅 오류로 인해 사용자가 BillingAccountBinding를 만들지 못함

블록 스토리지:

  • 볼륨 마운트 오류로 인해 Grafana 포드가 Init 상태로 멈춤
  • Trident 다중 연결 오류가 있습니다.

데이터베이스 서비스:

  • 업그레이드 시 dbs-fleet 하위 구성요소에 조정 오류가 있습니다.
  • 업그레이드 후 DBCluster 생성이 실패합니다.

ID 및 액세스 관리:

  • opa-system 네임스페이스의 gatekeeper-audit 포드가 자주 다시 시작됩니다.

모니터링:

  • 스토리지 백엔드와 동기화하는 동안 Cortex 스토어 게이트웨이 포드가 시작 시 crashloop될 수 있습니다. 포드가 메모리 한도를 초과하여 Kubernetes가 포드를 종료합니다.
  • Kube 컨트롤 플레인 측정항목 프록시 포드가 이미지 가져오기 백오프 오류로 인해 비정상 종료될 수 있습니다.
  • WAL (미리 쓰기 로그)이 증가하면 Prometheus가 많은 메모리를 사용합니다. 이 문제로 인해 시스템 컨트롤 플레인 VM 노드가 NodeHasInsufficientMemoryEvictionThresholdMet 이벤트를 보고합니다.

네트워킹:

  • 스위치 이미지가 이미지를 추출하거나 가져오지 못했습니다.

객체 스토리지:

  • 일부 객체 스토리지 업그레이드 경고는 무시해도 됩니다.

운영체제:

  • 포드가 단일 노드에서 ContainerCreating 상태로 멈춰 있습니다.

물리적 서버:

  • DL380a 서버 프로비저닝이 실패합니다.

업그레이드:

  • 업그레이드 중에 Helm 오류가 발생하면 일련의 롤백이 발생합니다.
  • HW2.0 및 Ubuntu에서 업그레이드할 때 노드 업그레이드에 RockyLinux가 잘못 표시됩니다.
  • dhcp-tftp-core-server 포드가 드레인되지 않습니다.
  • OrganizationUpgrade이 노드 업그레이드 단계에서 멈춰 있습니다.
  • 외부 클러스터 VIP에 대한 간헐적인 연결 실패
  • 커널이 컨테이너를 만들지 못함
  • 업그레이드 중에 Incorrect version of Trident 오류가 표시됩니다.
  • 사용자 클러스터 프로비저닝 중에 일부 포드가 예약되지 않습니다.
  • 테넌트 조직 업그레이드가 실행 전 검사 단계에서 ErrImagePull로 인해 실패합니다.
  • 실패한 서명 작업으로 인해 루트 조직 업그레이드가 중단되었습니다.
  • 업그레이드 중에 서비스 계정이 누락되어 루트 조직의 작업이 실패합니다.
  • shared-service-cluster upgrade
  • 사용자 클러스터 업그레이드 중에 노드가 실패합니다.
  • 실행 전 검사로 인해 루트 조직 업그레이드가 실패합니다.
  • 초기 루트 organizationupgrade 중에 지속적인 시간 초과가 있습니다.
  • obj-syslog-server 하위 구성요소가 루트 조직에서 조정에 실패합니다.

가상 머신:

  • GPU가 있는 클러스터 노드에서 NVIDIA 기기 플러그인 DaemonSetdriver rpc error 메시지와 함께 실패합니다. 이 문제로 인해 가상 머신과 포드에서 GPU를 사용할 수 없습니다.
  • 시스템 클러스터 VM이 준비되지 않았습니다.
  • 데이터 볼륨에서 스크래치 공간을 찾을 수 없다고 보고합니다.
  • obj-syslog-server 하위 구성요소가 루트 조직에서 조정에 실패합니다.

Vertex AI:

  • 클라이언트 라이브러리 문제로 인해 Speech-to-Text의 streaming_recognize 사전 학습된 API 함수가 실패합니다.
  • batchTranslateDocument API에서는 작업 상태 폴링이 지원되지 않습니다.
  • batchTranslateDocument 요청은 성능 문제를 일으킬 수 있습니다.
  • 사전 학습된 API를 처음 사용 설정하면 몇 분 후에 GDC 콘솔에 일관되지 않은 상태가 표시될 수 있습니다.
  • 250자를 초과하는 번역 요청은 translation-prediction-server 포드를 비정상 종료시킬 수 있습니다.
  • 공유 서비스 클러스터의 GPUAllocation가 올바르게 구성되지 않았습니다.
  • 버전 1.9.x에서 1.13.3으로 업그레이드할 때 Vertex AI 하위 구성요소의 작동 가능한 구성요소 수명 주기 관리 (OCLCM) 컨트롤러에 오류가 표시될 수 있습니다.
  • 시스템 빈도 제한이 초과되면 번역 요청에 RESOURCE_EXHAUSTED 오류 코드가 생성될 수 있습니다.
  • batchTranslateDocument 요청은 클러스터에서 enableRAG 작동 가능 매개변수가 true로 설정되지 않은 경우 오류 503 "Batch Document translation is not implemented을 반환합니다.

모니터링:

  • 프로브 작업이 포함되지 않도록 프로브 ConfigMap이 재설정되는 문제가 수정되었습니다.

네트워킹:

  • ClusterCIDRConfig가 생성되었는데도 PodCIDR가 노드에 할당되지 않는 문제가 수정되었습니다.

운영체제:

  • 베어메탈 또는 VM 노드의 bm-system-machine-preflight-check Ansible 작업이 Either ip_tables or nf_tables kernel module must be loaded로 실패하는 문제가 수정되었습니다.

물리적 서버:

  • HPE 서버의 POST 문제로 인해 서버 부트스트랩이 실패하는 문제가 수정되었습니다.

업그레이드:

  • iac-zoneselection-global 하위 구성요소에서 업그레이드가 실패하는 문제를 수정했습니다.

Vertex AI:

  • 사용자 클러스터가 생성될 때 MonitoringTargetNot Ready 상태가 표시되어 사전 학습된 API가 사용자 인터페이스에 Enabling 상태를 계속 표시하는 문제가 수정되었습니다.

부가기능 관리자:

업그레이드:

  • 업그레이드 문서에는 업그레이드 프로세스의 다양한 단계에 대한 예상 시간이 나와 있습니다.