2024 年 8 月 30 日
Google Distributed Cloud(GDC)エアギャップ 1.13.3 が利用可能になりました。
Distributed Cloud の機能については、プロダクトの概要をご覧ください。
Distributed Cloud の機能については、プロダクトの概要をご覧ください。
クラスタ管理:
- マルチインスタンス GPU(MIG)プロファイル(均一モードとミックスモード)の幅広いセットを導入しました。さまざまな GPU スライス方式を使用して GPU VM(A3 VM)に Google Kubernetes Engine クラスタを作成し、人工知能(AI)ワークロードをホストするサービスの GPU リソースのニーズに動的に対応できます。
 
ハードウェア:
- 最新の NVIDIA Hopper H100 GPU(2x2 NVL)と最新の第 5 世代 Intel プロセッサを組み合わせた新しい DL380a サーバーが利用可能です。
 
仮想マシン:
- GPU 最適化 A3 VM タイプが新しく利用可能になりました。A3 VM タイプには 4 つの NVIDIA H100 80 GB GPU が接続されており、最大 1, 000 億個のパラメータを必要とする大規模言語モデルを必要とする AI ワークロードを実行できます。
 - 小規模な A3 VM シェイプが導入され、VM あたり 1 つの H100 80 GB GPU と 2 つの H100 80 GB GPU がアタッチされます。この機能はプレビュー中です。
 
Vertex AI:
- ドキュメント翻訳の新しいファイル形式(DOC、PPT、TXT、XLS)のサポートが含まれています。
 - 一括ドキュメント翻訳の API とサポートを追加しました。
 - オンライン予測のリソース プールで、MIG GPU のアクセラレータ タイプの新しい形式をサポートしました。
 - インライン翻訳とバケットに保存されたドキュメントの言語自動検出機能をサポートしました。
 - API プラットフォームは本番環境段階です。
 
Canonical Ubuntu OS イメージのバージョンを 20240811 に更新し、最新のセキュリティ パッチと重要なアップデートを適用しました。
バグとセキュリティの脆弱性の修正を利用するには、各リリースで全ノードをアップグレードする必要があります。
以下のセキュリティの脆弱性が修正されました。
- CVE-2021-20230
 - CVE-2022-48655
 - CVE-2022-4968
 - CVE-2022-48674
 - CVE-2023-6270
 - CVE-2023-6597
 - CVE-2023-52752
 - CVE-2024-0397
 - CVE-2024-0450
 - CVE-2024-0760
 - CVE-2024-1724
 - CVE-2024-1737
 - CVE-2024-1975
 - CVE-2024-2201
 - CVE-2024-4032
 - CVE-2024-4076
 - CVE-2024-5569
 - CVE-2024-6655
 - CVE-2024-7264
 - CVE-2024-23307
 - CVE-2024-24861
 - CVE-2024-26583
 - CVE-2024-26584
 - CVE-2024-26585
 - CVE-2024-26586
 - CVE-2024-26642
 - CVE-2024-26643
 - CVE-2024-26828
 - CVE-2024-26886
 - CVE-2024-26889
 - CVE-2024-26907
 - CVE-2024-26922
 - CVE-2024-26923
 - CVE-2024-26925
 - CVE-2024-26926
 - CVE-2024-27019
 - CVE-2024-29068
 - CVE-2024-29069
 - CVE-2024-35235
 - CVE-2024-36016
 - CVE-2024-37370
 - CVE-2024-37371
 - CVE-2024-38428
 
最新のセキュリティ パッチと重要なアップデートを適用するため、Rocky OS イメージのバージョンを 20240731 に更新しました。
請求:
-   
検証 Webhook エラーのため、ユーザーが 
BillingAccountBindingを作成できない。 
ブロック ストレージ:
-   
ボリューム マウント エラーのため、Grafana Pod が 
Init状態のままになる。 - Trident のマルチアタッチ エラーがあります。
 
Database Service:
-   
アップグレード時に 
dbs-fleetサブコンポーネントで調整エラーが発生します。 -   
アップグレード後に 
DBClusterの作成が失敗します。 
ID とアクセスの管理:
-   
opa-systemNamespace のgatekeeper-auditPod が頻繁に再起動します。 
モニタリング:
- Cortex ストア ゲートウェイ Pod は、ストレージ バックエンドとの同期中に起動時にクラッシュループすることがあります。Pod がメモリ上限を超え、Kubernetes によって終了されます。
 - Kube コントロール プレーンの指標プロキシ Pod が、イメージ pull バックオフ エラーでクラッシュループする可能性があります。
 -   
WAL(write-ahead log)の増加により、Prometheus が大量のメモリを使用します。この問題により、システム コントロール プレーン VM ノードは 
NodeHasInsufficientMemoryイベントとEvictionThresholdMetイベントを報告します。 
ネットワーキング:
- スイッチ イメージがイメージの抽出または pull に失敗しました。
 
オブジェクト ストレージ:
- 一部のオブジェクト ストレージのアップグレード警告は無視できます。
 
オペレーティング システム:
-   
Pod が単一のノードで 
ContainerCreating状態のままになっている。 
物理サーバー:
- DL380a サーバーのプロビジョニングに失敗します。
 
アップグレード:
- アップグレード中に Helm の障害が発生すると、一連のロールバックが発生します。
 - HW2.0 と Ubuntu からアップグレードすると、ノードのアップグレードで RockyLinux が誤って表示されます。
 -   
dhcp-tftp-core-serverPod がドレインされません。 -   
OrganizationUpgradeがノードのアップグレード ステージで停止しています。 - 外部クラスタ VIP への接続が断続的に失敗します。
 - カーネルがコンテナの作成に失敗します。
 -   
アップグレード中に 
Incorrect version of Tridentエラーが表示されます。 - ユーザー クラスタのプロビジョニング中に、一部の Pod のスケジュール設定が失敗します。
 -   
テナント組織のアップグレードがプリフライト チェックの段階で 
ErrImagePullで失敗します。 - ルート組織のアップグレードが、署名ジョブの失敗で停止しています。
 - アップグレード中に、サービス アカウントがないため、ルート組織のタスクが失敗します。
 -   
shared-service-cluster upgradeでアップグレードが失敗する - ユーザー クラスタのアップグレード中にノードが失敗します。
 - プリフライト チェックでルート組織のアップグレードが失敗します。
 -   
初期ルート 
organizationupgradeで永続的なタイムアウトが発生します。 -  
obj-syslog-serverサブコンポーネントがルート組織での調整に失敗します。 
仮想マシン:
-  
NVIDIA デバイス プラグイン 
DaemonSetが、GPU を搭載したクラスタノードでdriver rpc errorメッセージで失敗します。この問題により、仮想マシンと Pod で GPU を使用できなくなります。 - システム クラスタ VM の準備ができていません。
 - データ ボリュームから、スクラッチ スペースが見つからないというレポートが返されます。
 -  
obj-syslog-serverサブコンポーネントがルート組織での調整に失敗します。 
Vertex AI:
-  
クライアント ライブラリの問題により、Speech-to-Text の 
streaming_recognize事前トレーニング済み API 関数が失敗します。 -  
batchTranslateDocumentAPI ではジョブ ステータスのポーリングはサポートされていません。 -  
batchTranslateDocumentリクエストにより、パフォーマンスの問題が発生する可能性があります。 - 事前トレーニング済み API を初めて有効にすると、数分後に GDC コンソールに一貫性のないステータスが表示されることがあります。
 -  
250 文字を超える変換リクエストを行うと、
translation-prediction-serverPod がクラッシュすることがあります。 -   
共有サービス クラスタの 
GPUAllocationが正しく構成されていません。 - バージョン 1.9.x から 1.13.3 にアップグレードすると、Vertex AI サブコンポーネントの Operable Component Lifecycle Management(OCLCM)コントローラでエラーが表示されることがあります。
 -  
システム頻度の上限を超えると、翻訳リクエストで 
RESOURCE_EXHAUSTEDエラーコードが生成されることがあります。 -  
クラスタで 
enableRAG操作可能パラメータがtrueに設定されていない場合、batchTranslateDocumentリクエストはエラー503 "Batch Document translation is not implementedを返します。 
モニタリング:
- Prober ConfigMap がリセットされ、プローブジョブが含まれなくなる問題を修正しました。
 
ネットワーキング:
-  
ClusterCIDRConfigが作成されていても、PodCIDRがノードに割り当てられない問題を修正しました。 
オペレーティング システム:
- ベアメタル ノードまたは VM ノードの 
bm-system-machine-preflight-checkAnsible ジョブがEither ip_tables or nf_tables kernel module must be loadedで失敗する問題を修正しました。 
物理サーバー:
- HPE サーバーでの POST の問題によりサーバー ブートストラップが失敗する問題を修正しました。
 
アップグレード:
iac-zoneselection-globalサブコンポーネントでアップグレードが失敗する問題を修正しました。
Vertex AI:
-  
ユーザー クラスタの作成時に 
MonitoringTargetがNot Readyステータスを表示し、事前トレーニング済み API がユーザー インターフェースでEnabling状態を継続的に表示する問題を修正しました。 
アドオン マネージャー:
最新のセキュリティ パッチと重要なアップデートを適用するため、ベアメタル用 Google Distributed Cloud のバージョンが 1.29.300-gke.185 に更新されます。
詳細については、Google Distributed Cloud on Bare Metal 1.29.300-gke.185 リリースノートをご覧ください。
アップグレード:
- アップグレードのドキュメントには、アップグレード プロセスのさまざまなステージの所要時間の見積もりが記載されています。