2024 年 8 月 30 日
Distributed Cloud の機能については、プロダクトの概要をご覧ください。
クラスタ管理:
- マルチインスタンス GPU(MIG)プロファイル(均一モードとミックスモード)の幅広いセットを導入しました。さまざまな GPU スライス方式を使用して GPU VM(A3 VM)に Google Kubernetes Engine クラスタを作成し、人工知能(AI)ワークロードをホストするサービスの GPU リソースのニーズに動的に対応できます。
ハードウェア:
- 最新の NVIDIA Hopper H100 GPU(2x2 NVL)と最新の第 5 世代 Intel プロセッサを組み合わせた新しい DL380a サーバーが利用可能です。
仮想マシン:
- GPU 最適化 A3 VM タイプが新しく利用可能になりました。A3 VM タイプには 4 つの NVIDIA H100 80 GB GPU が接続されており、最大 1, 000 億個のパラメータを必要とする大規模言語モデルを必要とする AI ワークロードを実行できます。
- 小規模な A3 VM シェイプが導入され、VM あたり 1 つの H100 80 GB GPU と 2 つの H100 80 GB GPU がアタッチされます。この機能はプレビュー中です。
Vertex AI:
- ドキュメント翻訳の新しいファイル形式(DOC、PPT、TXT、XLS)のサポートが含まれています。
- 一括ドキュメント翻訳の API とサポートを追加しました。
- オンライン予測のリソース プールで、MIG GPU のアクセラレータ タイプの新しい形式をサポートしました。
- インライン翻訳とバケットに保存されたドキュメントの言語自動検出機能をサポートしました。
- API プラットフォームは本番環境段階です。
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
最新のセキュリティ パッチと重要なアップデートを適用するため、Rocky OS イメージのバージョンを 20240731 に更新しました。
請求:
-
検証 Webhook エラーのため、ユーザーが
BillingAccountBindingを作成できない。詳細については、既知の問題をご覧ください。
ブロック ストレージ:
-
ボリューム マウント エラーのため、Grafana Pod が
Init状態のままになる。詳細については、既知の問題をご覧ください。
-
Trident のマルチアタッチ エラーがあります。
詳細については、既知の問題をご覧ください。
Database Service:
-
アップグレード時に
dbs-fleetサブコンポーネントで調整エラーが発生します。詳細については、既知の問題をご覧ください。
-
アップグレード後に
DBClusterの作成が失敗します。詳細については、既知の問題をご覧ください。
ID とアクセスの管理:
-
opa-systemNamespace のgatekeeper-auditPod が頻繁に再起動します。詳細については、既知の問題をご覧ください。
モニタリング:
-
Cortex ストア ゲートウェイ Pod は、ストレージ バックエンドとの同期中に起動時にクラッシュループすることがあります。Pod がメモリ上限を超え、Kubernetes によって終了されます。
詳細については、既知の問題をご覧ください。
-
Kube コントロール プレーンの指標プロキシ Pod が、イメージ pull バックオフ エラーでクラッシュループする可能性があります。
詳細については、既知の問題をご覧ください。
-
WAL(write-ahead log)の増加により、Prometheus が大量のメモリを使用します。この問題により、システム コントロール プレーン VM ノードは
NodeHasInsufficientMemoryイベントとEvictionThresholdMetイベントを報告します。詳細については、既知の問題をご覧ください。
ネットワーキング:
-
スイッチ イメージがイメージの抽出または pull に失敗しました。
詳細については、既知の問題をご覧ください。
オブジェクト ストレージ:
-
一部のオブジェクト ストレージのアップグレード警告は無視できます。
詳細については、既知の問題をご覧ください。
オペレーティング システム:
-
Pod が単一のノードで
ContainerCreating状態のままになっている。詳細については、既知の問題をご覧ください。
物理サーバー:
-
DL380a サーバーのプロビジョニングに失敗します。
詳細については、既知の問題をご覧ください。
アップグレード:
- アップグレード中に Helm の障害が発生すると、一連のロールバックが発生します。
詳細については、既知の問題をご覧ください。
-
HW2.0 と Ubuntu からアップグレードすると、ノードのアップグレードで RockyLinux が誤って表示されます。
詳細については、既知の問題をご覧ください。
-
dhcp-tftp-core-serverPod がドレインされません。詳細については、既知の問題をご覧ください。
-
OrganizationUpgradeがノードのアップグレード ステージで停止しています。詳細については、既知の問題をご覧ください。
-
外部クラスタ VIP への接続が断続的に失敗します。
詳細については、既知の問題をご覧ください。
-
カーネルがコンテナの作成に失敗します。
詳細については、既知の問題をご覧ください。
-
アップグレード中に
Incorrect version of Tridentエラーが表示されます。詳細については、既知の問題をご覧ください。
-
ユーザー クラスタのプロビジョニング中に、一部の Pod のスケジュール設定が失敗します。
詳細については、既知の問題をご覧ください。
-
テナント組織のアップグレードがプリフライト チェックの段階で
ErrImagePullで失敗します。詳細については、既知の問題をご覧ください。
-
ルート組織のアップグレードが、署名ジョブの失敗で停止しています。
詳細については、既知の問題をご覧ください。
-
アップグレード中に、サービス アカウントがないため、ルート組織のタスクが失敗します。
詳細については、既知の問題をご覧ください。
-
shared-service-cluster upgradeでアップグレードが失敗する詳細については、既知の問題をご覧ください。
-
ユーザー クラスタのアップグレード中にノードが失敗します。
詳細については、既知の問題をご覧ください。
-
プリフライト チェックでルート組織のアップグレードが失敗します。
詳細については、既知の問題をご覧ください。
-
初期ルート
organizationupgradeで永続的なタイムアウトが発生します。詳細については、既知の問題をご覧ください。
-
obj-syslog-serverサブコンポーネントがルート組織での調整に失敗します。詳細については、既知の問題をご覧ください。
仮想マシン:
-
NVIDIA デバイス プラグイン
DaemonSetが、GPU を搭載したクラスタノードでdriver rpc errorメッセージで失敗します。この問題により、仮想マシンと Pod で GPU を使用できなくなります。詳細については、既知の問題をご覧ください。
-
システム クラスタ VM の準備ができていません。
詳細については、既知の問題をご覧ください。
-
データ ボリュームから、スクラッチ スペースが見つからないというレポートが返されます。
詳細については、既知の問題をご覧ください。
-
obj-syslog-serverサブコンポーネントがルート組織での調整に失敗します。詳細については、既知の問題をご覧ください。
Vertex AI:
-
クライアント ライブラリの問題により、Speech-to-Text の
streaming_recognize事前トレーニング済み API 関数が失敗します。詳細については、既知の問題をご覧ください。
-
batchTranslateDocumentAPI ではジョブ ステータスのポーリングはサポートされていません。詳細については、既知の問題をご覧ください。
-
batchTranslateDocumentリクエストにより、パフォーマンスの問題が発生する可能性があります。詳細については、既知の問題をご覧ください。
-
事前トレーニング済み API を初めて有効にすると、数分後に GDC コンソールに一貫性のないステータスが表示されることがあります。
詳細については、既知の問題をご覧ください。
-
250 文字を超える変換リクエストを行うと、
translation-prediction-serverPod がクラッシュすることがあります。詳細については、既知の問題をご覧ください。
-
共有サービス クラスタの
GPUAllocationが正しく構成されていません。詳細については、既知の問題をご覧ください。
-
バージョン 1.9.x から 1.13.3 にアップグレードすると、Vertex AI サブコンポーネントの Operable Component Lifecycle Management(OCLCM)コントローラでエラーが表示されることがあります。
詳細については、既知の問題をご覧ください。
-
システム頻度の上限を超えると、翻訳リクエストで
RESOURCE_EXHAUSTEDエラーコードが生成されることがあります。詳細については、既知の問題をご覧ください。
-
クラスタで
enableRAG操作可能パラメータがtrueに設定されていない場合、batchTranslateDocumentリクエストはエラー503 "Batch Document translation is not implementedを返します。詳細については、既知の問題をご覧ください。
モニタリング:
- Prober ConfigMap がリセットされ、プローブジョブが含まれなくなる問題を修正しました。
ネットワーキング:
-
ClusterCIDRConfigが作成されていても、PodCIDRがノードに割り当てられない問題を修正しました。詳細については、既知の問題をご覧ください。
オペレーティング システム:
- ベアメタル ノードまたは VM ノードの
bm-system-machine-preflight-checkAnsible ジョブがEither ip_tables or nf_tables kernel module must be loadedで失敗する問題を修正しました。詳細については、既知の問題をご覧ください。
物理サーバー:
- HPE サーバーでの POST の問題によりサーバー ブートストラップが失敗する問題を修正しました。
詳細については、既知の問題をご覧ください。
アップグレード:
iac-zoneselection-globalサブコンポーネントでアップグレードが失敗する問題を修正しました。詳細については、既知の問題をご覧ください。
Vertex AI:
-
ユーザー クラスタの作成時に
MonitoringTargetがNot Readyステータスを表示し、事前トレーニング済み API がユーザー インターフェースでEnabling状態を継続的に表示する問題を修正しました。
アドオン マネージャー:
最新のセキュリティ パッチと重要なアップデートを適用するため、ベアメタル用 Google Distributed Cloud のバージョンが 1.29.300-gke.185 に更新されます。
詳細については、Google Distributed Cloud on Bare Metal 1.29.300-gke.185 リリースノートをご覧ください。
アップグレード:
- アップグレードのドキュメントには、アップグレード プロセスのさまざまなステージの推定所要時間が記載されています。