Google Distributed Cloud エアギャップ 1.13.3 リリースノート

2024 年 8 月 30 日


Google Distributed Cloud(GDC)エアギャップ 1.13.3 が利用可能になりました。
Distributed Cloud の機能については、プロダクトの概要をご覧ください。

クラスタ管理:

  • マルチインスタンス GPU(MIG)プロファイル(均一モードとミックスモード)の幅広いセットを導入しました。さまざまな GPU スライス方式を使用して GPU VM(A3 VM)に Google Kubernetes Engine クラスタを作成し、人工知能(AI)ワークロードをホストするサービスの GPU リソースのニーズに動的に対応できます。

ハードウェア:

  • 最新の NVIDIA Hopper H100 GPU(2x2 NVL)と最新の第 5 世代 Intel プロセッサを組み合わせた新しい DL380a サーバーが利用可能です。

仮想マシン:

  • GPU 最適化 A3 VM タイプが新しく利用可能になりました。A3 VM タイプには 4 つの NVIDIA H100 80 GB GPU が接続されており、最大 1, 000 億個のパラメータを必要とする大規模言語モデルを必要とする AI ワークロードを実行できます。
  • 小規模な A3 VM シェイプが導入され、VM あたり 1 つの H100 80 GB GPU と 2 つの H100 80 GB GPU がアタッチされます。この機能はプレビュー中です。

Vertex AI:



最新のセキュリティ パッチと重要なアップデートを適用するため、Rocky OS イメージのバージョンを 20240731 に更新しました。


請求:

  • 検証 Webhook エラーのため、ユーザーが BillingAccountBinding を作成できない。

    詳細については、既知の問題をご覧ください。

ブロック ストレージ:

  • ボリューム マウント エラーのため、Grafana Pod が Init 状態のままになる。

    詳細については、既知の問題をご覧ください。

  • Trident のマルチアタッチ エラーがあります。

    詳細については、既知の問題をご覧ください。

Database Service:

  • アップグレード時に dbs-fleet サブコンポーネントで調整エラーが発生します。

    詳細については、既知の問題をご覧ください。

  • アップグレード後に DBCluster の作成が失敗します。

    詳細については、既知の問題をご覧ください。

ID とアクセスの管理:

  • opa-system Namespace の gatekeeper-audit Pod が頻繁に再起動します。

    詳細については、既知の問題をご覧ください。

モニタリング:

  • Cortex ストア ゲートウェイ Pod は、ストレージ バックエンドとの同期中に起動時にクラッシュループすることがあります。Pod がメモリ上限を超え、Kubernetes によって終了されます。

    詳細については、既知の問題をご覧ください。

  • Kube コントロール プレーンの指標プロキシ Pod が、イメージ pull バックオフ エラーでクラッシュループする可能性があります。

    詳細については、既知の問題をご覧ください。

  • WAL(write-ahead log)の増加により、Prometheus が大量のメモリを使用します。この問題により、システム コントロール プレーン VM ノードは NodeHasInsufficientMemory イベントと EvictionThresholdMet イベントを報告します。

    詳細については、既知の問題をご覧ください。

ネットワーキング:

  • スイッチ イメージがイメージの抽出または pull に失敗しました。

    詳細については、既知の問題をご覧ください。

オブジェクト ストレージ:

  • 一部のオブジェクト ストレージのアップグレード警告は無視できます。

    詳細については、既知の問題をご覧ください。

オペレーティング システム:

  • Pod が単一のノードで ContainerCreating 状態のままになっている。

    詳細については、既知の問題をご覧ください。

物理サーバー:

  • DL380a サーバーのプロビジョニングに失敗します。

    詳細については、既知の問題をご覧ください。

アップグレード:

  • アップグレード中に Helm の障害が発生すると、一連のロールバックが発生します。

    詳細については、既知の問題をご覧ください。

  • HW2.0 と Ubuntu からアップグレードすると、ノードのアップグレードで RockyLinux が誤って表示されます。

    詳細については、既知の問題をご覧ください。

  • dhcp-tftp-core-server Pod がドレインされません。

    詳細については、既知の問題をご覧ください。

  • OrganizationUpgrade がノードのアップグレード ステージで停止しています。

    詳細については、既知の問題をご覧ください。

  • 外部クラスタ VIP への接続が断続的に失敗します。

    詳細については、既知の問題をご覧ください。

  • カーネルがコンテナの作成に失敗します。

    詳細については、既知の問題をご覧ください。

  • アップグレード中に Incorrect version of Trident エラーが表示されます。

    詳細については、既知の問題をご覧ください。

  • ユーザー クラスタのプロビジョニング中に、一部の Pod のスケジュール設定が失敗します。

    詳細については、既知の問題をご覧ください。

  • テナント組織のアップグレードがプリフライト チェックの段階で ErrImagePull で失敗します。

    詳細については、既知の問題をご覧ください。

  • ルート組織のアップグレードが、署名ジョブの失敗で停止しています。

    詳細については、既知の問題をご覧ください。

  • アップグレード中に、サービス アカウントがないため、ルート組織のタスクが失敗します。

    詳細については、既知の問題をご覧ください。

  • shared-service-cluster upgrade でアップグレードが失敗する

    詳細については、既知の問題をご覧ください。

  • ユーザー クラスタのアップグレード中にノードが失敗します。

    詳細については、既知の問題をご覧ください。

  • プリフライト チェックでルート組織のアップグレードが失敗します。

    詳細については、既知の問題をご覧ください。

  • 初期ルート organizationupgrade で永続的なタイムアウトが発生します。

    詳細については、既知の問題をご覧ください。

  • obj-syslog-server サブコンポーネントがルート組織での調整に失敗します。

    詳細については、既知の問題をご覧ください。

仮想マシン:

  • NVIDIA デバイス プラグイン DaemonSet が、GPU を搭載したクラスタノードで driver rpc error メッセージで失敗します。この問題により、仮想マシンと Pod で GPU を使用できなくなります。

    詳細については、既知の問題をご覧ください。

  • システム クラスタ VM の準備ができていません。

    詳細については、既知の問題をご覧ください。

  • データ ボリュームから、スクラッチ スペースが見つからないというレポートが返されます。

    詳細については、既知の問題をご覧ください。

  • obj-syslog-server サブコンポーネントがルート組織での調整に失敗します。

    詳細については、既知の問題をご覧ください。

Vertex AI:

  • クライアント ライブラリの問題により、Speech-to-Text の streaming_recognize 事前トレーニング済み API 関数が失敗します。

    詳細については、既知の問題をご覧ください。

  • batchTranslateDocument API ではジョブ ステータスのポーリングはサポートされていません。

    詳細については、既知の問題をご覧ください。

  • batchTranslateDocument リクエストにより、パフォーマンスの問題が発生する可能性があります。

    詳細については、既知の問題をご覧ください。

  • 事前トレーニング済み API を初めて有効にすると、数分後に GDC コンソールに一貫性のないステータスが表示されることがあります。

    詳細については、既知の問題をご覧ください。

  • 250 文字を超える変換リクエストを行うと、translation-prediction-server Pod がクラッシュすることがあります。

    詳細については、既知の問題をご覧ください。

  • 共有サービス クラスタの GPUAllocation が正しく構成されていません。

    詳細については、既知の問題をご覧ください。

  • バージョン 1.9.x から 1.13.3 にアップグレードすると、Vertex AI サブコンポーネントの Operable Component Lifecycle Management(OCLCM)コントローラでエラーが表示されることがあります。

    詳細については、既知の問題をご覧ください。

  • システム頻度の上限を超えると、翻訳リクエストで RESOURCE_EXHAUSTED エラーコードが生成されることがあります。

    詳細については、既知の問題をご覧ください。

  • クラスタで enableRAG 操作可能パラメータが true に設定されていない場合、batchTranslateDocument リクエストはエラー 503 "Batch Document translation is not implemented を返します。

    詳細については、既知の問題をご覧ください。


モニタリング:

  • Prober ConfigMap がリセットされ、プローブジョブが含まれなくなる問題を修正しました。

ネットワーキング:

  • ClusterCIDRConfig が作成されていても、PodCIDR がノードに割り当てられない問題を修正しました。

    詳細については、既知の問題をご覧ください。

オペレーティング システム:

  • ベアメタル ノードまたは VM ノードの bm-system-machine-preflight-check Ansible ジョブが Either ip_tables or nf_tables kernel module must be loaded で失敗する問題を修正しました。

    詳細については、既知の問題をご覧ください。

物理サーバー:

  • HPE サーバーでの POST の問題によりサーバー ブートストラップが失敗する問題を修正しました。

    詳細については、既知の問題をご覧ください。

アップグレード:

  • iac-zoneselection-global サブコンポーネントでアップグレードが失敗する問題を修正しました。

    詳細については、既知の問題をご覧ください。

Vertex AI:

  • ユーザー クラスタの作成時に MonitoringTargetNot Ready ステータスを表示し、事前トレーニング済み API がユーザー インターフェースで Enabling 状態を継続的に表示する問題を修正しました。

アドオン マネージャー:

アップグレード:

  • アップグレードのドキュメントには、アップグレード プロセスのさまざまなステージの推定所要時間が記載されています。