ソフトウェアの通知にアクセスする
次のツールで、プラットフォームのソフトウェア コンポーネントで問題が発生したときの通知を確認します。
- 共通ソフトウェア ダッシュボード: GKE Enterprise コンポーネント、クラスタ、サービス、VM などのシステム健全性情報に関する通知。
- メールボックス: エラーコードなど、問題に関する基本情報を含むメール通知の場合。
通知をクリックすると、問題のあるコンポーネントのページが表示され、関連するログにアクセスできます。
通知の受信者を構成する
ダッシュボードから切断されていてもアラートを受信するように、次の通信チャネルを構成します。
- SMS メッセージ
- メール通知
- PagerDuty
請求、ソフトウェア、ハードウェアなど、通知の種類と受信者の役割を整理します。
ソフトウェア エラーについて
次のプラクティスに沿って、ソフトウェア コンポーネントのエラーに関する関連情報にアクセスし、問題を解決して、サポートに効果的に対応します。
- 各エラーのエラーコードを確認します。
- エラーコードを使用して、ローカル ドキュメントとオンライン ドキュメントを検索します。
- ユーザー インターフェースには、特定のエラーに関する情報のスニペットが表示されます。エラーコードの上にポインタを置くと、スニペットが表示されます。
ソフトウェアのトラブルシューティング情報から機密データを削除する
すべての機密データの構成、ログ、ステータス、指標など、ソフトウェア コンポーネントのトラブルシューティング情報をサニタイズし、主権要件に準拠します。
Google Distributed Cloud(GDC)エアギャップには、難読化して削除するデフォルトの機密キーワードのリストが用意されています。トラブルシューティング情報をサニタイズする手順は次のとおりです。
- カスタム キーワードを追加または削除して、デフォルトのリストをカスタマイズします。
- 難読化されたすべての発生状況のレポートを受け取ります。
- 残っている可能性のある機密情報に関する警告が表示されます。
難読化する重要な項目は次のとおりです。
- 完全修飾ドメイン名(FQDN)
- IP アドレス
- ユーザー名
- ホスト名
- ワークロード名
- Hashes
- 証明書
- お客様の名前
ソフトウェア システムのスナップショットを作成する
ソフトウェア コンポーネントのスナップショットを作成して、問題のトラブルシューティングに必要なすべての情報をパッケージ化し、サポートに効果的に対応します。
- 含めるコンポーネントを選択します。
- 必要な構成、ログ、ステータス、指標を含む tar ファイルを生成します。
- デバッグするコンポーネントを指定します。
- データをサニタイズする方法を指定します。
サポートと情報を共有する
Google は、GDC のレベル 1(L1)とレベル 2(L2)のサポートを提供しています。
スナップショットの共有にポリシーを適用する
次の方法で、サポートと共有するスナップショット データのセキュリティを確保し、保護し、お客様が管理するデータ保持ポリシーの対象とします。
- スナップショットのアクセス制御ポリシーを定義して適用します。
- スナップショットのデータ保持ポリシーを定義して適用します。
- スナップショットをサポート ポータルにアップロードするための安全なチャネルを設定します。
ハードウェア通知にアクセスする
プラットフォームのハードウェア コンポーネントで問題が発生したときの通知を確認します。通知は、ラック、サーバー、スイッチ、ストレージなどのハードウェア コンポーネントのシステム健全性情報とともに、System Manager に表示されます。
メール通知を受け取ることもできます。エラーコードなど、問題に関する基本情報が含まれています。通知をクリックすると、問題のあるコンポーネントのページが表示され、関連するログにアクセスできます。
容量のアップグレードをリクエストする
ワークロードの健全性とスケーラビリティを確保するために、ハードウェア容量をモニタリング、予測し、追加のハードウェア容量をリクエストします。
システム スナップショットを処理する
システム スナップショットを処理する前に、次の要件を満たしていることを確認してください。
- スナップショット ツールが実行中のクラスタに接続されている。
- クラスタの構成とログを読み取るために必要な権限は次のとおりです。
- アプリケーション オペレーターには管理機能があります。
- プラットフォーム管理者のアクセス権は、割り当てられた情報に制限されます。
システム スナップショットを処理するには、スナップショットを作成するシステムのコンポーネントを選択します。このツールはクラスタに接続して、選択した各コンポーネントの情報を取得します。データ取得後、データは後処理を経て機密データがフィルタされます。ツールは、情報を zip ファイルにバンドルします。
必要に応じて、ZIP ファイルとその内容を検査して、機密データがキャプチャされていないことを確認してから、サポートと共有できます。
サポート ドキュメントにアクセスする
次のドキュメントとプレイブックにアクセスして、お客様の現在の問題のトラブルシューティングに役立ててください。
- サポート ハンドブック
- 一般公開ドキュメント、ベスト プラクティス、よくある質問、ナレッジベース
- ユーザー コミュニティ
パートナーが L1 と L2 のサポートを提供する場合があるため、これらのアーティファクトは一般公開されている必要があります。
ソフトウェアの問題を L3 にエスカレーションする
ソフトウェアの問題をレベル 3(L3)または高度なサポートにエスカレーションする手順は次のとおりです。
- スナップショット データを Google と共有する権限をリクエストします。
- Google でサポート チケットを開きます。
- Google にスナップショットへのアクセス権を付与します。
- Google がスナップショットに対して実行するオペレーションをモニタリングし、可視化します。
ハードウェアの問題を L3 にエスカレーションする
ハードウェアの故障が原因で発生した問題を Google にエスカレーションする手順は次のとおりです。
- ハードウェア コンポーネントのトラブルシューティングに必要な最小限の情報を抽出し、サニタイズします。
- ログ
- ステータスと構成
- 指標
- ラック番号、コンポーネント タイプ、シリアル番号、物理的な場所などの物理情報。
- スナップショット データを Google と共有する権限をリクエストします。
- Google でサポート チケットを開きます。
- Google にスナップショットへのアクセス権を付与します。
- Google がスナップショットに対して実行するオペレーションをモニタリングし、可視化します。
ハードウェア サポートケースを登録する
Google は、お客様のスナップショットを診断するために同じトラブルシューティング ツールにアクセスできます。ハードウェア アズ ア サービス(HWaaS)パートナーにサポートケースを登録して、共有チケット発行システムを通じてハードウェア サポートを受けます。
サポート チケットには、次の優先度レベルと対応するサービスレベル契約(SLA)が設定されています。
- 重大
- 高
- 中
お客様のデータを HWaaS パートナーと共有する
システム ハードウェア データをハードウェア パートナーと共有し、ハードウェアのトラブルシューティングを有効にする手順は次のとおりです。
- HWaaS パートナーとスナップショット データを共有する権限をリクエストします。
- 主権要件(サポート エージェントの国籍と所在地)を遵守していることを確認します。
- シリアル番号、物理的な場所、ログ、指標、構成ファイルなど、お客様のハードウェア スナップショットへの安全なアクセス権を HWaaS パートナーに付与します。
- アクセス権を付与したユーザーに通知します。
- アクセス権限の自動有効期限を適用します。
- すべてのアクティビティを記録し、関係者全員と共有します。
トラブルシューティングの結果を Google に通知し、タイムラインを修正する
問題の根本原因を Google に報告し、Google がエンドユーザーとパートナーに通知できるように、段階的な修正を提案します。チケット発行システムを使用して、必要な修正タスクの詳細と完了予定日を提供します。
データセンターへのアクセスを調整する
データセンターへの安全なアクセスに関するロジスティクスと権限を調整し、必要なハードウェアの修正を行います。
HWaaS パートナーは、サポート エージェントの国籍など、主権の要件を遵守していることを確認します。以下の情報が必要です。
- データセンターとロケーションの連絡先の詳細。
- データセンター内の問題のあるラックとコンポーネントの正確な場所。
- 合意した時間にデータセンターにアクセスするための許可と承認を得るプロセス。
- データセンターでのオンサイト介入をスケジュールするプロセス。
SLO と SLA のハードウェア サポートを取得する
Google は、ハードウェアの相手先ブランド製品製造企業(OEM)パートナーを通じてサポートを提供します。プロセスは次のとおりです。
- Google は、サービスレベル目標(SLO)とサービスレベル契約(SLA)のハードウェア サポートについて HWaaS パートナーと交渉します。
- SLO と SLA は、インシデントの重大度(重大、高、中)によって異なります。
- HWaaS パートナーは、ステータスと修正の推定時間をチケットに記載して更新します。
- 問題が解決した時点で、HWaaS パートナーが確認します。
容量をアップグレードする
容量増加のリクエストに対応するには、組み込みの追加容量が利用可能な場合はそれを使用します。ラックに追加の容量がない場合は、オンサイトで物理容量をアップグレードします。
Google と定期的なレビューのスケジュールを設定する
HWaaS パートナーとの定期的なレビューを設定して、デプロイの現在のステータスを確認し、予定されている介入を計画します。
定期的な審査では、次の操作を行います。
- オペレーティング システム、ハードウェア、ファームウェアに必要な定期的な更新を確認します。
- 既存のデプロイのステータスを確認します。
- 新しいデプロイを計画する。
定期メンテナンスとアップグレードを通知する
既存のお客様に、今後の定期メンテナンスの予定について連絡します。お客様に以下の対応をご案内します。
- アップグレードするリソースを選択します。
- アップグレードが現在の状態で実行される理由を指定します。
- アップグレードを行うユーザー、アップグレードのタイミング、場所、方法を決定します。
- 考えられる影響とダウンタイムを計画します。
定期メンテナンスを設定する
定期的な予防メンテナンスをスケジュールし、システムが最新の状態に保たれ、パフォーマンスが良好であることを確認します。HWaaS は、メンテナンスの完了を報告します。次のプロセスが必要です。
- データセンターへのアクセス権を取得するプロセス。
- データセンターでのオンサイト介入をスケジュールするプロセス。