Support

Auf Softwarebenachrichtigungen zugreifen

Prüfen Sie die folgenden Tools auf Benachrichtigungen, wenn ein Problem in den Softwarekomponenten Ihrer Plattform auftritt:

  • Das gemeinsame Software-Dashboard:Hier erhalten Sie Benachrichtigungen zu Systemstatusinformationen wie GKE Enterprise-Komponenten, Clustern, Diensten und VMs.
  • Ihr Postfach:Für E-Mail-Benachrichtigungen mit grundlegenden Informationen zum Problem, z. B. Fehlercodes.

Klicken Sie auf eine Benachrichtigung, um die Seite der problematischen Komponente aufzurufen und auf die relevanten Logs zuzugreifen.

Empfänger von Benachrichtigungen konfigurieren

Konfigurieren Sie die folgenden Kommunikationskanäle, um Benachrichtigungen zu erhalten, auch wenn sie nicht mit dem Dashboard verbunden sind:

  • SMS
  • E-Mail-Benachrichtigungen
  • Logo: PagerDuty

Ordnen Sie die Benachrichtigungstypen und Empfängerrollen, z. B. Abrechnung, Software und Hardware.

Softwarefehler verstehen

So können Sie auf relevante Informationen zu Fehlern bei Softwarekomponenten zugreifen, das Problem beheben und effektiv mit dem Support interagieren:

  • Suchen Sie den Fehlercode für jeden Fehler.
  • Mit Fehlercodes können Sie in der lokalen und Online-Dokumentation suchen.
  • Die Benutzeroberfläche enthält Informationen zu bestimmten Fehlern. Bewegen Sie den Mauszeiger auf einen Fehlercode, um die Snippets aufzurufen.

Software-Fehlerbehebungsinformationen von sensiblen Daten bereinigen

Bereinigen Sie Informationen zur Fehlerbehebung für die Softwarekomponenten, einschließlich Konfigurationen, Protokolle, Status und Messwerte aller vertraulichen Daten, und halten Sie die Souveränitätsanforderungen ein.

Google Distributed Cloud (GDC) mit Air Gap bietet eine Liste mit standardmäßigen sensiblen Keywords, die verschleiert und entfernt werden sollen. So anonymisieren Sie Informationen zur Fehlerbehebung:

  1. Sie können die Standardliste anpassen, indem Sie benutzerdefinierte Keywords hinzufügen und entfernen.
  2. Sie erhalten einen Bericht mit allen verschleierten Vorkommen.
  3. Warnungen vor potenziell verbleibenden sensiblen Informationen erhalten

Zu den kritischen Elementen, die verschleiert werden müssen, gehören:

  • Voll qualifizierte Domainnamen (FQDNs)
  • IP-Adressen
  • Nutzernamen
  • Hostnamen
  • Arbeitslastnamen
  • Hashes
  • Zertifikate
  • Kundennamen

Snapshot eines Softwaresystems erstellen

Erstellen Sie einen Snapshot Ihrer Softwarekomponenten, um alle Informationen zu packen, die zur Fehlerbehebung und zur effektiven Kontaktaufnahme mit dem Support erforderlich sind:

  1. Wählen Sie die Komponenten aus, die Sie einbeziehen möchten.
  2. Generieren Sie eine TAR-Datei mit allen erforderlichen Konfigurationen, Logs, Status und Messwerten.
  3. Geben Sie die zu debuggende Komponente an.
  4. Geben Sie an, wie die Daten bereinigt werden sollen.

Informationen mit dem Support teilen

Google bietet Support der Stufe 1 (L1) und Stufe 2 (L2) für GDC.

Richtlinien für die Freigabe von Snapshots erzwingen

Befolgen Sie diese Empfehlungen, um dafür zu sorgen, dass die Snapshot-Daten, die Sie mit dem Support teilen, sicher und geschützt sind und den von Ihnen festgelegten Richtlinien zur Datenaufbewahrung unterliegen:

  • Zugriffssteuerungsrichtlinien für den Snapshot definieren und erzwingen.
  • Aufbewahrungsrichtlinien für Daten für den Snapshot definieren und erzwingen.
  • Richten Sie einen sicheren Kanal ein, um den Snapshot in das Support-Portal hochzuladen.

Auf Hardwarebenachrichtigungen zugreifen

Sie erhalten Benachrichtigungen, wenn ein Problem in den Hardwarekomponenten Ihrer Plattform auftritt. Benachrichtigungen werden im System Manager mit Informationen zum Systemstatus von Hardwarekomponenten wie Racks, Servern, Switches und Speichern angezeigt.

Sie können auch E‑Mail-Benachrichtigungen erhalten. Sie enthalten grundlegende Informationen zum Problem, z. B. Fehlercodes. Klicken Sie auf die Benachrichtigung, um die Seite der problematischen Komponente aufzurufen und auf die relevanten Logs zuzugreifen.

Kapazitätsupgrades anfordern

Sie können zusätzliche Hardwarekapazität überwachen, vorhersagen und anfordern, um die Integrität und Skalierbarkeit Ihrer Arbeitslasten zu gewährleisten.

System-Snapshot verarbeiten

Bevor Sie den System-Snapshot verarbeiten, müssen die folgenden Voraussetzungen erfüllt sein:

  • Das Snapshot-Tool hat eine Verbindung zu einem laufenden Cluster.
  • Sie haben die folgenden erforderlichen Berechtigungen, um die Konfiguration und die Logs im Cluster zu lesen:
    • Anwendungsoperatoren haben Administratorfunktionen.
    • Die Zugriffsberechtigungen von Plattformadministratoren sind auf die zugewiesenen Informationen beschränkt.

Wählen Sie die Komponenten des Systems aus, die im System-Snapshot enthalten sein sollen. Das Tool stellt eine Verbindung zu Ihrem Cluster her, um Informationen für jede ausgewählte Komponente abzurufen. Nach dem Abrufen der Daten werden sie nachbearbeitet, um sensible Daten herauszufiltern. Das Tool bündelt die Informationen dann in einer ZIP-Datei.

Optional können Sie die ZIP-Datei und ihren Inhalt prüfen, um sicherzustellen, dass Sie keine vertraulichen Daten erfassen, bevor Sie sie mit dem Support teilen.

Auf Supportdokumentation zugreifen

Greifen Sie auf die folgenden Dokumentationen und Playbooks zu, um das aktuelle Kundenproblem zu beheben:

  • Support-Playbooks
  • Öffentliche Dokumentation, Best Practices, FAQs und Wissensdatenbank
  • Die Nutzer-Community

Ein Partner bietet möglicherweise L1- und L2-Support an. Daher müssen diese Artefakte öffentlich verfügbar sein.

Softwareproblem an L3 eskalieren

So eskalieren Sie ein Softwareproblem an Google für den Level 3 (L3) oder den erweiterten Support:

  1. Berechtigung zum Teilen von Snapshot-Daten mit Google anfordern
  2. Erstellen Sie ein Support-Ticket bei Google.
  3. Gewähren Sie Google Zugriff auf Ihren Snapshot.
  4. Vorgänge, die Google für den Snapshot ausführt, überwachen und sichtbar machen.

Hardwareproblem an L3 eskalieren

So eskalieren Sie ein Problem, das durch einen Hardwarefehler verursacht wurde, an Google:

  1. Extrahieren und bereinigen Sie die minimalen Informationen zur Fehlerbehebung bei den Hardwarekomponenten:
    • Logs
    • Status und Konfigurationen
    • Messwerte
    • Physische Informationen wie Racknummer, Komponententyp, Seriennummer und physischer Standort.
  2. Berechtigung zum Teilen von Snapshot-Daten mit Google anfordern
  3. Erstellen Sie ein Support-Ticket bei Google.
  4. Gewähren Sie Google Zugriff auf Ihren Snapshot.
  5. Vorgänge, die Google für den Snapshot ausführt, überwachen und sichtbar machen.

Hardware-Supportanfrage eröffnen

Google hat Zugriff auf dieselben Tools zur Fehlerbehebung, um den Snapshot des Kunden zu analysieren. Eröffnen Sie einen Supportfall beim Hardware-as-a-Service-Partner (HWaaS), um über das gemeinsame Ticketsystem Hardwaresupport zu erhalten.

Supporttickets haben die folgenden Prioritätsstufen mit den entsprechenden Service Level Agreements (SLAs):

  • Kritisch
  • Hoch
  • Mittel

Kundendaten mit dem HWaaS-Partner teilen

So geben Sie Systemhardwaredaten an den Hardwarepartner weiter und aktivieren die Hardware-Fehlerbehebung:

  1. Berechtigung zum Teilen von Momentaufnahmedaten mit einem HWaaS-Partner anfordern
  2. Achten Sie darauf, dass Sie die Anforderungen hinsichtlich der Datenhoheit erfüllen, z. B. in Bezug auf die Nationalität und den Standort des Support-Mitarbeiters.
  3. Dem HWaaS-Partner sicheren Zugriff auf den Hardware-Snapshot des Kunden gewähren, einschließlich Seriennummer, physischem Standort, Protokollen, Messwerten und Konfigurationsdateien.
  4. Benachrichtigen Sie die Personen, denen Sie Zugriff gewährt haben.
  5. Erzwingen Sie den automatischen Ablauf von Zugriffsberechtigungen.
  6. Protokollieren Sie alle Aktivitäten und teilen Sie sie mit allen Beteiligten.

Google über die Ergebnisse der Fehlerbehebung informieren und Zeitachse korrigieren

Informieren Sie Google über die Ursache des Problems und bieten Sie eine schrittweise Lösung an, damit Google den Endkunden und den Partner benachrichtigen kann. Verwenden Sie ein Ticketsystem, um Details zur erforderlichen Korrekturaufgabe und einen geschätzten Zeitrahmen für die Fertigstellung anzugeben.

Zugriff auf Rechenzentren koordinieren

Logistik und Berechtigungen für den sicheren Zugriff auf das Rechenzentrum koordinieren und die erforderliche Hardware reparieren.

Der HWaaS-Partner sorgt für die Einhaltung der Anforderungen an die Datenhoheit, z. B. die Nationalität des Support-Kundenservicemitarbeiters. Sie benötigen die folgenden Informationen:

  • Die Details zum Ansprechpartner des Rechenzentrums und des Standorts.
  • Der genaue Standort des Problem-Racks und der Problemkomponente im Rechenzentrum.
  • Ein Verfahren, um die Genehmigung und Autorisierung für den Zugriff auf das Rechenzentrum zu einem vereinbarten Zeitpunkt zu erhalten.
  • Ein Prozess zur Planung von Vor-Ort-Eingriffen in einem Rechenzentrum.

Hardware-Support für SLO und SLA erhalten

Google bietet Support über einen Hardware-Erstausrüster (Original Equipment Manufacturer, OEM) an. So läuft der Vorgang ab:

  1. Google verhandelt mit einem HWaaS-Partner über den Hardwaresupport für Service Level Objectives (SLO) und Service Level Agreements (SLA).
  2. SLO und SLA variieren je nach Kritikalität des Vorfalls, die kritisch, hoch oder mittel sein kann.
  3. Der HWaaS-Partner aktualisiert das Ticket mit dem Status und der geschätzten Zeit für die Behebung des Problems.
  4. Der HWaaS-Partner bestätigt, wenn das Problem behoben ist.

Kapazität erhöhen

Wenn Sie auf eine Anfrage zur Kapazitätserhöhung reagieren möchten, verwenden Sie die integrierte zusätzliche Kapazität, sofern verfügbar. Fahren Sie zum Standort und erweitern Sie die physische Kapazität, wenn in den Racks keine zusätzliche Kapazität verfügbar ist.

Wiederkehrende Überprüfungen mit Google planen

Richten Sie regelmäßige Überprüfungen mit dem HWaaS-Partner ein, um den aktuellen Status der Bereitstellungen zu prüfen und geplante Maßnahmen zu planen.

Führen Sie bei wiederkehrenden Überprüfungen die folgenden Aktionen aus:

  • Prüfen Sie, ob geplante Updates für das Betriebssystem, die Hardware und die Firmware erforderlich sind.
  • Status vorhandener Bereitstellungen prüfen
  • Neue Bereitstellungen planen.

Geplante Wartung und Upgrades kommunizieren

Informieren Sie Bestandskunden über bevorstehende geplante Wartungsarbeiten und gehen Sie mit ihnen die folgenden Schritte durch:

  • Wählen Sie die Ressourcen aus, die Sie upgraden möchten.
  • Geben Sie an, warum die Upgrades im aktuellen Zustand ausgeführt werden.
  • Legen Sie fest, wer die Upgrades durchführt und wann, wo und wie.
  • Planen Sie mögliche Auswirkungen und Ausfallzeiten ein.

Planmäßige Wartung einrichten

Planen Sie regelmäßige vorbeugende Wartungsarbeiten und sorgen Sie dafür, dass das System auf dem neuesten Stand ist und gut funktioniert. In den HWaaS-Berichten wird der Abschluss der Wartung gemeldet. Dazu sind die folgenden Prozesse erforderlich:

  • Ein Verfahren, um die Genehmigung für den Zugriff auf das Rechenzentrum zu erhalten.
  • Ein Prozess zur Planung von Vor-Ort-Eingriffen im Rechenzentrum.