Best Practices für die Zusammenarbeit mit dem Kundenservice

Dieser Leitfaden enthält Best Practices zum Schreiben einer effektiven Supportanfrage. Wenn Sie diese Best Practices befolgen, können wir Ihre technische Supportanfrage schneller lösen.

Supportanfrage erstellen

Bevor Sie eine Supportanfrage erstellen, prüfen Sie bekannte Probleme, um festzustellen, ob eine Supportanfrage bereits eingereicht wurde.

Um Verwirrung zu vermeiden und Ihre Anfrage an einem einzigen Punkt zu verfolgen, erstellen Sie eine Supportanfrage pro Problem. Alle doppelt erstellten Supportanfragen werden geschlossen.

Problem beschreiben

Wenn Sie einen detaillierten Supportfall erstellen, ist es für das Customer Care-Team leichter, Ihnen schnell und effizient zu antworten. Wenn in Ihrer Supportanfrage wichtige Details fehlen, müssen wir um weitere Informationen bitten, was zusätzliche Zeit in Anspruch nimmt.

Die besten Supportanfragen sind sowohl detailliert als auch spezifisch. Aus ihnen geht hervor, was passiert ist und was Sie erwartet haben. Machen Sie folgende Angaben, wenn Sie das Problem in Ihrer Supportanfrage beschreiben:

Zeit: Der spezifische Zeitstempel, als das Problem begann.
Produkt:Die Produkte und Funktionen, auf die sich das Problem bezieht.
Standort:Die Zonen, in denen das Problem auftritt.
IDs:Die Projekt-ID oder die Anwendungs-ID und andere konkrete Kennzeichnungen, die uns helfen, das Problem zu untersuchen.
Nützliche Artefakte: Alle Details, die Sie angeben können, um uns bei der Diagnose des Problems zu helfen.
Problemtyp:Ist das Problem zeitweise, vorübergehend oder konsistent?

In den folgenden Abschnitten sind diese Konzepte detaillierter beschrieben.

Zeit

Teilen Sie uns mit, wann Sie das Problem zum ersten Mal bemerkt haben, und teilen Sie uns mit, wie lange das Datum und der Zeitstempel im ISO 8601-Format aufgetreten sind.

Beispiele:

Ab 2017-09-08T15:13:06+00:00 bis 5 Minuten später haben wir Folgendes beobachtet:
Periodisch auftretend seit dem 2017-09-10 und 2- bis 5-mal bemerkt: Wir haben beobachtet, dass...
Durchgehend seit 2017-09-08T15:13:06+00:00...
Vom 2017-09-08T15:13:06+00:00 bis 2017-09-08T15:18:16+00:00...

Der Customer Care-Spezialist, der das Problem löst, befindet sich höchstwahrscheinlich nicht in Ihrer Zeitzone. Daher erschweren relative Aussagen wie die folgenden die Diagnose des Problems:

"Das hat irgendwann gestern angefangen..." (Zwingt uns, das implizierte Datum abzuleiten.)
"Wir haben das Problem am 9/8 bemerkt..." (Mehrdeutig, da einige dieses Datum als 8. September und andere als 9. August interpretieren könnten.)

Produkt

Obwohl Sie im standardmäßigen Fallformular nach einem Produktnamen gefragt werden, benötigen wir spezifische Informationen darüber, welche Funktion des Produkts von dem Problem betroffen ist. Idealerweise verweist Ihr Bericht auf bestimmte APIs oder Google Cloud Console-URLs (oder Screenshots). Für APIs können Sie eine Verknüpfung zur Dokumentationsseite erstellen, die den Produktnamen in der URL enthält.

Informieren Sie uns auch über den Mechanismus, den Sie zum Initiieren der Anfrage verwenden (z. B. REST API, Google Cloud CLI, Google Cloud Console oder vielleicht ein Tool wie Cloud Deployment Manager). Wenn mehrere Produkte beteiligt sind, geben Sie jeden Namen ausdrücklich an.

Beispiele:

„Die Compute Engine REST API hat die folgenden Fehler zurückgegeben...“
„Die BigQuery-Abfrageschnittstelle in console.cloud.google.com hängt...“

Die folgenden Angaben sind nicht spezifisch genug, um zu wissen, wo bei der Problemdiagnose nachgesehen werden muss:

"Es können keine Instanzen erstellt werden..." (Wir müssen die Methode kennen, die Sie zum Erstellen von Instanzen verwenden.)
„Der Befehl gcloud compute create instances ergibt einen Fehler...“ (Die Befehlssyntax ist falsch, daher können wir ihn nicht selbst ausführen, um den Fehler zu reproduzieren. Außerdem wissen wir nicht, welchen Fehler Sie tatsächlich gesehen haben.)

Zone

Wir müssen die Region und Zone Ihres Rechenzentrums kennen, da wir Änderungen oft für jeweils eine Region oder Zone bereitstellen. Die Region und Zone stehen stellvertretend für die Versionsnummer der zugrunde liegenden Software. Diese Informationen helfen uns, zu erkennen, ob wichtige Änderungen in einer bestimmten Version unserer Software Auswirkungen auf Ihre Systeme haben.

Beispiele:

"In us-east1-a..."
"Ich habe die Regionen us-east1 und us-central1 ausprobiert..."

Kennzeichnungen (IDs)

Spezifische Kennzeichnungen helfen uns, zu ermitteln, welches Ihrer Cloud-Projekte von dem Problem betroffen ist. Wir müssen immer die alphanumerische Projekt- oder Anwendungs-ID kennen. Projektnamen sind nicht hilfreich. Wenn das Problem mehrere Projekte betrifft, geben Sie alle betroffenen IDs an.

Zusätzlich zu Projekt- oder Anwendungs-IDs helfen uns verschiedene andere Kennzeichnungen, Ihren Fall zu diagnostizieren:

Instanz-IDs
BigQuery-Job-IDs oder Tabellennamen
IP-Adressen

Wenn Sie eine IP-Adresse angeben, geben Sie auch den Kontext an, in der sie verwendet wird. Geben Sie beispielsweise an, ob die IP-Adresse mit einer Compute-Instanz, einem Load-Balancer, einer benutzerdefinierten Route oder einem API-Endpunkt verbunden ist. Teilen Sie uns auch mit, wenn die IP-Adresse nicht mit den Systemen von Google in Verbindung steht (z. B. wenn die IP-Adresse für Ihr Internet zu Hause, einen VPN-Endpunkt oder ein externes Überwachungssystem bestimmt ist).

Beispiele:

"Im Projekt robot-name-165473 oder my-project-id..."
"Über mehrere Projekte hinweg (darunter my-project-id)..."
„Verbindung zur externen IP-Adresse 218.239.8.9 von Google Cloud von unserem Unternehmensgateway 56.56.56.56...“

Allgemeine Aussagen wie die folgenden sind zu allgemein, um bei der Problemdiagnose hilfreich zu sein:

"Eine unserer Instanzen ist nicht erreichbar..."
"Wir können keine Verbindung über das Internet herstellen..."

Nützliche Artefakte

Die Bereitstellung von Artefakten, die mit dem Problem zusammenhängen, beschleunigt die Fehlerbehebung, da wir so genau das sehen können, was Sie sehen.

Beispiel:

Verwenden Sie einen Screenshot, um genau zu zeigen, was Sie sehen.
Stellen Sie für webbasierte Oberflächen eine HAR-Datei (Http ARchive) bereit. Im HAR-Analysetool finden Sie Anleitungen für die drei wichtigsten Browser.
Fügen Sie tcpdump-Ausgaben, Log-Snippets oder Beispiel-Stacktraces an.

Problemtyp

Verbindungsprobleme: Verbindungsprobleme treten nach dem Zufallsprinzip ohne regelmäßige Fehlermuster auf. Verbindungsprobleme sind schwer zu beheben, da es aufgrund ihrer Unregelmäßigkeit schwierig ist, während des Fehlers Daten zu erfassen. In diesem Fall sollten Sie versuchen, Engpässe in der Architektur zu ermitteln und zu überprüfen, ob die Nutzung Ihrer Ressourcen den maximalen Schwellenwert erreicht hat. Sie können auch häufige Prüfungen in einem geplanten Job mithilfe von Automatisierung ausführen. Wenn die Prüfung fehlschlägt, erfassen Sie Debugging-Informationen während des Fehlers. Beispiele für diese Art von Fehlern sind DNS-Auflösungsfehler und Paketverluste.
Vorübergehende Probleme: Diese Art von Problemen halten nur für einen kurzen Zeitraum an. Bei Problemen, die nur für eine Sekunde oder einige Mikrosekunden auftreten, können Sie nach Mikro-Bursts von Traffic- oder Ressourcenspitzenauslastungen suchen. In den meisten Fällen können vorübergehende Probleme ignoriert werden, wenn sie nicht häufig auftreten und Ihr Dienst so konzipiert ist, dass er vorübergehende Ausfälle tolerant ist. Beispiele für diese Art von Fehlern sind Netzwerk-Latenzspitzen, die nur für wenige Mikrosekunden auftreten, und kleine Paketverluste, die Zeitüberschreitungen verursachen. Das Transmission Control Protocol (TCP) ist auf Fehler wie kleine Paketverluste und Latenzspitzen ausgelegt und kann diese Probleme effektiv bewältigen, sofern Ihre Anwendung nicht empfindlich auf Latenz reagiert.
Konsistente Probleme: Diese Probleme führen zu einem vollständigen Ausfall, z. B. wenn Ihre Website nicht verfügbar ist. Konsistente Probleme lassen sich relativ einfach beheben, da sie reproduziert werden können. Teilen Sie uns in diesem Fall mit, wie das Problem reproduziert werden kann, damit unsere Customer Care-Spezialisten die Umgebung replizieren und das Problem für Sie beheben können.

Beispielbeschreibungen

Beispiel 1

JobName:

A_ATL_BIG1toBQ_big_04)201704202

00045_491

Source:

S3_avl-transfer

Destination:

CloudStorage: avl-transfer

Start time (ISO 8601 format): 2017-04-20 20:14:43 PDT

End time (ISO 8601 format): 2017-04-21 at 10:03:44 PDT

I started a file transfer at 2017-04-20 at 20:14:43 PDT using the transfer API.
This job normally takes 10 minutes to complete, but in this case the job was
still running when I canceled it the next day (2017-04-21 at 10:03:44 PDT). This
is not an isolated event; several other jobs involving the transfer API had
intermittent, significant delays.

Please investigate the cause of the delays and advise of any best practices that
we can implement to prevent these issues in the future.

Beispiel 2

Start time (ISO 8601 format): 2017-05-12 at 11:03:43

End time (ISO 8601 format): The issue is still happening as of the time of this
report.

Issue summary:

`/cron/payments-service/sync-v2-batch` cron using the App Engine Task Queue API
has stopped running since 2017-05-12 at 11:03:43. We rely on this job to handle
payments correctly.

We saw datastore and queue errors and then the cron stopped running. We
attempted unsuccessfully to fix the issue by re-uploading cron.xml. Here is the
error trace:

`[error trace]`

Please advise if the issue is with the API or our implementation and let us
know next steps.

Priorität bestimmen und eskalieren

Die Priorität hilft uns, die Auswirkungen dieses Problems auf Ihr Unternehmen nachzuvollziehen und beeinflusst, wie schnell wir reagieren, um das Problem zu lösen. Prioritäten sind in der folgenden Tabelle definiert. Weitere Informationen finden Sie unter Priorität von Supportanfragen.

Definition der Priorität	Beispielsituation
P1 – Kritische Auswirkungen – Dienstnutzung in Produktion nicht möglich	Die Anwendung oder Infrastruktur kann in der Produktion nicht genutzt werden und weist eine erhebliche Anzahl von Fehlern auf, die den Nutzer direkt betreffen. Die Geschäftsauswirkungen sind kritisch (Umsatzverlust, potenzielles Datenintegritätsproblem usw.).
P2 – Starke Auswirkungen – Dienst stark eingeschränkt	Die Infrastruktur ist nur eingeschränkt verfügbar und weist eine deutliche Anzahl von Fehlern auf, die den Nutzer direkt betreffen, oder ist nicht in der Lage, ein neues Produktionssystem zu erstellen. Die Geschäftsauswirkungen sind mittelschwer (potenzieller Umsatzverlust, möglicher Produktivitätsverlust usw.).
P3 – Mittlere Auswirkungen – Dienst teilweise eingeschränkt	Das Problem ist nicht besonders weitreichend und/oder schwerwiegend. Das Problem hat keine sichtbaren Auswirkungen auf den Nutzer. Die Geschäftsauswirkungen sind gering (z. B. Unannehmlichkeiten oder es sind nur geringfügige Geschäftsprozesse betroffen).
P4 – Geringe Auswirkungen – Dienst vollständig nutzbar	Kaum oder gar keine geschäftlichen oder technischen Auswirkungen. Empfohlen für Beratungstickets, bei denen eine umfassende Analyse, Fehlerbehebung oder Beratung einer aufwendigen Kommunikation mit vielen Nachrichten vorgezogen wird.

Wann muss die höchste Priorität eingestellt werden?

Wenn Sie ein Problem haben, das geschäftskritische Dienste betrifft und sofortige Aufmerksamkeit von Google erfordert, wählen Sie "P1" als Priorität. Erklären Sie uns im Detail, warum Sie P1 gewählt haben. Beschreiben Sie kurz, wie sich das Problem auf Ihr Unternehmen auswirkt. Beispielsweise können Sie ein Problem mit einer Dev-Version als P1 betrachten, wenn ein kritisches Sicherheitsupdate blockiert wird, auch wenn keine direkten Auswirkungen auf Endnutzer bestehen.

Wenn ein Fall als P1 festgelegt ist, wird ein diensthabendes Supportteam sofort benachrichtigt, um den richtigen Experten zu finden, der sich ausschließlich mit diesem Problem befassen wird. Sie erhalten dann eine kurze Antwort. Anschließend erhältst du regelmäßige Updates.

Wir schätzen detaillierte Kommentare zur ausgewählten Priorisierungsstufe, weil sie uns helfen, angemessen zu reagieren.

Antwortzeiten

Problemprioritätsstufen haben vordefinierte Antwortzeiten, die in den Google Cloud Platform-Richtlinien für technische Supportdienste definiert sind. Wenn Sie bis zu einem bestimmten Zeitpunkt eine Antwort benötigen, teilen Sie uns dies in der Berichtsbeschreibung mit. Wenn ein P1-Problem rund um die Uhr behoben werden muss, können Sie den Dienst „Follow the Sun“ anfordern. Diese Fälle werden mehrmals täglich einem aktiven Customer Care-Spezialisten zugewiesen.

Eskalieren

Wenn sich die Umstände ändern, müssen Sie ein Problem möglicherweise eskalieren. Gute Gründe für die Eskalation sind:

Steigerung der geschäftlichen Auswirkungen
Aufschlüsselung des Lösungsprozesses. Dies ist beispielsweise der Fall, wenn Sie innerhalb des vereinbarten Zeitraums kein Update erhalten haben oder nach dem Austausch mehrerer Nachrichten weiterhin Probleme auftreten.

Bei einem schwerwiegenden Problem ist es am besten, den Fall für einen angemessenen Zeitraum auf die richtige Priorität zu setzen, anstatt es zu eskalieren. Durch die Eskalation wird der Fall nicht unbedingt schneller gelöst. Eine Eskalation kurz nach der Prioritätsänderung kann sogar dazu führen, dass die Falllösung langsamer bearbeitet wird. Eine ausführlichere Erläuterung finden Sie im Video Wann sollten Sie eskalieren.

Informationen zum Eskalieren einer Supportanfrage findest du unter Anfragen eskalieren.

Supportanfragen an die erforderliche Zeitzone weiterleiten

Aufgrund der Faktoren, auf denen die Verfügbarkeit von Customer Care basiert, wird Ihre Supportanfrage möglicherweise einem Customer Care-Experten zugewiesen, der außerhalb Ihrer Geschäftszeiten arbeitet. Es ist auch möglich, dass Sie den Customer Care-Support während der Werktage einer bestimmten Zeitzone in Anspruch nehmen möchten. In solchen Fällen empfehlen wir Ihnen, beim Customer Care zu beantragen, dass Ihre Supportanfrage an eine Zeitzone weitergeleitet wird, die für Ihre Anfrage am besten geeignet ist. Sie können diese Anfrage in der Fallbeschreibung oder der Antwort hinzufügen. Beispiel: Please route this case to the Pacific time zone (GMT-8). P1-Fälle werden an die Kundenbetreuung der nächsten Region übergeben, da sie der Sonntag folgt. Andere Fälle bleiben beim aktuellen Fallinhaber und arbeiten am nächsten Tag weiter an dem Fall.

Feedback über CES-Umfrage geben

Wenn ein Fall gelöst wird, wird eine CES-Umfrage (Customer Effort Score) in Bezug auf Ihre Meinung zum Verlauf des Prozesses per E-Mail gesendet. Wir würden uns sehr freuen, wenn Sie sich ein paar Minuten Zeit nehmen würden, um das Formular auszufüllen. So wissen wir, was wir gut gemacht haben und welche Herausforderungen Sie hatten, um diese Aspekte zu verbessern.

Jedes Feedbackformular wird manuell vom Customer Experience-Team geprüft und führt zu entsprechenden Maßnahmen zur Verbesserung des Supports in der Zukunft. Die Punktzahl liegt zwischen 1 und 5 ermittelt. Eine Punktzahl von 3 oder weniger würde aus Kundenseite als schwierig empfunden werden. Wir werden uns mit Ihnen in Verbindung setzen. Andererseits bedeutet eine Punktzahl von 4 oder mehr, dass die Interaktion für den Kunden nicht schwierig war und als positive Erfahrung eingestuft wurde.

Weitere Informationen finden Sie im Video Feedback zu Google Cloud-Diensten mit CES senden.

Lange andauernde oder schwierige Probleme

Probleme, deren Lösung lange dauert, können verwirrend werden und veralten. Der beste Weg, dies zu verhindern, ist das Erfassen von Informationen mithilfe unserer Vorlage für lange andauernde Probleme, wobei der neueste Status oben zusammengefasst ist.

Um die Vorlage zu verwenden, öffnen Sie den vorherigen Link und erstellen Sie eine Kopie. Geben Sie Links zu allen relevanten Fällen und internen Tracking-Fehlern an. Teilen Sie dieses Dokument mit der Gruppe Ihres Account-Management-Teams und bitten Sie sie, es für bestimmte Customer Care-Spezialisten freizugeben.

Dieses Dokument enthält:

Eine oben aufgeführte Zusammenfassung des aktuellen Status
Eine Liste der Hypothesen, die möglicherweise wahr sind
Die Tests oder Tools, die Sie zum Testen jeder Hypothese verwenden möchten

Versuchen Sie, den Schwerpunkt eines Falls auf ein einzelnes Problem zu beschränken und vermeiden Sie es, einen Fall wieder zu öffnen, um ein neues Problem zu melden.

Einen Produktionsausfall melden

Wenn das Problem dazu geführt hat, dass Ihre Anwendung keinen Traffic mehr an Nutzer weiterleitet, oder ähnliche geschäftskritische Auswirkungen hat, kann es sich um einen Produktionsausfall handeln. Wir möchten dies so schnell wie möglich wissen. Probleme, die nur wenige Entwickler blockieren, erachten wir jedoch nicht als Produktionsausfälle.

Wenn wir von einem Produktionsausfall erfahren, prüfen wir die Situation schnell durch:

Sofortige Prüfung auf bekannte Probleme, die sich auf die Google Cloud-Infrastruktur auswirken.
Überprüfung der Art des Problems
Einrichtung von Kommunikationskanälen

Sie können eine Antwort mit einer kurzen Nachricht erwarten, die Folgendes enthält:

Alle damit verbundenen bekannten Probleme, die mehrere Kunden betreffen
Eine Bestätigung, dass wir das von Ihnen gemeldete Problem sehen können, oder eine Anfrage für weitere Details
Wie wir kommunizieren möchten.

Daher ist es wichtig, schnell einen Fall zu erstellen, der Zeit, Produkt, Kennzeichnungen und Ort enthält, und dann mit einer umfassenderen Fehlerbehebung zu beginnen. Ihr Unternehmen hat möglicherweise einen definierten Vorfallmanagementprozess und dieser Schritt sollte möglichst zu Beginn dieses Prozesses ausgeführt werden.

Der Vorfallmanagement-Prozess von Google definiert eine Schlüsselrolle: den Incident Commander. Diese Person sorgt dafür, dass die richtigen Personen einbezogen werden, erfasst kontinuierlich den aktuellen Status und fasst den Status des Problems regelmäßig zusammen. Sie delegiert an andere, um Fehler zu beheben und Änderungen vorzunehmen. Diese Delegation ermöglicht es uns, mehrere Hypothesen parallel zu untersuchen. Wir empfehlen Ihnen, einen ähnlichen Prozess in Ihrer Organisation einzurichten. Die Person, die den Fall erstellt hat, ist normalerweise die beste Wahl, um als Incident Commander zu fungieren, da sie den meisten Kontext hat.

Ein Netzwerkproblem melden

Aufgrund der Größe und Komplexität des Netzwerks von Google kann es schwierig sein, zu ermitteln, welches Team für das Problem verantwortlich ist. Um Netzwerkprobleme zu diagnostizieren, müssen wir sehr spezifische Ursachen identifizieren. Da Netzwerk-Fehlermeldungen oft allgemein sind (wie "Verbindung zum Server nicht möglich"), müssen wir detaillierte Diagnoseinformationen erfassen, um die möglichen Hypothesen einzugrenzen.

Paketflussdiagramme bieten eine hervorragende Struktur für den Problembericht. Diese Diagramme beschreiben die wichtigen Hops, die ein Paket entlang eines Pfades von der Quelle zum Ziel nimmt, zusammen mit signifikanten Transformationen auf dem Weg.

Identifizieren Sie zuerst die betroffenen Netzwerkendpunkte anhand der Internet-IP-Adresse oder der privaten RFC 1918-Adresse und einer Kennung für das Netzwerk. Beispiel: 2.3.4.5 oder 10.2.3.4 im Standardnetzwerk des Compute Engine-Projekts.

Notieren Sie sinnvolle Informationen zu den Endpunkten, z. B.:

Wer sie kontrolliert
Ob sie einem DNS-Hostnamen zugeordnet sind
Zwischenkapselungen und/oder Umleitungen, z. B. VPN-Tunneling, Proxys und NAT-Gateways.
Jede Zwischenfilterung, wie Firewalls oder CDN oder WAF

Viele Probleme, die sich in einer hohen Latenz oder einem zeitweiligen Paketverlust äußern, erfordern eine Pfadanalyse oder eine Paketerfassung oder beides für die Diagnose.

Die Pfadanalyse ist eine Liste aller Hops, die Pakete durchlaufen, und ist als "Traceroute" bekannt. Wir verwenden häufig MTR oder tcptraceroute oder beide, da diese eine bessere diagnostische Leistungsfähigkeit haben. Wir empfehlen Ihnen, sich mit diesen Tools vertraut zu machen.
Die Paketerfassung (auch bekannt als „pcap“, abgeleitet aus dem Namen der Bibliothek „libpcap“), ist eine Beobachtung des realen Netzwerkverkehrs. Es ist wichtig, eine Paketerfassung für beide Endpunkte gleichzeitig vorzunehmen, was schwierig sein kann. Sie sollten daher mit den erforderlichen Tools (z. B. tcpdump oder Wireshark) üben und sie installieren, bevor Sie sie benötigen.