Memantau insiden Service Health Google Cloud

Untuk terus mendapatkan informasi tentang kondisi dan status Google Cloud produk Anda, Google Cloud Kondisi Layanan memberi Anda informasi tentang insiden yang sedang berlangsung dan meluas yang memenuhi kriteria tertentu. Informasi ini dapat mencakup gangguan produk, pemadaman, atau pesan informatif tentang masalah sementara.

Google Cloud Service Health dirancang agar tersedia jika terjadi gangguan pada Personalized Service Health itu sendiri, atau produk yang terpengaruh belum diaktifkan ke Personalized Service Health.

Personalized Service Health memberikan tampilan yang dipersonalisasi tentang produk dan lokasi Google Cloud yang didukung di seluruh organisasi Anda. Gunakan Personalized Service Health sebagai perhentian pertama saat mengalami gangguan layanan dan periksa komunikasi tentang insidenGoogle Cloud aktif dan sebelumnya yang mungkin memengaruhi project Anda. Personalized Service Health akan selalu memiliki informasi terbanyak yang tersedia untuk pelangganGoogle Cloud . Anda dapat mengakses Personalized Service Health melalui konsol Google Cloud, dengan mengonfigurasi pemberitahuan, dan melalui Personalized Service Health API.

Dokumen ini berfokus pada Google Cloud Kondisi Layanan.

Mengakses Google Cloud Service Health

Anda dapat mengakses Google Cloud Service Health melalui cara berikut:

  • Dasbor status publik: Google Cloud Kesehatan Layanan
  • Feed RSS publik
  • Konsol Google Cloud:

    1. Di konsol Google Cloud, buka halaman Dukungan > Kasus.

      Buka Kasus

    2. Dengan pemilih resource di toolbar konsol, pilih resource yang ingin Anda cantumkan masalah yang diketahui.

    3. Klik tab Masalah umum.

      Masalah umum juga mencakup insiden kecil dan berskala terbatas. Anda dapat menautkan kasus dukungan ke masalah umum sehingga Anda mendapatkan info terbaru secara rutin dan dapat berkomunikasi dengan staf dukungan. Kasus dukungan sesuai untuk masalah yang tidak memenuhi syarat sebagai insiden atau jika interaksi langsung diperlukan. Jika memiliki Dukungan Premium, Enhanced, atau Standard, Anda dapat melaporkan insiden dengan membuat kasus dukungan.

Jika tidak dapat mengakses Google Cloud Kondisi Layanan melalui referensi sebelumnya, Anda dapat menggunakan Google Cloud formulir Pertanyaan Dukungan Platform.

Insiden Google Cloud Service Health yang didukung

Untuk sebagian besar Google Cloud insiden, pelanggan yang terpengaruh akan menerima komunikasi insiden secara langsung melalui Status Layanan yang Dipersonalisasi di konsol Google Cloud. Jika memenuhi kondisi pemberitahuan, insiden ini juga akan memicu pemberitahuan Status Layanan yang telah Anda konfigurasi.

Insiden yang memenuhi salah satu kriteria berikut akan muncul di Google Cloud Service Health:

  • Insiden besar yang terjadi di tempat umum
  • Insiden untuk Google Cloud produk yang belum didukung oleh Personalized Service Health
  • Insiden yang terjadi saat dasbor Personalized Service Health tidak tersedia

Insiden besar

Google Cloud menentukan insiden sebagai insiden besar jika memenuhi semua kondisi berikut:

  • Cakupan tinggi: insiden memiliki dampak global atau memengaruhi persentase signifikan project pelanggan di satu atau beberapa region.
  • Tingkat keparahan tinggi: satu atau beberapa produk tidak tersedia atau mengalami degradasi yang parah.

Dalam kasus yang jarang terjadi, saat insiden besar terjadi, kami akan segera bertindak untuk menyelesaikan masalah apa pun.

Selama insiden besar, status masalah akan disampaikan melalui dasbor Google Cloud Service Health. Insiden besar ditandai sebagai Gangguan layanan di dasbor. Setelah masalah diselesaikan, kami memublikasikan laporan insiden publik yang menyertakan detail faktor-faktor yang berkontribusi pada insiden dan langkah-langkah yang kami rencanakan untuk mencegah insiden tersebut terulang kembali.

Untuk insiden dengan cakupan yang lebih kecil, laporan nonpublik mungkin tersedia untuk pelanggan.

Siklus proses insiden

Saat penurunan kualitas produk terdeteksi, Google Cloud tim Dukungan dan tim engineering produk akan bekerja sama untuk menyelesaikan insiden dan memberikan informasi terbaru kepada Anda.

Diagram berikut menunjukkan tanggung jawab tim dukungan dan rekayasa produk:

Diagram Siklus Proses

Anda dapat membaca lebih lanjut setiap tanggung jawab ini di bagian berikut.

Deteksi

Google Cloud menggunakan pemantauan internal dan sintetis untuk mendeteksi insiden. Untuk informasi selengkapnya, lihat Bab 6 dalam buku Site Reliability Engineering.

Respons awal

Saat insiden terdeteksi, Google Cloud tim Layanan Pelanggan akan mengelola komunikasi pelanggan. Notifikasi awal insiden biasanya singkat, sering kali hanya menyebutkan produk yang bermasalah. Hal ini karena kami lebih memprioritaskan notifikasi yang bersifat cepat daripada mendetail. Detail dapat diberikan dalam update berikutnya.

Untuk memberikan informasi sebanyak mungkin tanpa membebani Anda dengan masalah yang tidak memengaruhi Anda, saluran komunikasi yang berbeda akan digunakan bergantung pada cakupan dan tingkat keparahan masalah:

Diagram Komunikasi

Investigasi

Tim engineer produk bertanggung jawab untuk menyelidiki akar penyebab insiden. Manajemen insiden sering kali dilakukan oleh Site Reliability Engineer, tetapi dapat dilakukan oleh software engineer atau yang lainnya, bergantung pada situasi dan produk. Untuk mengetahui informasi selengkapnya, lihat Bab 12 dalam Buku Site Reliability Engineering.

Mitigasi dan perbaikan

Masalah dianggap telah diperbaiki hanya jika perubahan yang dibuat diyakini oleh Google akan meniadakan dampak yang timbul untuk selamanya. Misalnya, perbaikan dapat melakukan roll back perubahan yang memicu insiden.

Saat insiden sedang berlangsung, Layanan Pelanggan dan tim produk akan mencoba memitigasi masalah. Mitigasi adalah tindakan untuk mengurangi dampak atau cakupan masalah, misalnya dengan menyediakan resource tambahan sementara untuk produk yang mengalami kelebihan beban.

Jika mitigasi tidak ditemukan, jika memungkinkan, tim Customer Care akan menemukan dan menyampaikan solusinya. Solusi adalah langkah-langkah yang dapat Anda ambil untuk mengatasi kebutuhan yang mendasari, meskipun terjadi insiden. Solusi mungkin menggunakan setelan yang berbeda untuk panggilan API guna menghindari jalur kode yang bermasalah.

Tindak lanjuti

Saat insiden berlangsung, tim Layanan Pelanggan akan memberikan info terbaru secara berkala. Info terbaru biasanya berupa:

  • Informasi selengkapnya tentang insiden tersebut, seperti pesan error, zona atau wilayah yang terpengaruh, fitur mana yang terpengaruh, atau persentase dampaknya.

  • Progres menuju mitigasi, termasuk semua solusinya.

  • Linimasa komunikasi, yang disesuaikan dengan insiden.

  • Perubahan status, seperti saat insiden diperbaiki.

Retrospektif

Semua insiden menjalani retrospektif internal untuk sepenuhnya memahami insiden dan mengidentifikasi peningkatan keandalan yang dapat dilakukan oleh Google. Peningkatan ini kemudian dilacak dan diterapkan. Untuk informasi selengkapnya, lihat Bab 15 dalam Buku Site Reliability Engineering.

Laporan insiden

Jika insiden memiliki dampak yang sangat luas dan serius, Google akan memberikan laporan insiden yang menjelaskan gejala, dampak, akar masalah, perbaikan, dan pencegahan insiden di masa mendatang. Seperti halnya retrospektif, kami memberikan perhatian khusus pada langkah-langkah yang kami ambil untuk belajar dari masalah dan meningkatkan keandalan. Tujuan Google dalam menulis dan merilis retrospektif adalah agar transparan dan menunjukkan komitmen kami dalam membangun produk yang stabil bagi pelanggan.

Model data insiden

Insiden dapat memengaruhi satu atau beberapa produk di satu atau beberapa lokasi. Insiden memiliki waktu mulai dan waktu berakhir, serta tingkat keparahan secara keseluruhan. Insiden memiliki info terbaru yang menjelaskan perubahan insiden dari waktu ke waktu, termasuk statusnya dan lokasi yang terpengaruh. Informasi insiden tersedia melalui skema JSON.

Skema JSON memiliki kolom yang ditandai Stabil dan Tidak Stabil. Secara umum, kolom ID dianggap Stabil, sedangkan kolom seperti nama tampilan dianggap Tidak Stabil dan dapat berubah tanpa peringatan. Gunakan kolom Stabil hanya saat berintegrasi dengan sistem eksternal atau otomatisasi pembuatan. Untuk mengetahui informasi selengkapnya, dalam dokumen ini, lihat Dapatkah saya membuat integrasi untuk menggunakan Google Cloud data Kesehatan Layanan secara terprogram?.

FAQ

Pertanyaan umum (FAQ) berikut dapat membantu Anda saat memantau kondisi dan status produk Google Cloud .

Di mana saya dapat menemukan informasi tentang penonaktifan dan gangguan produk sebelumnya?

Google Cloud Service Health menyimpan catatan gangguan dan pemadaman untuk produkGoogle Cloud hingga lima tahun. Dasbor menampilkan status produk saat ini menurut lokalitas. Untuk melihat informasi tentang gangguan dan pemadaman produk dalam satu tahun terakhir, klik Lihat histori insiden. Untuk melihat histori pemadaman layanan produk selama lima tahun terakhir, klik Lihat lainnya untuk produk tersebut.

Bagaimana cara melihat informasi status yang diregionalisasi untuk Google Cloud produk?

Google Cloud Service Health menampilkan status semua produk Google Cloud yang diatur menurut region dan lokalitas global. Untuk melihat status untuk beberapa region, pilih tab khusus region.

Dapatkah saya membuat integrasi untuk menggunakan Google Cloud data Kesehatan Layanan secara terprogram?

Ya, Anda dapat menggunakan data yang ditampilkan oleh Google Cloud Service Health dengan cara berikut:

Feed RSS dan file histori JSON memberikan informasi status insiden yang dapat digunakan melalui integrasi.

Gunakan kolom yang ditandai Stabil dalam file histori JSON, bukan kolom yang ditandai Tidak stabil. Misalnya, jika Anda mencoba mengidentifikasi insiden secara terprogram yang memengaruhi kumpulan produk tertentu, gunakan ID produk (affected_products>id), bukan nama tampilannya.

ID produk versus nama produk

Secara historis, Google Cloud Respons Layanan tidak menyediakan mekanisme untuk menemukan ID untuk produk tertentu. Sejak awal 2023, Google Cloud Service Health menyediakan katalog produk yang menyediakan pemetaan ini untuk semua produk. ID produk menyediakan kolom yang stabil untuk dinonaktifkan sekaligus memungkinkan nama tampilan produk berubah. Anda harus mereferensikan ID produk saat mengidentifikasi insiden yang memengaruhi serangkaian produk secara terprogram.

Bagaimana jika saya memiliki integrasi berdasarkan implementasi Google Cloud Service Health sebelumnya?

Di feed RSS dan file JSON, informasi status regional merupakan tambahan untuk informasi yang sudah dipublikasikan sebelum pengenalan pelaporan status regional dan perubahan nama Google Cloud Service Health. Oleh karena itu, kami berharap integrasi yang ada akan terus berfungsi. Namun, jika ingin menggunakan informasi status regional melalui integrasi, Anda perlu mengubahnya.

Berikut adalah deskripsi mendetail tentang cara informasi regional ditampilkan dalam feed RSS dan file JSON:

  • Feed RSS

    Informasi status regional adalah tambahan baru untuk informasi feed yang disediakan sebelum diperkenalkannya status regional. Setiap lokasi yang dilaporkan sebagai terpengaruh akan ditambahkan ke pesan RSS.

  • File JSON

    Sebelum pembaruan status regional, Google Cloud memublikasikan aliran insiden yang berisi daftar produk yang terpengaruh dan daftar pembaruan status untuk setiap produk, jika ada. Pembaruan status ini berisi kolom string tidak terstruktur yang berisi atau tidak berisi informasi lokasi.

    Sekarang, Google Cloud memublikasikan aliran insiden seperti yang dilakukan sebelumnya. Namun, untuk setiap insiden, setiap pembaruan status berisi kolom baru berikut:

    • updates.affected_locations: berisi daftar terstruktur lokasi yang terpengaruh pada saat pembaruan diposting. Setiap data update dan data most_recent_update berisi kolom ini.
    • currently_affected_locations: berisi informasi terbaru tentang lokasi yang secara aktif terpengaruh oleh insiden. Tidak seperti updates.affected_locations, daftar ini menjadi kosong setelah insiden diselesaikan (yaitu, saat end ditetapkan ke nilai yang tidak kosong).
    • previously_affected_locations: berisi daftar lokasi yang sebelumnya terpengaruh selama insiden, tetapi saat ini tidak. Seiring penyelesaian insiden, beberapa lokasi mungkin mengalami pemadaman layanan. Lokasi ini akan tetap ada di previously_affected_locations field. Setelah insiden diselesaikan (yaitu, saat end ditetapkan ke nilai yang tidak kosong), kolom ini berisi daftar semua lokasi yang terpengaruh selama insiden ini.

Bagaimana jika saya mengalami masalah, tetapi tidak tercantum oleh Google Cloud Service Health?

Google Cloud Service Health memberikan informasi status saat ini dan historis untuk insiden besar yang memengaruhi Google Cloud produk dan layanan. Jika Anda mengalami masalah yang tidak tercantum olehGoogle Cloud Service Health, masalah tersebut mungkin hanya terjadi di project atau instance Anda, atau mungkin berdampak pada sebagian kecil pelanggan. Insiden yang memiliki cakupan lebih sedikit dapat dicantumkan di Portal Dukungan. Anda dapat menghubungi Customer Care terkait masalah apa pun yang dialami, yang tidak tercantum oleh Google Cloud Service Health.

Jika Anda sudah menggunakan Personalized Service Health, periksa apakah masalah tersebut tercantum di sana untuk menentukan apakah project atau instance Anda terpengaruh.

Jika Anda menggunakan konsol Google Cloud, di toolbar atas, pilih > Kirim masukan.

Siapa yang memperbarui Google Cloud Service Health?

Tim Layanan Pelanggan global memantau status produk menggunakan berbagai jenis sinyal dan memperbarui Google Cloud Kualitas Layanan jika terjadi masalah yang meluas. Jika diperlukan, mereka akan memposting laporan analisis insiden terperinci setelah insiden diselesaikan.

Langkah berikutnya