Insiden dan Dasbor Service Health Google Cloud

Dasbor Service Health (CSH) Google Cloud memberikan informasi status produk Google Cloud yang diatur berdasarkan region dan lokal global.

Insiden besar

Google Cloud mendefinisikan insiden sebagai insiden besar jika memenuhi semua kondisi berikut:

  • Cakupan tinggi - Insiden ini memiliki dampak global atau memengaruhi persentase project pelanggan yang signifikan di satu atau beberapa region.
  • Tingkat keseriusan tinggi - Satu atau beberapa produk tidak tersedia atau mengalami degradasi parah.

Jika terjadi insiden besar yang jarang terjadi, kami bertindak dengan segera untuk menyelesaikan masalah apa pun.

Selama insiden besar, status masalah ini disampaikan melalui Dasbor Service Health Google Cloud. Insiden besar ditandai sebagai Pemadaman layanan di dasbor status. Setelah masalah teratasi, kami akan memublikasikan laporan insiden publik yang menyertakan detail faktor-faktor yang berkontribusi pada insiden dan langkah-langkah yang kami rencanakan untuk mencegah insiden tersebut terulang.

Untuk insiden dengan cakupan yang lebih kecil, laporan non-publik mungkin akan tersedia kepada pelanggan.

Siklus proses insiden

Saat penurunan produk terdeteksi, tim Dukungan Google Cloud dan tim engineering produk bekerja sama untuk mengatasi insiden tersebut dan memberikan info terbaru kepada Anda.

Diagram berikut menunjukkan tanggung jawab tim engineering produk dan tim dukungan:

Diagram Siklus Proses

Anda dapat membaca selengkapnya tentang masing-masing tanggung jawab ini di bagian berikut.

Deteksi

Google Cloud menggunakan pemantauan kotak hitam dan internal untuk mendeteksi insiden. Untuk informasi selengkapnya, lihat Bab 6 dalam buku Site Reliability Engineering.

Jika Anda memiliki Dukungan Premium, Enhanced, atau Standard, Anda dapat melaporkan insiden dengan membuat kasus dukungan di Google Cloud Console. Jika tidak, Anda dapat menggunakan formulir ini.

Respons awal

Saat insiden terdeteksi, tim Layanan Pelanggan Google Cloud akan mengelola komunikasi pelanggan. Notifikasi awal insiden biasanya singkat, sering kali hanya menyebutkan produk yang bermasalah. Hal ini karena kami memprioritaskan notifikasi yang cepat daripada detail. Detail dapat diberikan dalam update berikutnya.

Untuk memberi Anda informasi sebanyak mungkin tanpa membanjiri Anda dengan masalah yang tidak memengaruhi Anda, saluran komunikasi yang berbeda digunakan bergantung pada cakupan dan tingkat keparahan masalah:

Diagram Komunikasi

Sebaiknya gunakan Personalized Service Health sebagai perhentian pertama saat menghadapi gangguan layanan. Melalui Personalized Service Health, Anda dapat melihat gangguan yang relevan dengan project Anda, berdasarkan project Anda dan produk Google Cloud yang Anda gunakan. Baca selengkapnya tentang Personalized Service Health dan cara mengintegrasikannya ke dalam alur kerja manajemen insiden Anda.

Dasbor Service Health Google Cloud menampilkan insiden besar dan dirancang agar tersedia dalam peristiwa yang jarang terjadi, yaitu Personalized Service Health itu sendiri tidak tersedia atau terpengaruh oleh gangguan.

Jika Anda belum mengaktifkan atau berintegrasi dengan Kondisi Layanan yang Dipersonalisasi, sebaiknya periksa gangguan aktif di halaman Dukungan Konsol Google Cloud atau Portal Layanan Pelanggan. Masalah umum yang ditampilkan di halaman Dukungan Google Cloud Console dan Portal Cloud Customer Care juga mencakup insiden kecil dengan cakupan terbatas.

Kasus dukungan cocok untuk masalah yang tidak memenuhi syarat sebagai insiden atau yang memerlukan kontak langsung manusia. Halaman masalah umum memungkinkan Anda membuat kasus dari insiden yang diposting sehingga Anda mendapatkan info terbaru secara rutin dan dapat berbicara dengan staf dukungan.

Investigasi

Tim teknis produk bertanggung jawab untuk menyelidiki akar penyebab insiden. Manajemen insiden sering kali dilakukan oleh Site Reliability Engineer, tetapi mungkin dilakukan oleh software engineer atau yang lainnya, bergantung pada situasi dan produk. Untuk informasi selengkapnya, lihat Bab 12 dalam Buku Site Reliability Engineering.

Mitigasi/Perbaikan

Masalah dianggap telah diperbaiki hanya jika perubahan yang dibuat diyakini oleh Google akan mengakhiri dampak tanpa batas waktu. Misalnya, perbaikan dapat menghapus perubahan yang memicu insiden.

Saat insiden sedang berlangsung, Layanan Pelanggan dan tim produk akan mencoba memitigasi masalah tersebut. Mitigasi adalah ketika dampak atau cakupan masalah dapat dikurangi, misalnya, dengan menyediakan resource tambahan sementara untuk produk yang mengalami kelebihan beban.

Jika mitigasi tidak ditemukan, jika memungkinkan, tim Layanan Pelanggan akan mencari dan menyampaikan solusinya. Solusinya berupa langkah-langkah yang dapat Anda ambil untuk mengatasi kebutuhan yang mendasari, meskipun terjadi insiden. Solusi mungkin menggunakan setelan yang berbeda untuk panggilan API guna menghindari jalur kode yang bermasalah.

Tindak lanjuti

Saat insiden berlangsung, tim Layanan Pelanggan akan memberikan info terbaru secara rutin. Info terbaru biasanya berupa:

  • Informasi selengkapnya tentang insiden tersebut, seperti pesan error, zona atau region yang terpengaruh, fitur mana yang terpengaruh, atau persentase dampak.

  • Progres menuju mitigasi, termasuk semua solusinya.

  • Linimasa komunikasi, yang disesuaikan dengan insiden.

  • Perubahan status, seperti saat insiden diperbaiki.

{i>Postmortem<i}

Semua insiden memiliki postmortem secara internal untuk sepenuhnya memahami insiden dan mengidentifikasi peningkatan keandalan yang dapat dilakukan oleh Google. Peningkatan ini kemudian dilacak dan diterapkan. Untuk informasi selengkapnya tentang postmortem di Google, lihat Bab 15 dalam Buku Site Reliability Engineering.

Laporan insiden

Saat insiden memiliki dampak yang sangat besar dan serius, Google memberikan laporan insiden yang menjelaskan gejala, dampak, penyebab utama, perbaikan, dan pencegahan insiden di masa mendatang. Seperti halnya postmortem, kami memberikan perhatian khusus pada langkah-langkah yang kami ambil untuk belajar dari masalah dan meningkatkan keandalan. Tujuan Google menulis dan merilis postmortem adalah agar transparan dan menunjukkan komitmen kami dalam membangun produk yang stabil bagi pelanggan.

Model data insiden

Insiden memengaruhi satu atau beberapa produk di satu atau beberapa lokasi. Insiden memiliki waktu mulai dan waktu berakhir, serta tingkat keparahan keseluruhan. Insiden memiliki info terbaru yang menjelaskan perubahan insiden dari waktu ke waktu, termasuk statusnya dan lokasi yang terpengaruh saat itu. Informasi insiden tersedia melalui skema JSON.

Skema JSON memiliki kolom yang ditandai sebagai Stabil dan Tidak stabil. Secara umum, kolom ID dianggap Stabil, sedangkan kolom seperti nama tampilan dianggap Tidak stabil dan dapat diubah tanpa peringatan. Gunakan kolom Stabil hanya saat berintegrasi dengan sistem eksternal atau otomatisasi build. Lihat Dapatkah saya mem-build integrasi untuk menggunakan data yang ditampilkan di Dasbor Service Health Google Cloud secara terprogram?.

FAQ

Jenis informasi status apa saja yang dapat saya temukan di Google Dasbor CSH?

Dasbor CSH Google memberikan informasi status tentang produk yang merupakan bagian dari Google Cloud. Status dapat mencakup gangguan produk, pemadaman, atau pesan informasi tentang masalah sementara.

Kapan suatu insiden diposting ke Google Dasbor CSH?

Insiden yang memenuhi salah satu kriteria berikut akan muncul di dasbor CSH:

Di mana saya dapat menemukan informasi tentang gangguan dan pemadaman produk sebelumnya?

Dasbor Google CSH menyimpan catatan gangguan dan pemadaman produk Google Cloud hingga lima tahun. Tab Ringkasan di dasbor menampilkan status produk saat ini berdasarkan lokalitas. Untuk melihat informasi tentang gangguan dan pemadaman produk pada tahun lalu, klik Lihat histori di dasbor. Untuk melihat histori pemadaman produk selama lima tahun terakhir, klik Lihat lainnya untuk produk tersebut.

Bagaimana cara melihat informasi status regional untuk produk Google Cloud?

Google CSH Dashboard menampilkan status semua produk Google Cloud yang diatur berdasarkan region dan lokalitas global. Untuk melihat status multi-region, klik tab khusus region.

Dapatkah saya membuat integrasi untuk menggunakan data yang ditampilkan di Dasbor Service Health Google Cloud secara terprogram?

Ya, Anda dapat menggunakan data yang ditampilkan di Google Dasbor CSH dengan cara berikut:

  • Melalui feed RSS
  • Melalui file Histori JSON

    Anda dapat mendownload skema untuk file JSON di sini.

Feed RSS dan file Histori JSON memberikan informasi status insiden yang dapat digunakan melalui integrasi.

Gunakan kolom yang ditandai Stabil di file Histori JSON, bukan kolom yang ditandai sebagai Unstable. Contoh: jika Anda mencoba mengidentifikasi secara terprogram insiden yang memengaruhi kumpulan produk tertentu, gunakan ID produk (affected_products>id), bukan nama tampilannya.

ID produk versus nama produk

Sebelumnya, Dasbor Service Health Google Cloud tidak menyediakan mekanisme untuk menemukan ID produk tertentu. Sejak awal 2023, Dasbor Service Health Google Cloud menyediakan katalog produk yang menyediakan pemetaan ini untuk semua produk. ID produk menyediakan kolom yang stabil untuk diisi kunci sekaligus memungkinkan nama tampilan produk berubah. Pilih untuk mereferensikan ID produk saat mengidentifikasi insiden yang memengaruhi sekumpulan produk secara terprogram.

Bagaimana jika saya memiliki integrasi bawaan berdasarkan Dasbor Status Google Cloud sebelum pengenalan pelaporan status regional dan perubahan nama ke Dasbor Service Health Google Cloud?

Dalam feed RSS dan file JSON, informasi status regional merupakan tambahan untuk informasi yang sudah dipublikasikan sebelum diperkenalkannya pelaporan status regional dan perubahan atas nama Dasbor Status Google Cloud. Oleh karena itu, kami harap integrasi yang ada akan terus berfungsi. Namun, jika ingin menggunakan informasi status regional melalui integrasi, Anda harus mengubahnya.

Berikut adalah deskripsi mendetail tentang cara informasi wilayah ditampilkan di feed RSS dan file JSON:

  • Feed RSS

    Informasi status wilayah adalah tambahan baru pada informasi feed yang diberikan sebelum pengenalan status regional. Setiap lokasi yang dilaporkan sebagai terpengaruh akan ditambahkan ke pesan RSS.

  • File JSON

    Sebelum pembaruan status regional, Google Cloud memublikasikan aliran insiden dengan setiap insiden berisi daftar produk yang terpengaruh dan daftar pembaruan status untuk setiap insiden, jika ada. Update status ini berisi kolom string tidak terstruktur yang berisi atau tidak berisi informasi lokasi.

    Sekarang, Google Cloud memublikasikan aliran insiden seperti sebelumnya. Namun, untuk setiap insiden, setiap pembaruan status berisi kolom baru berikut:

    • updates.affected_locations: berisi daftar terstruktur lokasi yang terpengaruh pada saat pembaruan diposting. Setiap data pembaruan dan data most_recent_update berisi kolom ini.
    • currently_affected_locations: berisi informasi terbaru tentang lokasi yang secara aktif terpengaruh oleh insiden. Tidak seperti updates.affected_locations, daftar ini menjadi kosong setelah insiden diselesaikan (yaitu, ketika end ditetapkan ke nilai yang tidak kosong).
    • previously_affected_locations: berisi daftar lokasi yang sebelumnya terpengaruh selama insiden, tetapi saat ini tidak terpengaruh. Seiring insiden berlangsung, beberapa lokasi mungkin memiliki penyelesaian pemadaman. Lokasi ini akan tetap ada di previously_affected_locations field. Setelah insiden diselesaikan (yaitu, jika end ditetapkan ke nilai yang tidak kosong), kolom ini berisi daftar semua lokasi yang terpengaruh selama insiden ini.

Bagaimana jika saya mengalami masalah, tetapi tidak tercantum di dasbor?

Dasbor Service Health Google Cloud memberikan informasi status terkini dan historis untuk setiap insiden besar yang memengaruhi produk dan layanan Google Cloud. Jika Anda mengalami masalah yang tidak tercantum di dasbor, masalah tersebut mungkin hanya terjadi di project atau instance Anda saja, atau mungkin berdampak pada sejumlah kecil pelanggan. Insiden dengan cakupan yang lebih sedikit dapat dicantumkan di Portal Layanan Pelanggan. Anda dapat menghubungi Layanan Pelanggan tentang masalah apa pun yang Anda alami yang tidak tercantum di dasbor.

Jika Anda sudah menggunakan dasbor Personalized Service Health, periksa apakah masalahnya tercantum di sana untuk menentukan apakah project atau instance Anda terpengaruh.

Jika menggunakan Konsol Google Cloud, Anda dapat mengklik alat Kirim masukan di pojok kanan atas untuk melaporkan masalah.

Siapa yang memperbarui dasbor?

Tim Layanan Pelanggan global memantau status produk menggunakan berbagai jenis sinyal dan memperbarui dasbor jika terjadi masalah yang meluas. Jika diperlukan, mereka akan memposting laporan analisis insiden terperinci setelah insiden diselesaikan.