Insiden dan Google Cloud Service Health

Untuk terus mendapatkan informasi tentang kondisi produk Google Cloud, periksa hal berikut:

  • Personalized Service Health - memberikan tampilan yang dipersonalisasi tentang produk dan region Google Cloud yang digunakan oleh project Anda atau di seluruh organisasi. Periksa Personalized Service Health untuk mengetahui komunikasi tentang insiden Google Cloud aktif dan sebelumnya yang mungkin memengaruhi project dan resource Anda.

    Anda dapat mengakses Personalized Service Health melalui cara berikut:

  • Google Cloud Service Health - memberikan tampilan seluruh platform tentang kondisi semua produk Google Cloud di seluruh region Google Cloud, dan tersedia untuk semua orang. Halaman ini memberikan informasi tentang insiden Google Cloud dengan dampak yang luas.

    Anda dapat mengakses Kesehatan Layanan Google Cloud melalui cara berikut:

Gunakan Personalized Service Health sebagai referensi pertama saat mengalami gangguan layanan untuk produk tertentu, karena Personalized Service Health akan selalu memiliki informasi terbaru yang tersedia untuk pelanggan Google Cloud. Baca selengkapnya tentang Personalized Service Health dan cara mengintegrasikannya ke dalam alur kerja manajemen insiden Anda.

Anda juga dapat memeriksa gangguan aktif di halaman Dukungan konsol Google Cloud. Masalah umum yang ditampilkan di halaman Dukungan konsol Google Cloud juga mencakup insiden yang bersifat minor dan berskala terbatas. Halaman masalah umum memungkinkan Anda membuat kasus dari insiden yang diposting sehingga Anda mendapatkan info terbaru secara rutin dan dapat berbicara dengan staf dukungan. Kasus dukungan sesuai untuk masalah yang tidak memenuhi syarat sebagai insiden atau jika diperlukan interaksi langsung dengan petugas dukungan. Jika memiliki Dukungan Premium, Enhanced, atau Standar, Anda dapat melaporkan insiden dengan membuat kasus dukungan di konsol Google Cloud. Jika tidak, Anda dapat menggunakan formulir ini.

Dokumen ini berfokus pada Kondisi Layanan Google Cloud.

Apa yang dimaksud dengan Google Cloud Service Health

Kondisi Layanan Google Cloud memberikan informasi tentang status produk Google Cloud yang diatur menurut region dan lokalitas global. Informasi ini dapat mencakup gangguan produk, pemadaman, atau pesan informasi tentang masalah sementara.

Google Cloud Service Health dirancang agar tersedia jika terjadi peristiwa yang jarang terjadi, yaitu saat Personalized Service Health itu sendiri tidak tersedia atau terpengaruh oleh gangguan, atau produk yang terpengaruh belum diaktifkan ke Personalized Service Health.

Kapan insiden muncul di Google Cloud Service Health

Untuk sebagian besar insiden Google Cloud, pelanggan yang terpengaruh akan menerima komunikasi insiden langsung melalui Status Layanan yang Dipersonalisasi di konsol Google Cloud. Jika memenuhi kondisi pemberitahuan, insiden ini juga akan memicu pemberitahuan Kesehatan Layanan yang Anda konfigurasi.

Insiden yang memenuhi salah satu kriteria berikut akan muncul di Google Cloud Service Health:

  • Insiden besar yang terjadi di tempat umum
  • Insiden untuk produk Google Cloud yang belum tersedia di Personalized Service Health
  • Insiden yang terjadi saat dasbor Personalized Service Health tidak tersedia

Insiden besar

Google Cloud mendefinisikan insiden sebagai insiden besar jika memenuhi semua kondisi berikut:

  • Cakupan tinggi - Insiden memiliki dampak global atau memengaruhi persentase signifikan project pelanggan di satu atau beberapa region.
  • Tingkat keparahan tinggi - Satu atau beberapa produk tidak tersedia atau mengalami degradasi yang parah.

Dalam kasus yang jarang terjadi, saat insiden besar terjadi, kami akan segera bertindak untuk menyelesaikan masalah apa pun.

Selama insiden besar, status masalah akan disampaikan melalui Dasbor Google Cloud Service Health. Insiden besar ditandai sebagai Gangguan layanan di dasbor status. Setelah masalah tersebut diselesaikan, kami akan memublikasikan laporan insiden publik yang menyertakan detail faktor-faktor yang berkontribusi pada insiden tersebut dan langkah-langkah yang kami rencanakan untuk mencegah insiden tersebut terulang kembali.

Untuk insiden dengan cakupan yang lebih kecil, laporan nonpublik mungkin tersedia untuk pelanggan.

Siklus proses insiden

Saat penurunan kualitas produk terdeteksi, tim Dukungan Google Cloud dan tim engineering produk akan bekerja sama untuk menyelesaikan insiden tersebut dan memberikan informasi terbaru kepada Anda.

Diagram berikut menunjukkan tanggung jawab tim dukungan dan rekayasa produk:

Diagram Siklus Proses

Anda dapat membaca lebih lanjut setiap tanggung jawab ini di bagian berikut.

Deteksi

Google Cloud menggunakan pemantauan kotak hitam dan internal untuk mendeteksi insiden. Untuk informasi selengkapnya, lihat Bab 6 dalam buku Site Reliability Engineering.

Respons awal

Saat insiden terdeteksi, tim Layanan Pelanggan Google Cloud akan mengelola komunikasi pelanggan. Notifikasi awal tentang insiden biasanya singkat, sering kali hanya menyebutkan produk yang bermasalah. Hal ini karena kami lebih memprioritaskan notifikasi yang bersifat cepat daripada mendetail. Detail dapat diberikan dalam update berikutnya.

Untuk memberikan informasi sebanyak mungkin tanpa membebani Anda dengan masalah yang tidak memengaruhi Anda, saluran komunikasi yang berbeda akan digunakan bergantung pada cakupan dan tingkat keparahan masalah:

Diagram Komunikasi

Investigasi

Tim engineer produk bertanggung jawab untuk menyelidiki akar penyebab insiden. Manajemen insiden sering kali dilakukan oleh Site Reliability Engineer, tetapi dapat dilakukan oleh software engineer atau yang lainnya, bergantung pada situasi dan produk. Untuk mengetahui informasi selengkapnya, lihat Bab 12 dalam Buku Site Reliability Engineering.

Mitigasi dan Perbaikan

Masalah dianggap telah diperbaiki hanya jika perubahan yang dibuat diyakini oleh Google akan meniadakan dampak yang timbul untuk selamanya. Misalnya, perbaikan dapat melakukan roll back perubahan yang memicu insiden.

Saat insiden sedang berlangsung, Layanan Pelanggan dan tim produk akan mencoba memitigasi masalah. Mitigasi adalah tindakan untuk mengurangi dampak atau cakupan masalah, misalnya dengan menyediakan resource tambahan sementara untuk produk yang mengalami kelebihan beban.

Jika mitigasi tidak ditemukan, jika memungkinkan, tim Customer Care akan menemukan dan menyampaikan solusinya. Solusi adalah langkah-langkah yang dapat Anda ambil untuk mengatasi kebutuhan yang mendasari, meskipun terjadi insiden. Solusi mungkin menggunakan setelan yang berbeda untuk panggilan API guna menghindari jalur kode yang bermasalah.

Tindak lanjuti

Saat insiden berlangsung, tim Layanan Pelanggan akan memberikan info terbaru secara berkala. Info terbaru biasanya berupa:

  • Informasi selengkapnya tentang insiden tersebut, seperti pesan error, zona atau wilayah yang terpengaruh, fitur mana yang terpengaruh, atau persentase dampaknya.

  • Progres menuju mitigasi, termasuk semua solusinya.

  • Linimasa komunikasi, yang disesuaikan dengan insiden.

  • Perubahan status, seperti saat insiden diperbaiki.

Postmortem

Semua insiden memiliki postmortem secara internal untuk sepenuhnya memahami insiden dan mengidentifikasi peningkatan keandalan yang dapat dilakukan oleh Google. Peningkatan ini kemudian dilacak dan diterapkan. Untuk informasi selengkapnya tentang postmortem di Google, lihat Bab 15 dalam Buku Site Reliability Engineering.

Laporan insiden

Jika insiden memiliki dampak yang sangat besar dan serius, Google akan memberikan laporan insiden yang menjelaskan gejala, dampak, penyebab utama, perbaikan, dan pencegahan insiden di masa mendatang. Seperti halnya postmortem, kami memberikan perhatian khusus pada langkah-langkah yang kami ambil untuk belajar dari masalah dan meningkatkan keandalan. Tujuan Google menulis dan merilis postmortem adalah agar transparan dan menunjukkan komitmen kami dalam membangun produk yang stabil untuk pelanggan.

Model data insiden

Insiden memengaruhi satu atau beberapa produk di satu atau beberapa lokasi. Insiden memiliki waktu mulai dan waktu berakhir, serta tingkat keparahan secara keseluruhan. Insiden memiliki info terbaru yang menjelaskan perubahan insiden dari waktu ke waktu, termasuk statusnya dan lokasi yang terpengaruh. Informasi insiden tersedia melalui skema JSON.

Skema JSON memiliki kolom yang ditandai Stabil dan Tidak Stabil. Secara umum, kolom ID dianggap Stabil, sedangkan kolom seperti nama tampilan dianggap Tidak Stabil dan dapat diubah tanpa peringatan. Gunakan kolom Stabil hanya saat berintegrasi dengan sistem eksternal atau otomatisasi pembuatan. Lihat Dapatkah saya membuat integrasi untuk menggunakan data yang ditampilkan di Dasbor Google Cloud Service Health secara terprogram?.

FAQ

Di mana saya dapat menemukan informasi tentang penonaktifan dan gangguan produk sebelumnya?

Google Cloud Service Health menyimpan catatan gangguan dan pemadaman untuk produk Google Cloud hingga lima tahun. Tab Ringkasan di dasbor menampilkan status produk saat ini menurut lokalitas. Untuk melihat informasi tentang gangguan dan pemadaman produk dalam setahun terakhir, klik Lihat histori di dasbor. Untuk melihat histori pemadaman layanan produk selama lima tahun terakhir, klik Lihat lainnya untuk produk tersebut.

Bagaimana cara melihat informasi status yang diregionalisasi untuk produk Google Cloud?

Google Cloud Service Health menampilkan status semua produk Google Cloud yang diatur menurut region dan lokalitas global. Untuk melihat status multi-region, pilih tab khusus region.

Dapatkah saya membuat integrasi untuk menggunakan data yang ditampilkan di Google Google Cloud Service Health secara terprogram?

Ya, Anda dapat menggunakan data yang ditampilkan di Google Cloud Service Health dengan cara berikut:

  • Melalui feed RSS
  • Melalui file Histori JSON

    Anda dapat mendownload skema untuk file JSON di sini.

Feed RSS dan file Histori JSON memberikan informasi status insiden yang dapat digunakan melalui integrasi.

Gunakan kolom yang ditandai Stabil dalam file Histori JSON, bukan kolom yang ditandai Tidak Stabil. Contoh: jika Anda mencoba mengidentifikasi insiden secara terprogram yang memengaruhi kumpulan produk tertentu, gunakan ID produk (affected_products>id), bukan nama tampilannya.

ID produk versus nama produk

Secara historis, Google Cloud Service Health tidak menyediakan mekanisme untuk menemukan ID produk tertentu. Sejak awal 2023, Google Cloud Service Health menyediakan katalog produk yang menyediakan pemetaan ini untuk semua produk. ID produk menyediakan kolom yang stabil untuk dinonaktifkan sekaligus memungkinkan nama tampilan produk berubah. Sebaiknya referensikan ID produk saat mengidentifikasi insiden yang memengaruhi serangkaian produk secara terprogram.

Bagaimana jika saya memiliki integrasi bawaan berdasarkan Google Cloud Service Health sebelum diperkenalkannya pelaporan status regional dan perubahan nama ke Dasbor Google Cloud Service Health?

Dalam feed RSS dan file JSON, informasi status regional merupakan tambahan untuk informasi yang sudah dipublikasikan sebelum pengenalan pelaporan status regional dan perubahan nama Google Cloud Service Health. Oleh karena itu, kami berharap integrasi yang ada akan terus berfungsi. Namun, jika ingin menggunakan informasi status regional melalui integrasi, Anda perlu mengubahnya.

Berikut adalah deskripsi mendetail tentang cara informasi regional ditampilkan dalam feed RSS dan file JSON:

  • Feed RSS

    Informasi status regional adalah tambahan baru untuk informasi feed yang disediakan sebelum diperkenalkannya status regional. Setiap lokasi yang dilaporkan sebagai terpengaruh akan ditambahkan ke pesan RSS.

  • File JSON

    Sebelum pembaruan status regional, Google Cloud memublikasikan aliran insiden yang berisi daftar produk yang terpengaruh dan daftar pembaruan status untuk setiap produk, jika ada. Pembaruan status ini berisi kolom string tidak terstruktur yang berisi atau tidak berisi informasi lokasi.

    Sekarang, Google Cloud memublikasikan aliran insiden seperti sebelumnya. Namun, untuk setiap insiden, setiap pembaruan status berisi kolom baru berikut:

    • updates.affected_locations: berisi daftar terstruktur lokasi yang terpengaruh pada saat pembaruan diposting. Setiap data pembaruan dan data most_recent_update berisi kolom ini.
    • currently_affected_locations: berisi informasi terbaru tentang lokasi yang secara aktif terpengaruh oleh insiden. Tidak seperti updates.affected_locations, daftar ini menjadi kosong setelah insiden diselesaikan (yaitu, saat end ditetapkan ke nilai yang tidak kosong).
    • previously_affected_locations: berisi daftar lokasi yang sebelumnya terpengaruh selama insiden, tetapi saat ini tidak. Seiring penyelesaian insiden, beberapa lokasi mungkin mengalami pemadaman layanan. Lokasi ini akan tetap ada di previously_affected_locations field. Setelah insiden diselesaikan (yaitu, saat end ditetapkan ke nilai yang tidak kosong), kolom ini berisi daftar semua lokasi yang terpengaruh selama insiden ini.

Bagaimana jika saya mengalami masalah, tetapi tidak tercantum di dasbor?

Dasbor Google Cloud Service Health memberikan informasi status saat ini dan historis untuk setiap insiden besar yang memengaruhi produk dan layanan Google Cloud. Jika Anda mengalami masalah yang tidak tercantum di dasbor, masalah tersebut mungkin hanya terjadi di project atau instance Anda, atau mungkin berdampak ke sebagian kecil pelanggan. Insiden yang memiliki cakupan lebih sedikit dapat dicantumkan di Portal Layanan Pelanggan. Anda dapat menghubungi Customer Care tentang masalah apa pun yang dialami, yang tidak tercantum di dasbor.

Jika Anda sudah menggunakan dasbor Personalized Service Health, periksa apakah masalah tersebut tercantum di sana untuk menentukan apakah project atau instance Anda terpengaruh.

Jika menggunakan konsol Google Cloud, Anda dapat mengklik alat Kirim masukan di sudut kanan atas untuk melaporkan masalah.

Siapa yang memperbarui dasbor?

Tim Customer Care global memantau status produk menggunakan berbagai jenis sinyal dan memperbarui dasbor jika terjadi masalah yang meluas. Jika diperlukan, mereka akan memposting laporan analisis insiden mendetail setelah insiden diselesaikan.