Memastikan kesiapan dan performa operasional menggunakan CloudOps

Last reviewed 2024-10-31 UTC

Prinsip ini dalam pilar keunggulan operasional dari Framework Arsitektur Google Cloud membantu Anda memastikan kesiapan operasional dan performa workload cloud Anda. Praktik ini menekankan penetapan ekspektasi dan komitmen yang jelas untuk performa layanan, menerapkan pemantauan dan pemberitahuan yang andal, melakukan pengujian performa, dan merencanakan kebutuhan kapasitas secara proaktif.

Ringkasan prinsip

Organisasi yang berbeda mungkin menafsirkan kesiapan operasional dengan cara yang berbeda. Kesiapan operasional adalah cara organisasi Anda bersiap untuk berhasil mengoperasikan workload di Google Cloud. Persiapan untuk mengoperasikan workload cloud yang kompleks dan berlapis memerlukan perencanaan yang cermat untuk operasi peluncuran dan day-2. Operasi ini sering disebut CloudOps.

Area fokus kesiapan operasional

Kesiapan operasional terdiri dari empat area fokus. Setiap area fokus terdiri dari serangkaian aktivitas dan komponen yang diperlukan untuk bersiap mengoperasikan aplikasi atau lingkungan yang kompleks di Google Cloud. Tabel berikut mencantumkan komponen dan aktivitas dari setiap area fokus:

Area fokus kesiapan operasional Aktivitas dan komponen
Tenaga Kerja
  • Menentukan peran dan tanggung jawab yang jelas untuk tim yang mengelola dan mengoperasikan resource cloud.
  • Memastikan anggota tim memiliki keterampilan yang sesuai.
  • Mengembangkan program pembelajaran.
  • Menyusun struktur tim yang jelas.
  • Mempekerjakan talenta yang diperlukan.
Proses
  • Kemampuan observasi.
  • Mengelola gangguan layanan.
  • Pengiriman cloud.
  • Operasi cloud inti.
Alat Alat yang diperlukan untuk mendukung proses CloudOps.
Tata kelola
  • Tingkat layanan dan pelaporan.
  • Keuangan cloud.
  • Model operasi cloud.
  • Peninjauan arsitektur dan dewan tata kelola.
  • Arsitektur dan kepatuhan cloud.

Rekomendasi

Untuk memastikan kesiapan dan performa operasional menggunakan CloudOps, pertimbangkan rekomendasi di bagian berikut. Setiap rekomendasi dalam dokumen ini relevan dengan satu atau beberapa area fokus kesiapan operasional.

Menentukan SLO dan SLA

Tanggung jawab inti tim operasi cloud adalah menentukan tujuan tingkat layanan (SLO) dan perjanjian tingkat layanan (SLA) untuk semua beban kerja kritis. Rekomendasi ini relevan dengan area fokus kesiapan operasional tata kelola.

SLO harus spesifik, terukur, dapat dicapai, relevan, dan terikat waktu (SMART), dan harus mencerminkan tingkat layanan dan performa yang Anda inginkan.

  • Khusus: Menjelaskan dengan jelas tingkat layanan dan performa yang diperlukan.
  • Terukur: Dapat diukur dan dilacak.
  • Dapat dicapai: Dapat dicapai dalam batas kemampuan dan resource organisasi Anda.
  • Relevan: Selaraskan dengan sasaran dan prioritas bisnis.
  • Terikat waktu: Memiliki jangka waktu yang ditentukan untuk pengukuran dan evaluasi.

Misalnya, SLO untuk aplikasi web mungkin adalah "ketersediaan 99,9%" atau "waktu respons rata-rata kurang dari 200 md". SLO tersebut dengan jelas menentukan tingkat layanan dan performa yang diperlukan untuk aplikasi web, dan SLO dapat diukur dan dilacak dari waktu ke waktu.

SLA menguraikan komitmen kepada pelanggan terkait ketersediaan, performa, dan dukungan layanan, termasuk denda atau ganti rugi apa pun atas ketidakpatuhan. SLA harus menyertakan detail spesifik tentang layanan yang disediakan, tingkat layanan yang dapat diharapkan, tanggung jawab penyedia layanan dan pelanggan, serta hukuman atau ganti rugi apa pun atas ketidakpatuhan. SLA berfungsi sebagai perjanjian kontrak antara kedua pihak, yang memastikan bahwa keduanya memiliki pemahaman yang jelas tentang ekspektasi dan kewajiban yang terkait dengan layanan cloud.

Google Cloud menyediakan alat seperti Cloud Monitoring dan indikator tingkat layanan (SLI) untuk membantu Anda menentukan dan melacak SLO. Cloud Monitoring menyediakan kemampuan pemantauan dan visibilitas yang komprehensif yang memungkinkan organisasi Anda mengumpulkan dan menganalisis metrik yang terkait dengan ketersediaan, performa, dan latensi aplikasi dan layanan berbasis cloud. SLI adalah metrik spesifik yang dapat Anda gunakan untuk mengukur dan melacak SLO dari waktu ke waktu. Dengan memanfaatkan alat ini, Anda dapat memantau dan mengelola layanan cloud secara efektif, serta memastikan layanan tersebut memenuhi SLO dan SLA.

Menentukan dan mengomunikasikan SLO dan SLA dengan jelas untuk semua layanan cloud kritis Anda akan membantu memastikan keandalan dan performa aplikasi dan layanan yang di-deploy.

Menerapkan kemampuan observasi komprehensif

Untuk mendapatkan visibilitas real-time tentang kondisi dan performa lingkungan cloud, sebaiknya gunakan kombinasi alat Observabilitas Google Cloud dan solusi pihak ketiga. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Dengan menerapkan kombinasi solusi observabilitas, Anda akan mendapatkan strategi observabilitas komprehensif yang mencakup berbagai aspek infrastruktur dan aplikasi cloud Anda. Google Cloud Observability adalah platform terpadu untuk mengumpulkan, menganalisis, dan memvisualisasikan metrik, log, dan rekaman aktivitas dari berbagai layanan, aplikasi, dan sumber eksternal Google Cloud. Dengan menggunakan Cloud Monitoring, Anda bisa mendapatkan insight tentang penggunaan resource, karakteristik performa, dan kondisi keseluruhan resource Anda.

Untuk memastikan pemantauan yang komprehensif, pantau metrik penting yang selaras dengan indikator kondisi sistem seperti penggunaan CPU, penggunaan memori, traffic jaringan, I/O disk, dan waktu respons aplikasi. Anda juga harus mempertimbangkan metrik khusus bisnis. Dengan melacak metrik ini, Anda dapat mengidentifikasi potensi bottleneck, masalah performa, dan batasan resource. Selain itu, Anda dapat menyiapkan pemberitahuan untuk memberi tahu tim yang relevan secara proaktif tentang potensi masalah atau anomali.

Untuk meningkatkan kemampuan pemantauan lebih lanjut, Anda dapat mengintegrasikan solusi pihak ketiga dengan Google Cloud Observability. Solusi ini dapat memberikan fungsi tambahan, seperti analisis lanjutan, deteksi anomali yang didukung machine learning, dan kemampuan pengelolaan insiden. Kombinasi alat Kemampuan Observasi Google Cloud dan solusi pihak ketiga ini memungkinkan Anda membuat ekosistem pemantauan yang andal dan dapat disesuaikan yang disesuaikan dengan kebutuhan spesifik Anda. Dengan menggunakan pendekatan kombinasi ini, Anda dapat secara proaktif mengidentifikasi dan mengatasi masalah, mengoptimalkan penggunaan resource, serta memastikan keandalan dan ketersediaan aplikasi dan layanan cloud secara keseluruhan.

Mengimplementasikan pengujian performa dan beban

Melakukan pengujian performa secara rutin akan membantu Anda memastikan bahwa aplikasi dan infrastruktur berbasis cloud dapat menangani beban puncak dan mempertahankan performa yang optimal. Pengujian beban menyimulasikan pola traffic yang realistis. Pengujian stres mendorong sistem hingga batasnya untuk mengidentifikasi potensi bottleneck dan batasan performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Alat seperti Cloud Load Balancing dan layanan uji beban dapat membantu Anda menyimulasikan pola traffic di dunia nyata dan melakukan uji stres pada aplikasi Anda. Alat ini memberikan insight berharga tentang perilaku sistem Anda dalam berbagai kondisi beban, dan dapat membantu Anda mengidentifikasi area yang memerlukan pengoptimalan.

Berdasarkan hasil pengujian performa, Anda dapat membuat keputusan untuk mengoptimalkan infrastruktur dan aplikasi cloud untuk performa dan skalabilitas yang optimal. Pengoptimalan ini mungkin melibatkan penyesuaian alokasi resource, penyesuaian konfigurasi, atau penerapan mekanisme caching.

Misalnya, jika Anda mendapati bahwa aplikasi mengalami pelambatan selama periode traffic tinggi, Anda mungkin perlu meningkatkan jumlah virtual machine atau penampung yang dialokasikan ke aplikasi. Atau, Anda mungkin perlu menyesuaikan konfigurasi server web atau database untuk meningkatkan performa.

Dengan melakukan pengujian performa secara rutin dan menerapkan pengoptimalan yang diperlukan, Anda dapat memastikan bahwa aplikasi dan infrastruktur berbasis cloud selalu berjalan dengan performa puncak, serta memberikan pengalaman yang lancar dan responsif bagi pengguna. Dengan demikian, Anda dapat mempertahankan keunggulan kompetitif dan membangun kepercayaan dengan pelanggan.

Merencanakan dan mengelola kapasitas

Merencanakan kebutuhan kapasitas di masa mendatang secara proaktif—baik organik maupun anorganik—akan membantu Anda memastikan kelancaran operasi dan skalabilitas sistem berbasis cloud. Rekomendasi ini relevan dengan proses area fokus kesiapan operasional.

Merencanakan kapasitas di masa mendatang mencakup pemahaman dan pengelolaan kuota untuk berbagai resource seperti instance komputasi, penyimpanan, dan permintaan API. Dengan menganalisis pola penggunaan historis, proyeksi pertumbuhan, dan persyaratan bisnis, Anda dapat mengantisipasi kebutuhan kapasitas di masa mendatang secara akurat. Anda dapat menggunakan alat seperti Cloud Monitoring dan BigQuery untuk mengumpulkan dan menganalisis data penggunaan, mengidentifikasi tren, dan memperkirakan permintaan di masa mendatang.

Pola penggunaan historis memberikan insight berharga tentang penggunaan resource dari waktu ke waktu. Dengan memeriksa metrik seperti penggunaan CPU, penggunaan memori, dan traffic jaringan, Anda dapat mengidentifikasi periode permintaan tinggi dan potensi bottleneck. Selain itu, Anda dapat membantu memperkirakan kebutuhan kapasitas di masa mendatang dengan membuat proyeksi pertumbuhan berdasarkan faktor-faktor seperti pertumbuhan basis pengguna, produk dan fitur baru, serta kampanye pemasaran. Saat menilai kebutuhan kapasitas, Anda juga harus mempertimbangkan persyaratan bisnis seperti SLA dan target performa.

Saat menentukan ukuran resource untuk workload, pertimbangkan faktor-faktor yang dapat memengaruhi penggunaan resource. Variasi musiman seperti periode belanja musim liburan atau penjualan akhir kuartal dapat menyebabkan lonjakan permintaan sementara. Peristiwa yang direncanakan seperti peluncuran produk atau kampanye pemasaran juga dapat meningkatkan traffic secara signifikan. Untuk memastikan sistem utama dan pemulihan dari bencana (DR) Anda dapat menangani lonjakan permintaan yang tidak terduga, rencanakan kapasitas yang dapat mendukung failover yang lancar selama gangguan seperti bencana alam dan serangan cyber.

Penskalaan otomatis adalah strategi penting untuk menyesuaikan resource cloud Anda secara dinamis berdasarkan fluktuasi beban kerja. Dengan menggunakan kebijakan penskalaan otomatis, Anda dapat menskalakan instance komputasi, penyimpanan, dan resource lainnya secara otomatis sebagai respons terhadap perubahan permintaan. Hal ini memastikan performa yang optimal selama periode puncak sekaligus meminimalkan biaya saat penggunaan resource rendah. Algoritma penskalaan otomatis menggunakan metrik seperti penggunaan CPU, penggunaan memori, dan kedalaman antrean untuk menentukan kapan harus menskalakan resource.

Memantau dan mengoptimalkan secara berkelanjutan

Untuk mengelola dan mengoptimalkan beban kerja cloud, Anda harus menetapkan proses untuk terus memantau dan menganalisis metrik performa. Rekomendasi ini relevan dengan area fokus kesiapan operasional berikut: proses dan alat.

Untuk menetapkan proses pemantauan dan analisis berkelanjutan, Anda melacak, mengumpulkan, dan mengevaluasi data yang terkait dengan berbagai aspek lingkungan cloud Anda. Dengan menggunakan data ini, Anda dapat secara proaktif mengidentifikasi area yang perlu ditingkatkan, mengoptimalkan penggunaan resource, dan memastikan bahwa infrastruktur cloud Anda secara konsisten memenuhi atau melampaui ekspektasi performa Anda.

Aspek penting dari pemantauan performa adalah meninjau log dan rekaman aktivitas secara rutin. Log memberikan insight berharga tentang peristiwa, error, dan peringatan sistem. Trace memberikan informasi mendetail tentang alur permintaan melalui aplikasi Anda. Dengan menganalisis log dan rekaman aktivitas, Anda dapat mengidentifikasi potensi masalah, mengidentifikasi akar penyebab masalah, dan mendapatkan pemahaman yang lebih baik tentang perilaku aplikasi Anda dalam berbagai kondisi. Metrik seperti waktu perjalanan bolak-balik di antara layanan dapat membantu Anda mengidentifikasi dan memahami bottleneck yang ada di workload Anda.

Selain itu, Anda dapat menggunakan teknik penyesuaian performa untuk meningkatkan waktu respons aplikasi dan efisiensi secara keseluruhan secara signifikan. Berikut adalah contoh teknik yang dapat Anda gunakan:

  • Penyimpanan dalam cache: Menyimpan data yang sering diakses dalam memori untuk mengurangi kebutuhan kueri database atau panggilan API berulang.
  • Pengoptimalan database: Gunakan teknik seperti pengindeksan dan pengoptimalan kueri untuk meningkatkan performa operasi database.
  • Profiling kode: Identifikasi area kode Anda yang menggunakan resource secara berlebihan atau menyebabkan masalah performa.

Dengan menerapkan teknik ini, Anda dapat mengoptimalkan aplikasi dan memastikan aplikasi berjalan secara efisien di cloud.