Professional Cloud DevOps Engineer
Panduan ujian sertifikasi
Professional Cloud DevOps Engineer menerapkan proses di seluruh siklus proses pengembangan sistem menggunakan metodologi dan alat yang direkomendasikan Google. Mereka membangun serta men-deploy pipeline pengiriman software dan infrastruktur, mengoptimalkan dan memelihara sistem dan layanan produksi, serta menyeimbangkan keandalan layanan dengan kecepatan pengiriman.
Bagian 1: Melakukan bootstrap pada organisasi Google Cloud untuk DevOps
1.1 Merancang hierarki resource secara keseluruhan untuk suatu organisasi. Pertimbangan ini meliputi:
● Project dan folder
● Jaringan bersama
● Peran Identity and Access Management (IAM) serta kebijakan tingkat organisasi
● Membuat dan mengelola akun layanan
1.2 Mengelola Infrastructure as Code. Pertimbangan ini meliputi:
● Solusi Infrastructure as Code (misalnya, Cloud Foundation Toolkit, Config Connector, Terraform, Helm)
● Melakukan perubahan infrastruktur menggunakan praktik yang direkomendasikan Google dan blueprint Infrastructure as Code
● Arsitektur yang tidak dapat diubah
1.3 Merancang stack arsitektur CI/CD di lingkungan Google Cloud, hybrid, dan multi-cloud. Pertimbangan ini meliputi:
● CI dengan Cloud Build
● CD dengan Google Cloud Deploy
● Solusi pihak ketiga yang banyak digunakan (misalnya, Jenkins, Git, ArgoCD, Packer)
● Keamanan solusi CI/CD
1.4 Mengelola berbagai lingkungan (misalnya, staging, production). Pertimbangan ini meliputi:
● Menentukan jumlah lingkungan dan tujuannya
● Membuat lingkungan secara dinamis untuk setiap cabang fitur dengan Google Kubernetes Engine (GKE) dan Terraform
● Anthos Config Management
Bagian 2: Membangun dan mengimplementasikan pipeline CI/CD untuk suatu layanan
2.1 Merancang dan mengelola pipeline CI/CD. Pertimbangan ini meliputi:
● Pengelolaan artefak dengan Artifact Registry
● Deployment ke lingkungan hybrid dan multi-cloud (misalnya, Anthos, GKE)
● Pemicu pipeline CI/CD
● Menguji versi aplikasi baru dalam pipeline
● Mengonfigurasi proses deployment (misalnya, alur persetujuan)
● CI/CD dari aplikasi serverless
2.2 Mengimplementasikan pipeline CI/CD. Pertimbangan ini meliputi:
● Mengaudit dan melacak deployment (misalnya, Artifact Registry, Cloud Build, Google Cloud Deploy, Cloud Audit Logs)
● Strategi deployment (misalnya, canary, blue/green, rolling, pemisahan traffic)
● Strategi rollback
● Memecahkan masalah deployment
2.3 Mengelola secret dan konfigurasi CI/CD. Pertimbangan ini meliputi:
● Metode penyimpanan yang aman dan layanan rotasi kunci (misalnya, Cloud Key Management Service, Secret Manager)
● Pengelolaan secret
● Injeksi secret build versus runtime
2.4 Mengamankan pipeline deployment CI/CD. Pertimbangan ini meliputi:
● Analisis kerentanan dengan Artifact Registry
● Otorisasi Biner
● Kebijakan IAM per lingkungan
Bagian 3: Menerapkan praktik Site Reliability Engineering ke layanan
3.1 Menyeimbangkan perubahan, kecepatan, dan keandalan layanan. Pertimbangan ini meliputi:
● Menemukan SLI (misalnya, ketersediaan, latensi)
● Mendefinisikan SLO dan memahami SLA
● Anggaran error
● Otomatisasi toil
● Biaya peluang dari risiko dan keandalan (misalnya, jumlah “sembilan”)
3.2 Mengelola siklus proses layanan. Pertimbangan ini meliputi:
● Pengelola layanan (misalnya, pengenalan layanan baru dengan menggunakan checklist orientasi pra-layanan, rencana peluncuran, atau rencana deployment, deployment, pemeliharaan, dan penghentian)
● Perencanaan kapasitas (misalnya, pengelolaan kuota dan batasan)
● Penskalaan otomatis menggunakan grup instance terkelola, Cloud Run, Cloud Functions, atau GKE
● Menerapkan feedback loop untuk meningkatkan layanan
3.3 Memastikan komunikasi dan kolaborasi yang baik untuk operasi. Pertimbangan ini meliputi:
● Mencegah kejenuhan (misalnya, menyiapkan proses otomatisasi untuk mencegah kejenuhan)
● Menumbuhkan budaya belajar dan tidak bercela
● Membangun kepemilikan bersama atas layanan untuk menghilangkan keterasingan dalam tim
3.4 Mengurangi dampak insiden pada pengguna. Pertimbangan ini meliputi:
● Berkomunikasi saat terjadi insiden
● Mengosongkan/mengalihkan traffic
● Menambahkan kapasitas
3.5 Melakukan postmortem. Pertimbangan ini meliputi:
● Mendokumentasikan akar masalah
● Membuat dan memprioritaskan item tindakan
● Mengomunikasikan postmortem kepada pemangku kepentingan
Bagian 4: Mengimplementasikan strategi pemantauan layanan
4.1 Mengelola log. Pertimbangan ini meliputi:
● Mengumpulkan log terstruktur dan tidak terstruktur dari Compute Engine, GKE, dan platform serverless menggunakan Cloud Logging
● Mengonfigurasi agen Cloud Logging
● Mengumpulkan log dari luar Google Cloud
● Mengirim log aplikasi langsung ke Cloud Logging API
● Level log (misalnya info, error, debug, fatal)
● Mengoptimalkan log (misalnya, logging multibaris, pengecualian, ukuran, biaya)
4.2 Mengelola metrik dengan Cloud Monitoring. Pertimbangan ini meliputi:
● Mengumpulkan dan menganalisis metrik aplikasi dan platform
● Mengumpulkan metrik jaringan dan mesh layanan
● Menggunakan Metrics Explorer untuk analisis metrik ad hoc
● Membuat metrik kustom dari log
4.3 Mengelola dasbor dan pemberitahuan di Cloud Monitoring. Pertimbangan ini meliputi:
● Membuat dasbor pemantauan
● Memfilter dan berbagi dasbor
● Mengonfigurasi pemberitahuan
● Mendefinisikan kebijakan pemberitahuan berdasarkan SLO dan SLI
● Mengotomatisasi definisi kebijakan pemberitahuan menggunakan Terraform
● Menggunakan Google Cloud Managed Service for Prometheus untuk mengumpulkan metrik dan mengatur pemantauan dan pemberitahuan
4.4 Mengelola platform Cloud Logging. Pertimbangan ini meliputi:
● Mengaktifkan log akses data (misalnya, Cloud Audit Logs)
● Mengaktifkan Log Aliran VPC
● Melihat log di konsol Google Cloud
● Menggunakan filter log dasar versus lanjutan
● Pengecualian log versus ekspor log
● Ekspor tingkat project versus tingkat organisasi
● Mengelola dan melihat ekspor log
● Mengirim log ke platform logging eksternal
● Memfilter dan menyamarkan data sensitif (misalnya, informasi identitas pribadi [PII], informasi kesehatan terlindungi [PHI])
4.5 Menerapkan kontrol akses logging dan pemantauan. Pertimbangan ini meliputi:
● Membatasi akses ke log audit dan Log Aliran VPC dengan Cloud Logging
● Membatasi konfigurasi ekspor dengan Cloud Logging
● Memungkinkan penulisan metrik dan log dengan Cloud Monitoring
Bagian 5: Mengoptimalkan performa layanan
5.1 Mengidentifikasi masalah performa layanan. Pertimbangan ini meliputi:
● Menggunakan Google Cloud Operations Suite untuk mengidentifikasi penggunaan resource cloud
● Menafsirkan telemetri mesh layanan
● Memecahkan masalah dengan resource komputasi
● Memecahkan masalah waktu deploy dan masalah runtime dengan aplikasi
● Memecahkan masalah jaringan (misalnya, Log Aliran VPC, log firewall, latensi, detail jaringan)
5.2 Menerapkan alat debugging di Google Cloud. Pertimbangan ini meliputi:
● Instrumentasi aplikasi
● Cloud Logging
● Cloud Trace
● Error Reporting
● Cloud Profiler
● Cloud Monitoring
5.3 Mengoptimalkan pemanfaatan resource dan biaya. Pertimbangan ini meliputi:
● Virtual machine (VM) yang dapat dihentikan/Spot
● Diskon abonemen (misalnya, fleksibel, berbasis resource)
● Diskon untuk penggunaan berkelanjutan
● Tingkatan jaringan
● Rekomendasi ukuran