Jalur Pembelajaran: Aplikasi yang skalabel - Menyimulasikan kegagalan


Kumpulan tutorial ini ditujukan untuk admin dan Operator IT yang ingin men-deploy, menjalankan, dan mengelola lingkungan aplikasi modern yang berjalan di edisi Google Kubernetes Engine (GKE) Enterprise. Selama mempelajari serangkaian tutorial ini, Anda akan mempelajari cara mengonfigurasi pemantauan dan pemberitahuan, menskalakan workload, dan menyimulasikan kegagalan, semuanya menggunakan aplikasi microservice contoh Cymbal Bank:

  1. Membuat cluster dan men-deploy aplikasi contoh
  2. Memantau dengan Google Cloud Managed Service for Prometheus
  3. Menskalakan workload
  4. Menyimulasikan kegagalan (tutorial ini)

Ringkasan dan tujuan

Aplikasi harus bisa menoleransi pemadaman layanan dan kegagalan. Dengan kemampuan ini, pengguna dapat terus mengakses aplikasi Anda meskipun terjadi masalah. Aplikasi contoh Cymbal Bank dirancang untuk menangani kegagalan dan terus berjalan, tanpa mengharuskan Anda memecahkan masalah dan memperbaiki sesuatu. Untuk memberikan ketahanan ini, cluster regional GKE mendistribusikan node komputasi di seluruh zona, dan pengontrol Kubernetes secara otomatis merespons masalah layanan dalam cluster.

Dalam tutorial ini, Anda akan mempelajari cara menyimulasikan kegagalan di Google Cloud dan melihat bagaimana Layanan aplikasi di cluster edisi Google Kubernetes Engine (GKE) Enterprise merespons. Anda akan mempelajari cara menyelesaikan tugas-tugas berikut:

  • Meninjau distribusi node dan Layanan.
  • Melakukan simulasi kegagalan node atau zona.
  • Pastikan Layanan terus berjalan di seluruh node yang tersisa.

Biaya

Dengan mengaktifkan GKE Enterprise dan men-deploy aplikasi contoh Cymbal Bank untuk rangkaian tutorial ini, Anda akan dikenai biaya per cluster untuk GKE Enterprise di Google Cloud seperti yang tercantum di halaman Harga hingga Anda menonaktifkan GKE Enterprise atau menghapus project.

Anda juga bertanggung jawab atas biaya Google Cloud lainnya yang timbul saat menjalankan aplikasi contoh Cymbal Bank, seperti biaya untuk VM Compute Engine.

Sebelum memulai

Untuk mempelajari cara menyimulasikan kegagalan, Anda harus menyelesaikan tutorial pertama untuk membuat cluster GKE yang menggunakan Autopilot dan men-deploy aplikasi berbasis microservice contoh Cymbal Bank.

Sebaiknya Anda menyelesaikan rangkaian tutorial ini untuk Cymbal Bank secara berurutan. Seiring Anda mempelajari serangkaian tutorial, Anda akan mempelajari keterampilan baru dan menggunakan produk serta layanan Google Cloud tambahan.

Meninjau distribusi node dan Layanan

Di Google Cloud, region adalah lokasi geografis spesifik tempat Anda dapat menghosting resource. Region memiliki tiga zona atau lebih. Misalnya, region us-central1 menunjukkan wilayah di wilayah Midwest Amerika Serikat yang memiliki beberapa zona, seperti us-central1-a, us-central1-b, dan us-central1-c. Zona memiliki koneksi jaringan bandwidth tinggi dan latensi rendah ke zona lain di region yang sama.

Untuk men-deploy aplikasi fault-tolerant yang memiliki ketersediaan tinggi, Google merekomendasikan agar Anda men-deploy aplikasi di beberapa zona dan beberapa region. Pendekatan ini membantu melindungi dari kegagalan komponen yang tidak terduga, hingga dan termasuk zona atau region.

Saat Anda membuat cluster GKE Enterprise dalam tutorial pertama, beberapa nilai konfigurasi default telah digunakan. Secara default, cluster GKE Enterprise yang menggunakan Autopilot membuat dan menjalankan node yang mencakup seluruh zona di region yang Anda tentukan. Pendekatan ini berarti bahwa aplikasi contoh Cymbal Bank sudah di-deploy di beberapa zona, yang membantu melindungi dari kegagalan yang tidak terduga.

  1. Periksa distribusi node di seluruh cluster GKE Enterprise Anda:

    kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'
    

    Hasilnya serupa dengan contoh output berikut yang menunjukkan node disebar di ketiga zona dalam region:

    NAME                         ZONE            INT_IP
    scalable-apps-pool-2-node5   us-central1-c   10.148.0.6
    scalable-apps-pool-2-node6   us-central1-c   10.148.0.7
    scalable-apps-pool-2-node2   us-central1-a   10.148.0.8
    scalable-apps-pool-2-node1   us-central1-a   10.148.0.9
    scalable-apps-pool-2-node3   us-central1-b   10.148.0.5
    scalable-apps-pool-2-node4   us-central1-b   10.148.0.4
    
  2. Periksa distribusi Layanan aplikasi contoh Cymbal Bank di seluruh node cluster GKE Enterprise:

    kubectl get pods -o wide
    

    Contoh output berikut menunjukkan bahwa Layanan didistribusikan di seluruh node dalam cluster. Dari langkah sebelumnya untuk memeriksa cara node didistribusikan, output ini menunjukkan bahwa Layanan dijalankan di seluruh zona dalam region:

    NAME                                  READY   STATUS    RESTARTS   AGE     IP          NODE
    accounts-db-0                         1/1     Running   0          6m30s   10.28.1.5   scalable-apps-pool-2-node3
    balancereader-7dc7d9ff57-shwg5        1/1     Running   0          6m30s   10.28.5.6   scalable-apps-pool-2-node1
    contacts-7ddc76d94-qv4x5              1/1     Running   0          6m29s   10.28.4.6   scalable-apps-pool-2-node2
    frontend-747b84bff4-xvjxq             1/1     Running   0          6m29s   10.28.3.6   scalable-apps-pool-2-node6
    ledger-db-0                           1/1     Running   0          6m29s   10.28.5.7   scalable-apps-pool-2-node1
    ledgerwriter-f6cc7889d-mttmb          1/1     Running   0          6m29s   10.28.1.6   scalable-apps-pool-2-node3
    loadgenerator-57d4cb57cc-7fvrc        1/1     Running   0          6m29s   10.28.4.7   scalable-apps-pool-2-node2
    transactionhistory-5dd7c7fd77-cmc2w   1/1     Running   0          6m29s   10.28.3.7   scalable-apps-pool-2-node6
    userservice-cd5ddb4bb-zfr2g           1/1     Running   0          6m28s   10.28.5.8   scalable-apps-pool-2-node1
    

Menyimulasikan pemadaman layanan

Google mendesain zona untuk meminimalkan risiko kegagalan berkorelasi yang disebabkan oleh pemadaman infrastruktur fisik seperti listrik, pendingin, atau jaringan. Namun, masalah yang tidak terduga dapat terjadi. Jika node atau zona menjadi tidak tersedia, Anda ingin agar Service terus berjalan pada node lain atau di zona di region yang sama.

Pengontrol Kubernetes memantau status node, Layanan, dan Deployment di cluster Anda. Jika terjadi pemadaman layanan yang tidak terduga, pengontrol akan memulai ulang resource yang terpengaruh, dan traffic dirutekan ke node yang berfungsi.

Untuk melakukan simulasi pemadaman layanan dalam tutorial ini, Anda harus menghubungkan dan menguras node di salah satu zona Anda. Pendekatan ini menyimulasikan hal yang terjadi saat node gagal, atau saat seluruh zona mengalami masalah. Pengontrol Kubernetes harus mengetahui bahwa beberapa Layanan tidak lagi tersedia dan harus dimulai ulang pada node di zona lain:

  • Cordon dan kuras node di salah satu zona. Contoh berikut menargetkan dua node di us-central1-a:

    kubectl drain scalable-apps-pool-2-node1 \
        --delete-emptydir-data --ignore-daemonsets
    
    kubectl drain scalable-apps-pool-2-node2 \
        --delete-emptydir-data --ignore-daemonsets
    

    Perintah ini menandai node sebagai tidak dapat dijadwalkan sehingga Pod tidak dapat lagi berjalan di node tersebut. Kubernetes akan menjadwalkan ulang Pod ke node lain di zona yang berfungsi.

Memeriksa respons simulasi kegagalan

Pada tutorial sebelumnya dalam rangkaian ini, Anda telah mempelajari cara mengonfigurasi instance Prometheus terkelola untuk cluster GKE Enterprise guna memantau beberapa Layanan dan menghasilkan pemberitahuan jika terjadi masalah. Jika Pod berjalan pada node di zona tempat Anda menyimulasikan pemadaman, Anda akan mendapatkan pesan notifikasi Slack dari pemberitahuan yang dihasilkan oleh Prometheus. Perilaku ini menunjukkan cara membangun lingkungan aplikasi modern yang memantau kondisi Deployment, memberi tahu Anda jika ada masalah, dan dapat menyesuaikan secara otomatis dengan perubahan atau kegagalan beban.

Cluster GKE Enterprise Anda akan otomatis merespons gangguan simulasi. Setiap Layanan pada node yang terpengaruh akan dimulai ulang pada node yang tersisa.

  1. Periksa lagi distribusi node di seluruh cluster GKE Enterprise:

    kubectl get nodes -o=custom-columns='NAME:.metadata.name,ZONE:.metadata.labels.topology\.kubernetes\.io/zone,INT_IP:.status.addresses[0].address'
    

    Hasilnya mirip dengan contoh output berikut yang menunjukkan bahwa node kini hanya tersebar di dua zona dalam region tersebut:

    NAME                         ZONE            INT_IP
    scalable-apps-pool-2-node5   us-central1-c   10.148.0.6
    scalable-apps-pool-2-node6   us-central1-c   10.148.0.7
    scalable-apps-pool-2-node3   us-central1-b   10.148.0.5
    scalable-apps-pool-2-node4   us-central1-b   10.148.0.4
    
  2. Pengontrol Kubernetes mengetahui bahwa dua node tidak lagi tersedia, dan mendistribusikan ulang Layanan ke berbagai node yang tersedia. Semua Layanan akan terus berjalan.

    Periksa distribusi Layanan aplikasi contoh Cymbal Bank di seluruh node cluster GKE Enterprise:

    kubectl get pods -o wide
    

    Contoh output berikut menunjukkan bahwa Layanan didistribusikan ke seluruh node yang tersisa di cluster. Dari langkah sebelumnya untuk memeriksa cara node didistribusikan, output ini menunjukkan bahwa Service sekarang hanya berjalan di dua zona dalam region:

    NAME                                  READY   STATUS    RESTARTS   AGE     IP          NODE
    accounts-db-0                         1/1     Running   0          28m     10.28.1.5   scalable-apps-pool-2-node3
    balancereader-7dc7d9ff57-shwg5        1/1     Running   0          9m21s   10.28.5.6   scalable-apps-pool-2-node5
    contacts-7ddc76d94-qv4x5              1/1     Running   0          9m20s   10.28.4.6   scalable-apps-pool-2-node4
    frontend-747b84bff4-xvjxq             1/1     Running   0          28m     10.28.3.6   scalable-apps-pool-2-node6
    ledger-db-0                           1/1     Running   0          9m24s   10.28.5.7   scalable-apps-pool-2-node3
    ledgerwriter-f6cc7889d-mttmb          1/1     Running   0          28m     10.28.1.6   scalable-apps-pool-2-node3
    loadgenerator-57d4cb57cc-7fvrc        1/1     Running   0          9m21s   10.28.4.7   scalable-apps-pool-2-node5
    transactionhistory-5dd7c7fd77-cmc2w   1/1     Running   0          28m     10.28.3.7   scalable-apps-pool-2-node6
    userservice-cd5ddb4bb-zfr2g           1/1     Running   0          9m20s   10.28.5.8   scalable-apps-pool-2-node1
    
  3. Lihat AGE Layanan. Pada contoh output sebelumnya, beberapa Layanan memiliki usia yang lebih muda daripada yang lain dalam aplikasi contoh Cymbal Bank. Layanan yang lebih muda ini sebelumnya berjalan di salah satu node tempat Anda menyimulasikan kegagalan. Pengontrol Kubernetes memulai ulang Layanan ini pada node yang tersedia.

Dalam skenario sebenarnya, Anda akan memecahkan masalah tersebut, atau menunggu hingga masalah pemeliharaan yang mendasarinya diselesaikan. Jika Anda mengonfigurasi Prometheus untuk mengirim pesan Slack berdasarkan pemberitahuan, Anda akan melihat notifikasi ini muncul. Secara opsional, Anda juga dapat mengulangi langkah-langkah dari tutorial sebelumnya untuk menskalakan resource guna melihat cara cluster GKE Enterprise merespons dengan peningkatan beban saat hanya dua zona yang tersedia dengan region tersebut. Cluster tersebut akan meningkatkan skala dengan dua zona tersisa yang tersedia.

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang Anda buat.

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya

Sebelum Anda mulai membuat lingkungan cluster GKE Enterprise sendiri yang mirip dengan yang telah dipelajari dalam serangkaian tutorial ini, tinjau beberapa pertimbangan produksi.