Cadangkan dan pulihkan cluster dengan bmctl

Halaman ini menjelaskan cara menggunakan bmctl untuk mencadangkan dan memulihkan cluster yang dibuat dengan Google Distributed Cloud. Petunjuk ini berlaku untuk semua jenis cluster yang didukung oleh Google Distributed Cloud.

Proses pencadangan dan pemulihan bmctl tidak menyertakan volume persisten. Setiap volume yang dibuat oleh penyedia volume lokal (LVP) tidak akan diubah.

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Mencadangkan cluster

Perintah bmctl backup cluster menambahkan informasi cluster dari penyimpanan etcd dan sertifikat IKP untuk cluster yang ditentukan cluster ke file tar. Penyimpanan etcd adalah penyimpanan pendukung Kubernetes untuk semua data cluster dan berisi semua objek Kubernetes dan objek kustom yang diperlukan untuk mengelola status cluster. Sertifikat IKP digunakan untuk otentikasi melalui TLS. Data ini dicadangkan dari bidang kontrol cluster atau dari salah satu bidang kontrol untuk deployment ketersediaan tinggi (HA).

File tar cadangan berisi kredensial sensitif, termasuk kunci akun layanan dan kunci SSH. Simpan file cadangan di lokasi yang aman. Untuk mencegah eksposur file yang tidak diinginkan, proses pencadangan Google Distributed Cloud hanya menggunakan file dalam memori.

Cadangkan cluster secara rutin untuk memastikan data snapshot Anda relatif terbaru. Sesuaikan kecepatan pencadangan untuk mencerminkan frekuensi perubahan yang signifikan pada cluster Anda.

Versi bmctl yang Anda gunakan untuk mencadangkan cluster harus cocok dengan versi cluster pengelola.

Untuk mencadangkan cluster:

  1. Pastikan cluster Anda beroperasi dengan baik, dengan kredensial yang berfungsi dan konektivitas SSH ke semua node.

    Tujuan proses pencadangan adalah merekam cluster Anda dalam kondisi baik yang diketahui, sehingga Anda dapat memulihkan operasi jika terjadi kegagalan dahsyat.

    Gunakan perintah berikut untuk memeriksa cluster Anda:

    bmctl check cluster -c CLUSTER_NAME --kubeconfig ADMIN_KUBECONFIG
    

    Ganti kode berikut:

    • CLUSTER_NAME: nama cluster yang ingin Anda cadangkan.
    • ADMIN_KUBECONFIG: jalur file kubeconfig untuk cluster admin.
  2. Jalankan perintah berikut untuk memastikan cluster target tidak dalam status rekonsiliasi:

    kubectl describe cluster CLUSTER_NAME -n CLUSTER_NAMESPACE --kubeconfig ADMIN_KUBECONFIG
    

    Ganti kode berikut:

    • CLUSTER_NAME: nama cluster yang akan dicadangkan.
    • CLUSTER_NAMESPACE: namespace untuk cluster. Secara default, namespace cluster untuk Google Distributed Cloud adalah nama cluster yang diawali dengan cluster-. Misalnya, jika Anda menamai cluster test, namespace akan memiliki nama seperti cluster-test.
    • ADMIN_KUBECONFIG: jalur file kubeconfig untuk cluster admin.
  3. Periksa bagian Status di output perintah untuk Conditions dari jenis Reconciling.

    Seperti ditunjukkan dalam contoh berikut, status False untuk Conditions ini berarti cluster stabil dan siap dicadangkan.

    ...
    Status:
      ...
      Cluster State:  Running
      ...
      Control Plane Node Pool Status:
        ...
        Conditions:
          Last Transition Time:  2023-11-03T16:37:15Z
          Observed Generation:   1
          Reason:                ReconciliationCompleted
          Status:                False
          Type:                  Reconciling
      ...
    
  4. Jalankan perintah berikut untuk mencadangkan cluster:

    bmctl backup cluster -c CLUSTER_NAME --kubeconfig ADMIN_KUBECONFIG
    

    Ganti kode berikut:

    • CLUSTER_NAME: nama cluster yang akan dicadangkan.
    • ADMIN_KUBECONFIG: jalur ke file kubeconfig cluster admin.

    Secara default, file tar cadangan disimpan ke direktori ruang kerja (secara default bmctl-workspace) di workstation admin Anda. File tar ini diberi nama CLUSTER_NAME_backup_TIMESTAMP.tar.gz, dengan CLUSTER_NAME adalah nama cluster yang sedang dicadangkan dan TIMESTAMP adalah tanggal dan waktu pencadangan dilakukan. Misalnya, jika nama cluster adalah testuser, file cadangan memiliki nama seperti testuser_backup_2006-01-02T150405Z0700.tar.gz.

    Untuk menentukan nama dan lokasi yang berbeda untuk file cadangan, gunakan tanda --backup-file.

Masa berlaku file cadangan akan berakhir setelah satu tahun, dan proses pemulihan cluster tidak berfungsi dengan file cadangan yang sudah tidak berlaku.

Memulihkan cluster

Memulihkan cluster dari cadangan merupakan upaya terakhir dan harus digunakan saat cluster mengalami kegagalan fatal dan tidak dapat dikembalikan ke layanan dengan cara lain. Misalnya, data dlld rusak atau Pod etcd berada dalam loop error.

File tar cadangan berisi kredensial sensitif, termasuk kunci akun layanan dan kunci SSH. Untuk mencegah eksposur file yang tidak diinginkan, proses pemulihan Google Distributed Cloud hanya menggunakan file dalam memori.

Versi bmctl yang Anda gunakan untuk memulihkan cluster harus cocok dengan versi cluster pengelola.

Untuk memulihkan cluster:

  1. Pastikan semua mesin node yang tersedia untuk cluster pada saat pencadangan beroperasi dengan benar dan dapat dijangkau.

  2. Pastikan konektivitas SSH antar-node berfungsi dengan kunci SSH yang digunakan pada saat pencadangan.

    Kunci SSH ini diaktifkan kembali sebagai bagian dari proses pemulihan.

  3. Pastikan kunci akun layanan yang digunakan pada saat pencadangan masih aktif.

    Kunci akun layanan ini diaktifkan kembali untuk cluster yang dipulihkan.

  4. Untuk memulihkan cluster admin, hybrid, atau mandiri, jalankan perintah berikut:

    bmctl restore cluster -c CLUSTER_NAME --backup-file BACKUP_FILE
    

    Ganti kode berikut:

    • CLUSTER_NAME: nama cluster yang sedang Anda pulihkan.
    • BACKUP_FILE: jalur dan nama file cadangan yang Anda gunakan.
  5. Untuk memulihkan cluster pengguna, jalankan perintah berikut:

    bmctl restore cluster -c CLUSTER_NAME --backup-file BACKUP_FILE \
        --kubeconfig ADMIN_KUBECONFIG
    

    Ganti kode berikut:

    • CLUSTER_NAME: nama cluster yang sedang Anda pulihkan.
    • BACKUP_FILE: jalur dan nama file cadangan yang Anda gunakan.
    • ADMIN_KUBECONFIG: jalur ke file kubeconfig cluster admin.

Di akhir proses pemulihan, file kubeconfig baru akan dibuat untuk cluster yang dipulihkan.

Memecahkan masalah

Jika Anda mengalami masalah dengan proses pencadangan atau pemulihan, bagian berikut dapat membantu Anda memecahkan masalah tersebut.

Jika Anda memerlukan bantuan tambahan, hubungi Dukungan Google.

Kehabisan memori selama pencadangan atau pemulihan

Anda mungkin menerima pesan error selama proses pencadangan atau pemulihan yang tidak terlalu jelas atau tidak jelas tentang langkah selanjutnya. Jika workstation tempat Anda menjalankan perintah bmctl menjalankan tidak memiliki banyak RAM, Anda mungkin memiliki memori yang tidak cukup untuk melakukan proses pencadangan atau pemulihan.

Google Distributed Cloud versi 1.13 dan yang lebih baru dapat menggunakan parameter --use-disk dalam perintah pencadangan. Untuk mempertahankan izin file, parameter ini mengubah izin file, sehingga mengharuskan pengguna yang menjalankan perintah untuk menjadi pengguna root (atau menggunakan sudo).

Tidak ada izin ke file selama pemulihan

Setelah tugas pemulihan berhasil, penghapusan bootstrap dapat gagal dengan pesan error yang mirip dengan contoh berikut:

Error: failed to restore node config files: sftp: "Failure" (SSH_FX_FAILURE)

Error ini dapat berarti bahwa beberapa direktori yang diperlukan oleh pemulihan tidak dapat ditulis.

Google Distributed Cloud versi 1.14 dan yang lebih baru memiliki pesan error yang lebih jelas di mana direktori harus dapat ditulis. Pastikan direktori yang dilaporkan dapat ditulis, dan perbarui izin di direktori sesuai kebutuhan.

Muat ulang kunci SSH setelah cadangan menghentikan proses pemulihan

Operasi terkait SSH selama proses pemulihan mungkin gagal jika kunci SSH dimuat ulang setelah pencadangan dilakukan. Dalam hal ini, kunci SSH yang baru menjadi tidak valid untuk proses pemulihan.

Untuk mengatasi masalah ini, Anda dapat menambahkan kembali kunci SSH asli untuk sementara, lalu melakukan pemulihan. Setelah proses pemulihan selesai, Anda dapat merotasi kunci SSH.