Mengelola error host untuk workload SAP di Google Cloud

Dokumen ini menjelaskan cara mendeteksi error hardware host di Google Cloud dan melindungi workload SAP Anda dari error tersebut.

Google Cloud tidak kebal terhadap kegagalan hardware. Meskipun ada beberapa lapisan redundansi, error hardware dapat terjadi, yang mengakibatkan penghentian instance Compute Engine Anda.

Error hardware host dapat memiliki beberapa penyebab karena hardware server dan komponen terkaitnya memiliki banyak bagian yang dapat mengalami kegagalan. Jenis mesin yang dioptimalkan untuk memori secara khusus memiliki modul memori dalam jumlah besar, yang dapat meningkatkan kemungkinan kegagalan hardware yang terkait dengan memori. Kegagalan terkait memori terdiri dari dua jenis:

  • Error memori yang dapat dikoreksi: Error ini adalah error yang dapat dikoreksi oleh mekanisme hardware dan software bawaan, seperti memori Error correction code (ECC). Error tersebut tidak memengaruhi instance Compute Engine yang berjalan di host. Peristiwa ini ditangani secara transparan oleh mekanisme hardware dan software.

  • Error memori yang tidak dapat diperbaiki: Error ini adalah error yang tidak dapat diperbaiki. Error ini jarang terjadi, acak, dan tidak dapat diprediksi. Setiap upaya untuk mengakses area memori yang terpengaruh akan menghasilkan sinyal ke OS, yang mengakibatkan penghentian instance Compute Engine atau Machine check exception (MCE) yang diteruskan ke instance. Saat aplikasi di instance Compute Engine mencoba membaca data dari area memori yang terpengaruh dan tidak dapat diperbaiki, aplikasi akan menggunakan sinyal ini dan dihentikan. Saat OS di instance Compute Engine menerima sinyal ini, secara default OS akan mencegah halaman memori yang terpengaruh untuk dialokasikan ulang guna menghindari penggunaan lebih lanjut.

Mendeteksi error host

Untuk mendeteksi error host, konfigurasi kebijakan pemberitahuan berbasis log yang menggunakan kueri Compute Engine standar berikut:

Nama kueri/filter Deskripsi
Compute Engine Host Error (compute.instances.hostError) Error host menunjukkan bahwa terjadi error hardware yang mengakibatkan instance Compute Engine harus dihentikan.
Notifikasi Memori Host Compute Engine (compute.instances.hostEventNotify) Notifikasi memori host menunjukkan jenis error hardware yang terkait dengan modul memori. Error tersebut dapat terjadi karena kegagalan komponen permanen dari waktu ke waktu, atau peristiwa sementara yang disebabkan oleh partikel berenergi tinggi atau sinar kosmik yang mencegah halaman memori diambil dengan aman.

Melindungi workload SAP Anda dari error host

Untuk melindungi workload SAP Anda dari error host, sebaiknya lakukan hal berikut:

  • Pastikan mulai ulang otomatis ditetapkan untuk instance Compute Engine Anda.

    Compute Engine mengaktifkan opsi ini untuk semua instance secara default. Sebaiknya Anda tidak menonaktifkannya.

  • Untuk melindungi workload SAP HANA dan SAP NetWeaver dari kegagalan instance tunggal, deploy dengan konfigurasi ketersediaan tinggi (HA).

    Untuk informasi selengkapnya, lihat panduan berikut:

  • Untuk melindungi beban kerja SAP HANA agar tidak terpengaruh oleh penghentian proses SAP HANA, terapkan hook penyedia HA/DR SAP HANA dan aktifkan opsi Mulai Ulang Cepat SAP HANA.

    Untuk informasi tentang cara melakukannya, lihat panduan deployment untuk skenario SAP HANA Anda di Semua panduan SAP HANA.

  • Untuk melindungi beban kerja SAP HANA Anda dari error memori seperti yang ditampilkan oleh peristiwa Compute Engine Host Memory Alert (compute.instances.host_event_notify) untuk jenis mesin M2, M3, atau M4, lakukan tindakan berikut:

    • Jika error yang tidak dapat diperbaiki tidak dapat ditangani oleh VM, VM akan dimulai ulang secara otomatis karena kebijakan pemulihan otomatis. Di cluster HA, node sekunder akan otomatis mengambil alih. Anda tidak perlu melakukan tindakan lebih lanjut.

    • Jika error memori yang tidak dapat diperbaiki dapat ditangani oleh VM dan tidak menyebabkan error VM, lakukan hal berikut:

      1. Jika instance yang terpengaruh adalah node utama saat ini di cluster HA Anda, mulailah failover manual ke node sekunder di cluster Anda.

      2. Hentikan instance yang terpengaruh untuk melepaskan halaman memori virtual yang terpengaruh oleh peristiwa error host.

        Meskipun Compute Engine secara otomatis memigrasikan VM yang terpengaruh ke host yang sehat selama peristiwa ini, beberapa halaman memori dapat tetap tidak dapat diakses. Jika beban kerja SAP HANA Anda mencoba membaca halaman memori yang terpengaruh untuk pertama kalinya setelah error memori terjadi, beban kerja Anda akan gagal dan dihentikan. Dengan menghentikan instance, Anda akan melepaskan halaman memori virtual yang terpengaruh yang mungkin masih ada dari error hardware awal.

      3. Mulai instance yang terpengaruh.

      Jika Anda tidak dapat menghentikan dan memulai VM yang terpengaruh, aplikasi yang berjalan di dalamnya mungkin akan terus beroperasi hingga dapat membaca halaman memori yang terpengaruh, yang dapat memerlukan waktu beberapa jam. Mulai ulang VM yang terpengaruh sesegera mungkin untuk melepaskan halaman memori yang terpengaruh.