Memantau kondisi disk


Anda dapat memeriksa kondisi volume Persistent Disk atau Google Cloud Hyperdisk dengan meninjau metrik status performa disk. Metrik ini menunjukkan apakah performa disk berpotensi terpengaruh oleh peristiwa yang merugikan dalam Compute Engine.

Masalah yang memengaruhi status performa disk mungkin juga terlihat di dasbor Personal Service Health (PSH) project Anda atau dasbor Google Cloud Service Health.

Dokumen ini membahas status performa disk dan cara menggunakannya untuk memecahkan masalah performa.

Kapan harus memeriksa kesehatan disk

Jika Anda melihat masalah performa pada disk, periksa kondisi disk dengan meninjau metrik status performa disk. Metrik status performa disk diperbarui setiap menit dan mewakili performa disk selama seluruh menit sebelumnya. Untuk mengetahui langkah-langkah memeriksa kondisi disk, lihat melihat status performa disk.

Tabel berikut meringkas kemungkinan nilai status performa disk.

Status Arti
Healthy Performa disk seperti yang diharapkan.
Degraded Anda mungkin mengamati latensi I/O yang lebih tinggi dari yang diperkirakan untuk sementara.
Severely degraded Latensi I/O yang tinggi atau error lainnya terjadi.

Jika status performa bukan Healthy, lihat Memahami setiap status untuk mengetahui langkah berikutnya.

Jika status performanya Healthy, disk berfungsi normal dan Anda perlu memeriksa penyebab lain dari masalah performa. Anda harus memeriksa error aplikasi atau sistem operasi dan memastikan disk dioptimalkan dengan benar. Untuk panduan pengoptimalan, lihat Mengoptimalkan Hyperdisk dan Mengoptimalkan Persistent Disk.

Hubungan kesehatan disk dengan metrik performa disk lainnya

Kondisi disk seperti yang ditunjukkan oleh metrik status performa menunjukkan status internal disk dari perspektif Google. Jika status disk adalah Degraded atau Severely Degraded, akar masalahnya selalu berada dalam infrastruktur Compute Engine.

Anda biasanya tidak dapat mengubah kondisi disk dengan mengubah beban kerja. Namun, dalam kasus yang jarang terjadi, perubahan pada workload dapat memicu masalah internal, sehingga masalah dapat diatasi dengan mengubah workload.

Untuk mempelajari metrik performa disk lainnya yang tersedia, lihat Meninjau metrik performa disk.

Skenario yang tidak memengaruhi status performa disk

Status performa disk tidak terkait dengan masalah performa yang disebabkan oleh faktor berikut:

  • Pengoptimalan disk tidak lengkap atau tidak memadai
  • Batas performa yang terkait dengan disk dan jenis mesin (jika jenis mesin yang dipilih tidak dapat memenuhi persyaratan performa workload Anda)
  • Peningkatan beban pada disk karena traffic beban kerja
  • Error pengguna, aplikasi, atau sistem operasi
  • Disk penuh atau rusak
  • Untuk volume Hyperdisk dan Persistent Disk Extreme, IOPS atau throughput yang disediakan tidak memadai.

Dalam situasi ini, Anda bertanggung jawab untuk meningkatkan performa, seperti dengan mengoptimalkan disk, menskalakan beban kerja, mengubah jenis mesin, dan menyediakan lebih banyak kapasitas, IOPS, atau throughput.

Melihat kondisi disk di Cloud Monitoring

Untuk melihat kondisi disk, buat diagram di Metrics Explorer.

Peran dan izin yang diperlukan

Untuk mendapatkan izin yang Anda perlukan guna memeriksa metrik status performa disk, minta administrator untuk memberi Anda peran IAM berikut pada project:

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Membuat diagram di Metrics Explorer

Untuk membuat diagram, buat kueri dengan antarmuka berbasis menu, Monitoring Query Language (MQL), atau PromQL.

Untuk melihat kondisi satu atau beberapa disk pada diagram, ikuti petunjuk berikut.
  1. Di konsol Google Cloud, buka halaman  Metrics explorer:

    Buka Metrics explorer

    Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.

  2. Pada elemen Metric, luaskan menu Select a metric, masukkan VM Instance di panel filter, lalu gunakan submenu untuk memilih jenis dan metrik resource tertentu:
    1. Di menu Active resources, pilih VM Instance.
    2. Di menu Active metric category, pilih Instance.
    3. Di menu Metrik aktif, pilih Status performa disk.
    4. Klik Terapkan.
    Nama yang sepenuhnya memenuhi syarat untuk metrik ini adalah compute.googleapis.com/instance/disk/performance_status.
  3. Konfigurasi cara data dilihat.
    Nonaktifkan agregasi. Pastikan bahwa di elemen Aggregation, menu pertama ditetapkan ke Unaggregated dan menu kedua ditetapkan ke None.
    Untuk melihat kondisi disk tertentu, filter menurut device_name.

    Untuk informasi selengkapnya tentang cara mengonfigurasi diagram, lihat Memilih metrik saat menggunakan Metrics Explorer.

MQL

  1. Buka editor kueri: ikuti langkah-langkah di Menulis Kueri MQL.

  2. Masukkan kueri Anda di editor kueri. Misalnya, untuk melihat status performa disk tertentu, masukkan kueri berikut:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Ganti DISK_NAME dengan nama disk, misalnya, disk-1.

PromQL

  1. Buka editor kueri: ikuti langkah-langkah di Menulis Kueri PromQL.

  2. Masukkan kueri Anda di editor kueri. Misalnya, untuk melihat status performa disk tertentu, masukkan kueri berikut:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Ganti DISK_NAME dengan nama disk, misalnya, disk-1.

Jika Anda melihat hasilnya dalam diagram, ada 3 baris untuk setiap disk, satu untuk setiap kemungkinan status. Demikian pula, jika Anda melihat hasil kueri dalam tabel, tabel tersebut memiliki 3 baris untuk setiap disk.

Jika Anda membuat kueri dengan PromQL atau MQL, setiap baris atau baris akan memiliki nilai 1 atau 0. Untuk kueri yang dibuat dengan menu, nilainya akan berupa 100% atau 0.

Kondisi disk saat ini diwakili oleh baris atau baris yang nilainya adalah 100% atau 1.

Misalnya, screenshot berikut menampilkan diagram untuk disk bernama a-test-VM, yang statusnya adalah Healthy:

screenshot yang menampilkan diagram dengan status disk yang Baik

Jika Anda melihat hasil kueri sebagai tabel, tabel berikut adalah contoh hasil untuk disk yang Healthy:

performance_status value
Healthy 1
Degraded 0
Severely Degraded 0

Screenshot berikut menunjukkan diagram untuk disk bernama replica-23509 yang statusnya Degraded: screenshot yang menampilkan diagram dengan status disk Degraded

Untuk informasi tentang arti setiap status performa, lihat Memahami setiap status. Setelah membuat diagram, Anda dapat menyimpan diagram ke dasbor untuk digunakan di masa mendatang.

Hasil pecahan

Jika kueri Anda menyertakan hasil pecahan seperti dalam tabel berikut, hal ini biasanya karena periode tampilan yang dipilih terlalu lama. Akibatnya, Cloud Monitoring menggabungkan data dari waktu ke waktu. Nilai 77% untuk status Healthy berarti status disk adalah Healthy 77% dari periode tampilan yang dipilih.

performance_status value
Healthy 77%
Degraded 23%
Severely Degraded 0

Untuk melihat kondisi disk secara lebih terperinci, gunakan periode tampilan beberapa jam atau beberapa menit.

Memahami setiap status

Bagian ini membahas arti setiap status dan kapan Anda mungkin perlu mengambil tindakan lebih lanjut.

Healthy

Status Healthy menunjukkan bahwa dari perspektif Google, disk berfungsi normal.

Jika disk Healthy mengalami masalah performa, jangan hubungi dukungan. Sebagai gantinya, pecahkan masalah disk menggunakan beberapa saran berikut:

  • Tinjau metrik performa disk, seperti latensi dan kedalaman antrean.
  • Periksa log dan metrik beban kerja Anda untuk menemukan anomali dan bottleneck.
  • Jika Anda menggunakan Persistent Disk, pastikan kapasitas yang disediakan dapat memenuhi kebutuhan performa disk. Jika Anda menggunakan volume Hyperdisk atau Persistent Disk Ekstrem, pastikan Anda telah menyediakan IOPS dan throughput yang memadai.
  • Pastikan Anda telah mengikuti panduan untuk mengoptimalkan disk. Untuk mengetahui informasi selengkapnya, lihat Mengoptimalkan Hyperdisk dan Mengoptimalkan Persistent Disk.

Degraded

Anda biasanya tidak perlu menghubungi dukungan jika status disk Anda Degraded. Degraded status umumnya disebabkan oleh pemeliharaan internal normal pada infrastruktur Compute Engine.

Anda mungkin tidak melihat dampak apa pun pada performa disk saat statusnya Degraded. Jika masalah performa dan status Degraded berkorelasi dalam waktu, masalah performa mungkin masih tidak terkait dengan status Degraded.

Jika masalah performa disebabkan oleh status Degraded, dampaknya biasanya bersifat sementara. Status disk akan kembali ke Healthy dalam beberapa menit.

Anda dapat mengabaikan status Degraded dengan aman jika tidak ada masalah performa dengan disk.

Tindakan yang harus dilakukan jika ada masalah performa

Jika status performa disk Anda adalah Degraded, dan Anda mengamati masalah performa, ikuti langkah-langkah berikut:

  1. Periksa dasbor PSH untuk melihat apakah ada insiden yang memengaruhi disk. Jika terjadi insiden, jangan hubungi dukungan karena Google sudah mengetahui dan berupaya menyelesaikan masalah tersebut.
  2. Jika tidak ada masalah yang diketahui, tunggu setidaknya 5 menit hingga masalah performa tersebut teratasi dengan sendirinya.
  3. Jika setelah 5 menit, masalah performa tidak terselesaikan dan statusnya masih Degraded, pastikan masalah performa bukan karena disk tidak dioptimalkan dengan cukup. Misalnya, periksa latensi dan kedalaman antrean disk. Mungkin masalah performa dan status Degraded tidak terkait dan hanya kebetulan. Untuk melakukannya, tinjau metrik disk dan panduan pengoptimalan performa.

  4. Jika masalah performa berlanjut dan semua kondisi berikut terpenuhi, Anda dapat menghubungi dukungan untuk mendapatkan bantuan:

    • Status disk telah menjadi Degraded selama lebih dari 5 menit
    • Anda cukup yakin bahwa masalah ini bukan masalah beban kerja karena Anda telah mengoptimalkan disk dan memverifikasi bahwa tidak ada masalah lain seperti bottleneck atau aplikasi yang kelebihan beban
    • Tidak ada pemberitahuan di dasbor PSH

Google tidak merekomendasikan pembuatan pemberitahuan untuk status Degraded secara langsung, tetapi pemberitahuan tentang status aplikasi tingkat yang lebih tinggi dan penggunaan metrik ini untuk men-debug masalah.

Severely Degraded

Disk yang status performanya Severely Degraded mengalami masalah performa. Masalah ini dapat disebabkan oleh insiden atau error dan mungkin sudah terlihat di dasbor PSH atau dasbor Google Cloud service health.

Yang harus dilakukan

Jika status performa disk Anda adalah Severely Degraded, ikuti langkah-langkah berikut:

  1. Periksa dasbor PSH dan dasbor kondisi umum Google Cloud untuk mengetahui insiden yang memengaruhi disk. Jika terjadi insiden, jangan hubungi dukungan karena Google mengetahui dan berupaya menyelesaikan masalah tersebut.
  2. Jika tidak ada masalah umum di kedua dasbor, hubungi dukungan untuk mendapatkan bantuan.

Pohon keputusan

Diagram berikut menggambarkan cara melanjutkan jika disk mengalami masalah performa dan merangkum informasi di bagian sebelumnya.

Diagram alir yang menjelaskan langkah-langkah yang harus dilakukan untuk menafsirkan metrik status performa disk.

Seperti yang ditunjukkan dalam diagram alir, Anda hanya boleh menghubungi dukungan jika tidak ada pemberitahuan yang diketahui di dasbor PSH dan layanan Cloud, serta status disk adalah Severely Degraded. Jika disk adalah Degraded, hubungi dukungan hanya jika semua kondisi berikut terpenuhi:

  • Disk telah Degraded selama lebih dari 5 menit
  • Anda telah mengesampingkan error atau kesalahan konfigurasi beban kerja (seperti masalah jaringan)
  • Tidak ada pengoptimalan tambahan yang dapat dilakukan di tingkat aplikasi, beban kerja, atau disk
  • Anda telah meninjau semua metrik disk
  • Anda telah memeriksa log workload dan virtual machine (VM)

Langkah selanjutnya