Menemukan informasi pemecahan masalah Agen Operasional

Dokumen ini menjelaskan sumber informasi diagnostik yang dapat Anda gunakan untuk mengidentifikasi masalah dalam penginstalan atau menjalankan Agen Operasional.

Health check agen

Versi 2.25.1 memperkenalkan health check waktu mulai untuk Agen Operasional. Saat dimulai, Agen Operasional akan melakukan serangkaian pemeriksaan untuk kondisi yang mencegah agen berjalan dengan benar. Jika agen mendeteksi salah satu kondisi, agen akan mencatat pesan yang menjelaskan masalahnya. Agen Operasional akan memeriksa hal-hal berikut:

  • Masalah konektivitas
  • Ketersediaan port yang digunakan oleh agen untuk melaporkan metrik tentang dirinya sendiri
  • Masalah izin
  • Ketersediaan API yang digunakan oleh agen untuk menulis log atau metrik
  • Masalah di rutinitas health check itu sendiri.
Untuk informasi tentang cara menemukan error waktu mulai, lihat Menemukan error waktu mulai.

Versi 2.37.0 memperkenalkan pemeriksaan kesehatan runtime untuk Agen Operasional. Error ini dilaporkan ke Cloud Logging dan Error Reporting. Untuk informasi tentang menemukan error runtime, lihat Menemukan error runtime.

Versi 2.46.0 memperkenalkan kode LogPingOpsAgent yang informatif. Kode ini tidak mewakili error. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi pengumpulan log yang berhasil.

Tabel berikut mencantumkan setiap kode health check dalam urutan abjad dan menjelaskan arti setiap kode. Kode yang diakhiri dengan string Err menunjukkan error; kode lainnya bersifat informatif.

Kode health check Kategori Arti Saran
DLApiConnErr Konektivitas Permintaan ke subdomain download, dl.google.com, gagal. Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan.
FbMetricsPortErr Ketersediaan port Port 20202, yang diperlukan untuk metrik mandiri Agen Operasional, tidak tersedia. Pastikan port 20202 terbuka. Untuk mengetahui informasi selengkapnya, lihat Port yang diperlukan tidak tersedia.
HcFailureErr Generik Rutinitas pemeriksaan kesehatan Agen Operasional mengalami error internal. Kirim kasus dukungan dari konsol Google Cloud. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan dukungan.
LogApiConnErr Konektivitas Permintaan ke Logging API gagal. Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan.
LogApiDisabledErr API Logging API dinonaktifkan di project Google Cloud saat ini. Aktifkan Logging API.
LogApiPermissionErr Izin Akun layanan tidak memiliki peran Logs Writer (roles/logging.logWriter). Berikan peran Logs Writer ke akun layanan. Untuk mengetahui informasi selengkapnya, lihat Agen tidak memiliki izin API.
LogApiScopeErr Izin VM tidak memiliki cakupan akses https://www.googleapis.com/auth/logging.write. Menambahkan cakupan https://www.googleapis.com/auth/logging.write ke VM. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi cakupan akses.
LogApiUnauthenticatedErr API VM saat ini tidak dapat mengautentikasi ke Logging API. Pastikan file kredensial, cakupan akses VM, dan izin sudah disiapkan dengan benar. Untuk mengetahui informasi selengkapnya, lihat Memberikan otorisasi kepada Agen Operasional.
LogPingOpsAgent   Pesan payload informatif yang ditulis setiap 10 menit ke log ops-agent-health. Anda dapat menggunakan entri log yang dihasilkan untuk memverifikasi bahwa agen mengirim log. Pesan ini bukan error. Pesan ini diharapkan muncul setiap 10 menit. Jika pesan tidak muncul selama 20 menit atau lebih, agen mungkin mengalami masalah. Untuk mendapatkan informasi pemecahan masalah, lihat Memecahkan masalah Agen Operasional.
LogParseErr Runtime Agen Operasional tidak dapat mengurai satu atau beberapa log. Periksa konfigurasi prosesor logging yang telah Anda buat. Untuk informasi selengkapnya, lihat Error penguraian log.
LogPipeLineErr Runtime Pipeline logging Agen Operasional gagal. Verifikasi bahwa agen memiliki akses ke file buffer; periksa disk penuh, dan pastikan konfigurasi Agen Operasional benar. Untuk informasi selengkapnya, lihat Error pipeline.
MetaApiConnErr Konektivitas Permintaan ke server Metadata G C E, untuk membuat kueri cakupan akses VM, token OAuth, dan label resource, gagal. Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan.
MonApiConnErr Konektivitas Permintaan ke Monitoring API gagal. Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan.
MonApiDisabledErr API Monitoring API dinonaktifkan di project Google Cloud saat ini. Aktifkan Monitoring API.
MonApiPermissionErr Izin Akun layanan tidak memiliki peran Monitoring Metric Writer (roles/monitoring.metricWriter). Berikan peran Monitoring Metric Writer ke akun layanan. Untuk mengetahui informasi selengkapnya, lihat Agen tidak memiliki izin API.
MonApiScopeErr Izin VM tidak memiliki cakupan akses https://www.googleapis.com/auth/Monitoring.write. Tambahkan cakupan https://www.googleapis.com/auth/Monitoring.write ke VM. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi cakupan akses.
MonApiUnauthenticatedErr API VM saat ini tidak dapat melakukan autentikasi ke Monitoring API. Pastikan file kredensial, cakupan akses VM, dan izin sudah disiapkan dengan benar. Untuk mengetahui informasi selengkapnya, lihat Memberikan otorisasi kepada Agen Operasional.
OtelMetricsPortErr Ketersediaan port Port 20201, yang diperlukan untuk metrik mandiri Agen Operasional, tidak tersedia. Pastikan port 20201 terbuka. Untuk informasi selengkapnya, lihat Port yang diperlukan tidak tersedia.
PacApiConnErr Konektivitas Permintaan ke repositori paket, packages.cloud.google.com, gagal. Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan.

Menemukan error waktu mulai

Mulai versi 2.35.0, informasi health check ditulis ke log ops-agent-health oleh Cloud Logging API (versi 2.33.0 dan 2.34.0 menggunakan ops-agent-health-checks). Informasi yang sama juga ditulis ke file health-checks.log sebagai berikut:

  • Linux: /var/log/google-cloud-ops-agent/health-checks.log
  • Windows: C:\ProgramData\Google\Cloud Operations\Ops Agent\log\health-checks.log

Anda juga dapat melihat pesan health check dengan membuat kueri status layanan Agen Operasional sebagai berikut:

  • Di Linux, jalankan perintah berikut:
       sudo systemctl status google-cloud-ops-agent"*"
       

    Cari pesan seperti "[Ports Check] Result: PASS". Hasil lainnya termasuk "KESALAHAN" dan "GAGAL".

  • Di Windows, gunakan Event Viewer Windows. Cari pesan "Informasi", "Error", atau "Kegagalan" yang terkait dengan layanan google-cloud-ops-agent.

Setelah menyelesaikan masalah, Anda harus memulai ulang agen. Health check dijalankan saat agen dimulai. Jadi, untuk menjalankan ulang pemeriksaan, Anda harus memulai ulang agen.

Menemukan error runtime

Health check runtime dilaporkan ke Cloud Logging dan Error Reporting. Jika agen gagal dimulai, tetapi dapat melaporkan error sebelum gagal, Anda mungkin juga melihat error waktu mulai dilaporkan.

Untuk melihat error runtime dari Agen Operasional di Logging, lakukan langkah berikut:

  1. Di panel navigasi konsol Google Cloud, pilih Logging, lalu pilih Logs Explorer:

    Buka Logs Explorer

  2. Masukkan kueri berikut, lalu klik Run query:
    log_id("ops-agent-health")

Untuk melihat error runtime dari Agen Operasional di Error Reporting, lakukan langkah berikut:

  1. Di panel navigasi konsol Google Cloud, pilih Error Reporting, lalu pilih project Google Cloud Anda:

    Buka Error Reporting

  2. Untuk melihat error dari Agen Operasional, filter error untuk Ops Agent.

Memverifikasi pengumpulan log yang berhasil

Agen Operasional versi 2.46.0 memperkenalkan health check LogPingOpsAgent informasional. Pemeriksaan ini akan menulis pesan informasi ke ops-agent-health setiap 10 menit. Anda dapat menggunakan keberadaan pesan ini untuk memverifikasi bahwa Agen Operasional menulis log dengan melakukan salah satu tindakan berikut:

Jika salah satu opsi ini menunjukkan bahwa pesan log tidak diserap, Anda dapat melakukan tindakan berikut:

Untuk memeriksa status Agen Operasional di VM tertentu, Anda memerlukan ID instance VM. Untuk menemukan ID instance, lakukan hal berikut:

  • Di panel navigasi Konsol Google Cloud, pilih Compute Engine, lalu pilih VM instances:

    Buka instance VM

  • Klik nama instance VM.
  • Pada tab Details, temukan bagian Informasi dasar. ID instance muncul sebagai string numerik. Gunakan string ini untuk nilai INSTANCE_ID di bagian berikutnya.

Alat diagnostik agen untuk VM

Alat diagnostik agen mengumpulkan informasi proses debug lokal yang penting dari VM Anda untuk semua agen berikut: Agen Operasional, agen Logging lama, dan agen Monitoring lama. Informasi proses debug mencakup hal-hal seperti info project, info VM, konfigurasi agen, log agen, status layanan agen, dan informasi yang biasanya memerlukan pekerjaan manual untuk dikumpulkan. Alat ini juga memeriksa lingkungan VM lokal untuk memastikannya memenuhi persyaratan tertentu agar agen dapat berfungsi dengan baik, misalnya, konektivitas jaringan dan izin yang diperlukan.

Saat mengajukan kasus pelanggan untuk agen di VM, jalankan alat diagnostik agen dan lampirkan informasi yang dikumpulkan ke kasus tersebut. Memberikan informasi ini akan mengurangi waktu yang diperlukan untuk memecahkan kasus dukungan. Sebelum melampirkan informasi tersebut ke kasus dukungan, samarkan informasi sensitif seperti sandi.

Alat diagnostik agen harus dijalankan dari dalam VM, sehingga Anda biasanya harus melakukan SSH ke VM terlebih dahulu. Perintah berikut mengambil alat diagnostik agen dan menjalankannya:

Linux

curl -sSO https://dl.google.com/cloudagents/diagnose-agents.sh
sudo bash diagnose-agents.sh

Windows

(New-Object Net.WebClient).DownloadFile("https://dl.google.com/cloudagents/diagnose-agents.ps1", "${env:UserProfile}\diagnose-agents.ps1")
Invoke-Expression "${env:UserProfile}\diagnose-agents.ps1"

Ikuti output eksekusi skrip untuk menemukan file yang menyertakan info yang dikumpulkan. Biasanya, Anda dapat menemukannya di direktori /var/tmp/google-agents di Linux dan di direktori $env:LOCALAPPDATA/Temp pada Windows, kecuali jika Anda telah menyesuaikan direktori output saat menjalankan skrip.

Untuk informasi mendetail, periksa skrip diagnose-agents.sh di Linux atau skrip diagnose-agents.ps1 di Windows.

Alat diagnostik agen untuk kebijakan penginstalan otomatis

Jika upaya penginstalan Agen Operasional menggunakan kebijakan OS Agen Operasional gagal, Anda dapat menggunakan skrip diagnostik yang dijelaskan di bagian ini untuk proses debug. Misalnya, Anda mungkin melihat salah satu kasus berikut:

  • Penginstalan Agen Operasional gagal saat Anda menggunakan kotak centang Install Ops Agent for Monitoring and Logging untuk menginstal Agen Operasional selama pembuatan VM.
  • Status agen di dasbor VM instances Cloud Monitoring atau tab Observability di halaman detail VM Compute Engine tetap dalam status Pending selama lebih dari 10 menit. Status Tertunda yang berkepanjangan dapat menunjukkan salah satu hal berikut:

    • Terjadi masalah saat menerapkan kebijakan.
    • Terjadi masalah pada penginstalan Agen Operasional yang sebenarnya.
    • Masalah konektivitas antara VM dan Cloud Monitoring.

    Untuk beberapa masalah ini, skrip diagnostik agen dan health check umum mungkin juga dapat membantu.

Untuk menjalankan skrip diagnostik kebijakan, jalankan perintah berikut:

curl -sSO https://dl.google.com/cloudagents/diagnose-ui-policies.sh
bash diagnose-ui-policies.sh VM_NAME VM_ZONE

Skrip ini menunjukkan informasi tentang VM yang terpengaruh dan kebijakan penginstalan otomatis terkait.

Saat mengajukan kasus pelanggan untuk agen di VM, jalankan alat diagnostik agen dan lampirkan informasi yang dikumpulkan ke kasus tersebut. Memberikan informasi ini akan mengurangi waktu yang diperlukan untuk memecahkan kasus dukungan. Sebelum melampirkan informasi tersebut ke kasus dukungan, samarkan informasi sensitif seperti sandi.

Status agen

Anda dapat memeriksa status proses Agen Operasional di VM untuk menentukan apakah agen berjalan atau tidak.

Linux

Untuk memeriksa status Agen Operasional, gunakan perintah berikut:

sudo systemctl status google-cloud-ops-agent"*"

Pastikan komponen "Agen Metrik" dan "Agen Logging" tercantum sebagai "aktif (berjalan)", seperti yang ditunjukkan dalam contoh output berikut (beberapa baris telah dihapus agar lebih singkat):

● google-cloud-ops-agent.service - Google Cloud Ops Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled)
     Active: active (exited) since Wed 2023-05-03 21:22:28 UTC; 4 weeks 0 days ago
    Process: 3353828 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -in /etc/go>
    Process: 3353837 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 3353837 (code=exited, status=0/SUCCESS)
        CPU: 195ms

[...]

● google-cloud-ops-agent-opentelemetry-collector.service - Google Cloud Ops Agent - Metrics Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-opentelemetry-collector.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353840 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=ot>
   Main PID: 3353855 (otelopscol)
      Tasks: 9 (limit: 2355)
     Memory: 65.3M
        CPU: 40min 31.555s
     CGroup: /system.slice/google-cloud-ops-agent-opentelemetry-collector.service
             └─3353855 /opt/google-cloud-ops-agent/subagents/opentelemetry-collector/otelopscol --config=/run/g>

[...]

● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353838 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fl>
   Main PID: 3353856 (google_cloud_op)
      Tasks: 31 (limit: 2355)
     Memory: 58.3M
        CPU: 29min 6.771s
     CGroup: /system.slice/google-cloud-ops-agent-fluent-bit.service
             ├─3353856 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_wrapper -config_path /etc/goo>
             └─3353872 /opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config /run/google-clo>

[...]

● google-cloud-ops-agent-diagnostics.service - Google Cloud Ops Agent - Diagnostics
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-diagnostics.service; disabled; vendor preset: e>
     Active: active (running) since Wed 2023-05-03 21:22:26 UTC; 4 weeks 0 days ago
   Main PID: 3353819 (google_cloud_op)
      Tasks: 8 (limit: 2355)
     Memory: 36.0M
        CPU: 3min 19.488s
     CGroup: /system.slice/google-cloud-ops-agent-diagnostics.service
             └─3353819 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_diagnostics -config /etc/goog>

[...]

Windows

Untuk memeriksa status Agen Operasional, gunakan perintah berikut:

Get-Service google-cloud-ops-agent*

Pastikan komponen "Agen Metrik" dan "Agen Logging" tercantum sebagai "Running", seperti yang ditunjukkan dalam contoh output berikut:

Status   Name               DisplayName
------   ----               -----------
Running  google-cloud-op... Google Cloud Ops Agent
Running  google-cloud-op... Google Cloud Ops Agent - Logging Agent
Running  google-cloud-op... Google Cloud Ops Agent - Metrics Agent
Running  google-cloud-op... Google Cloud Ops Agent - Diagnostics

Log mandiri agen

Jika agen gagal menyerap log ke Cloud Logging, Anda mungkin harus memeriksa log agen secara lokal di VM untuk melakukan pemecahan masalah. Anda juga dapat menggunakan rotasi log untuk mengelola log mandiri agen.

Linux

Untuk memeriksa log mandiri yang ditulis ke Journald, jalankan perintah berikut:

journalctl -u google-cloud-ops-agent*

Untuk memeriksa log mandiri yang ditulis ke disk oleh modul logging, jalankan perintah berikut:

vim -M /var/log/google-cloud-ops-agent/subagents/logging-module.log

Windows

Untuk memeriksa log mandiri yang ditulis ke Windows Event Logs, jalankan perintah berikut:

Get-WinEvent -FilterHashtable @{ Logname='Application'; ProviderName='google-cloud-ops-agent*' } | Format-Table -AutoSize -Wrap

Untuk memeriksa log mandiri yang ditulis ke disk oleh modul logging, jalankan perintah berikut:

notepad "C:\ProgramData\Google\Cloud Operations\Ops Agent\log\logging-module.log"

Untuk memeriksa log dari Windows Service Control Manager untuk layanan Agen Operasional, jalankan perintah berikut:

Get-WinEvent -FilterHashtable @{ Logname='System'; ProviderName='Service Control Manager' } | Where-Object -Property Message -Match 'Google Cloud Ops Agent' | Format-Table -AutoSize -Wrap

Lihat penggunaan dan diagnostik metrik di Cloud Monitoring

Halaman Metrics Management Cloud Monitoring menyediakan informasi yang dapat membantu Anda mengontrol jumlah biaya yang dikeluarkan untuk metrik yang dapat dikenakan biaya tanpa memengaruhi kemampuan observasi. Halaman Pengelolaan Metrik melaporkan informasi berikut:

  • Volume penyerapan untuk penagihan berbasis byte dan sampel, di seluruh domain metrik dan untuk masing-masing metrik.
  • Data tentang label dan kardinalitas metrik.
  • Penggunaan metrik dalam kebijakan pemberitahuan dan dasbor kustom.
  • Rasio error penulisan metrik.

Untuk menampilkan halaman Metrics Management, lakukan hal berikut:

  1. Di panel navigasi konsol Google Cloud, pilih Monitoring, lalu pilih  Metrics management:

    Buka Pengelolaan metrik

  2. Di toolbar, pilih periode waktu. Secara default, halaman Metrics Management menampilkan informasi tentang metrik yang dikumpulkan dalam satu hari sebelumnya.

Untuk informasi selengkapnya tentang halaman Metrics Management, baca artikel Melihat dan mengelola penggunaan metrik.