Dokumen ini menjelaskan sumber informasi diagnostik yang dapat Anda gunakan untuk mengidentifikasi masalah dalam penginstalan atau menjalankan Agen Operasional.
Health check agen
Versi 2.25.1 memperkenalkan health check waktu mulai untuk Agen Operasional. Saat dimulai, Agen Operasional akan melakukan serangkaian pemeriksaan untuk kondisi yang mencegah agen berjalan dengan benar. Jika agen mendeteksi salah satu kondisi, agen akan mencatat pesan yang menjelaskan masalahnya. Agen Operasional akan memeriksa hal-hal berikut:
- Masalah konektivitas
- Ketersediaan port yang digunakan oleh agen untuk melaporkan metrik tentang dirinya sendiri
- Masalah izin
- Ketersediaan API yang digunakan oleh agen untuk menulis log atau metrik
- Masalah di rutinitas health check itu sendiri.
Versi 2.37.0 memperkenalkan pemeriksaan kesehatan runtime untuk Agen Operasional. Error ini dilaporkan ke Cloud Logging dan Error Reporting. Untuk informasi tentang menemukan error runtime, lihat Menemukan error runtime.
Versi 2.46.0 memperkenalkan kode
LogPingOpsAgent
yang informatif. Kode ini tidak mewakili error.
Untuk mengetahui informasi selengkapnya, lihat
Memverifikasi pengumpulan log yang berhasil.
Tabel berikut mencantumkan setiap kode health check dalam urutan abjad dan menjelaskan arti setiap kode. Kode yang diakhiri dengan string
Err
menunjukkan error; kode lainnya bersifat informatif.
Kode health check | Kategori | Arti | Saran |
---|---|---|---|
DLApiConnErr
|
Konektivitas |
Permintaan ke subdomain download, dl.google.com , gagal.
|
Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan. |
FbMetricsPortErr
|
Ketersediaan port | Port 20202, yang diperlukan untuk metrik mandiri Agen Operasional, tidak tersedia. | Pastikan port 20202 terbuka. Untuk mengetahui informasi selengkapnya, lihat Port yang diperlukan tidak tersedia. |
HcFailureErr
|
Generik | Rutinitas pemeriksaan kesehatan Agen Operasional mengalami error internal. | Kirim kasus dukungan dari konsol Google Cloud. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan dukungan. |
LogApiConnErr
|
Konektivitas | Permintaan ke Logging API gagal. | Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan. |
LogApiDisabledErr
|
API | Logging API dinonaktifkan di project Google Cloud saat ini. | Aktifkan Logging API. |
LogApiPermissionErr
|
Izin |
Akun layanan tidak memiliki peran Logs Writer (roles/logging.logWriter ).
|
Berikan peran Logs Writer ke akun layanan. Untuk mengetahui informasi selengkapnya, lihat Agen tidak memiliki izin API. |
LogApiScopeErr
|
Izin | VM tidak memiliki cakupan akses https://www.googleapis.com/auth/logging.write. | Menambahkan cakupan https://www.googleapis.com/auth/logging.write ke VM. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi cakupan akses. |
LogApiUnauthenticatedErr
|
API | VM saat ini tidak dapat mengautentikasi ke Logging API. | Pastikan file kredensial, cakupan akses VM, dan izin sudah disiapkan dengan benar. Untuk mengetahui informasi selengkapnya, lihat Memberikan otorisasi kepada Agen Operasional. |
LogPingOpsAgent
|
Pesan payload informatif yang ditulis setiap 10 menit ke log ops-agent-health . Anda dapat menggunakan entri log yang dihasilkan untuk memverifikasi bahwa agen mengirim log. Pesan ini bukan
error.
|
Pesan ini diharapkan muncul setiap 10 menit. Jika pesan tidak muncul selama 20 menit atau lebih, agen mungkin mengalami masalah. Untuk mendapatkan informasi pemecahan masalah, lihat Memecahkan masalah Agen Operasional. | |
LogParseErr
|
Runtime | Agen Operasional tidak dapat mengurai satu atau beberapa log. | Periksa konfigurasi prosesor logging yang telah Anda buat. Untuk informasi selengkapnya, lihat Error penguraian log. |
LogPipeLineErr
|
Runtime | Pipeline logging Agen Operasional gagal. | Verifikasi bahwa agen memiliki akses ke file buffer; periksa disk penuh, dan pastikan konfigurasi Agen Operasional benar. Untuk informasi selengkapnya, lihat Error pipeline. |
MetaApiConnErr
|
Konektivitas | Permintaan ke server Metadata G C E, untuk membuat kueri cakupan akses VM, token OAuth, dan label resource, gagal. | Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan. |
MonApiConnErr
|
Konektivitas | Permintaan ke Monitoring API gagal. | Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan. |
MonApiDisabledErr
|
API | Monitoring API dinonaktifkan di project Google Cloud saat ini. | Aktifkan Monitoring API. |
MonApiPermissionErr
|
Izin |
Akun layanan tidak memiliki peran Monitoring Metric Writer (roles/monitoring.metricWriter ).
|
Berikan peran Monitoring Metric Writer ke akun layanan. Untuk mengetahui informasi selengkapnya, lihat Agen tidak memiliki izin API. |
MonApiScopeErr
|
Izin | VM tidak memiliki cakupan akses https://www.googleapis.com/auth/Monitoring.write. | Tambahkan cakupan https://www.googleapis.com/auth/Monitoring.write ke VM. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi cakupan akses. |
MonApiUnauthenticatedErr
|
API | VM saat ini tidak dapat melakukan autentikasi ke Monitoring API. | Pastikan file kredensial, cakupan akses VM, dan izin sudah disiapkan dengan benar. Untuk mengetahui informasi selengkapnya, lihat Memberikan otorisasi kepada Agen Operasional. |
OtelMetricsPortErr
|
Ketersediaan port | Port 20201, yang diperlukan untuk metrik mandiri Agen Operasional, tidak tersedia. | Pastikan port 20201 terbuka. Untuk informasi selengkapnya, lihat Port yang diperlukan tidak tersedia. |
PacApiConnErr
|
Konektivitas |
Permintaan ke repositori paket,
packages.cloud.google.com , gagal.
|
Periksa koneksi internet dan aturan firewall Anda. Untuk mengetahui informasi selengkapnya, lihat Masalah konektivitas jaringan. |
Menemukan error waktu mulai
Mulai versi 2.35.0, informasi health check ditulis ke log ops-agent-health
oleh Cloud Logging API (versi 2.33.0 dan 2.34.0 menggunakan ops-agent-health-checks
). Informasi yang sama juga ditulis ke file health-checks.log
sebagai berikut:
- Linux:
/var/log/google-cloud-ops-agent/health-checks.log
- Windows:
C:\ProgramData\Google\Cloud Operations\Ops Agent\log\health-checks.log
Anda juga dapat melihat pesan health check dengan membuat kueri status layanan Agen Operasional sebagai berikut:
- Di Linux, jalankan perintah berikut:
sudo systemctl status google-cloud-ops-agent"*"
Cari pesan seperti "[Ports Check] Result: PASS". Hasil lainnya termasuk "KESALAHAN" dan "GAGAL".
- Di Windows, gunakan Event Viewer Windows. Cari pesan "Informasi", "Error", atau "Kegagalan" yang terkait dengan layanan
google-cloud-ops-agent
.
Setelah menyelesaikan masalah, Anda harus memulai ulang agen. Health check dijalankan saat agen dimulai. Jadi, untuk menjalankan ulang pemeriksaan, Anda harus memulai ulang agen.
Menemukan error runtime
Health check runtime dilaporkan ke Cloud Logging dan Error Reporting. Jika agen gagal dimulai, tetapi dapat melaporkan error sebelum gagal, Anda mungkin juga melihat error waktu mulai dilaporkan.
Untuk melihat error runtime dari Agen Operasional di Logging, lakukan langkah berikut:
-
Di panel navigasi konsol Google Cloud, pilih Logging, lalu pilih Logs Explorer:
- Masukkan kueri berikut, lalu klik Run query:
log_id("ops-agent-health")
Untuk melihat error runtime dari Agen Operasional di Error Reporting, lakukan langkah berikut:
-
Di panel navigasi konsol Google Cloud, pilih Error Reporting, lalu pilih project Google Cloud Anda:
- Untuk melihat error dari Agen Operasional, filter error untuk
Ops Agent
.
Memverifikasi pengumpulan log yang berhasil
Agen Operasional versi 2.46.0 memperkenalkan
health check LogPingOpsAgent
informasional. Pemeriksaan ini akan menulis
pesan informasi ke ops-agent-health
setiap 10 menit.
Anda dapat menggunakan keberadaan pesan ini untuk memverifikasi bahwa Agen Operasional menulis log dengan melakukan salah satu tindakan berikut:
- Telusuri log VM tertentu untuk pesan ping dengan menggunakan Logs Explorer.
- Periksa nilai metrik
log_entry_count
untuk VM tertentu dengan menggunakan Metrics Explorer. - Buat kebijakan pemberitahuan untuk memberi tahu Anda jika VM tertentu tidak memperbarui metrik
log_entry_count
.
Jika salah satu opsi ini menunjukkan bahwa pesan log tidak diserap, Anda dapat melakukan tindakan berikut:
- Periksa kode error yang menunjukkan error saat memulai atau error runtime.
- Tentukan apakah Agen Operasional sudah aktif dan berjalan.
- Jalankan skrip diagnostik agen.
Untuk memeriksa status Agen Operasional di VM tertentu, Anda memerlukan ID instance VM. Untuk menemukan ID instance, lakukan hal berikut:
-
Di panel navigasi Konsol Google Cloud, pilih Compute Engine, lalu pilih VM instances:
- Klik nama instance VM.
- Pada tab Details, temukan bagian Informasi dasar. ID instance muncul sebagai string numerik. Gunakan string ini untuk nilai INSTANCE_ID di bagian berikutnya.
Alat diagnostik agen untuk VM
Alat diagnostik agen mengumpulkan informasi proses debug lokal yang penting dari VM Anda untuk semua agen berikut: Agen Operasional, agen Logging lama, dan agen Monitoring lama. Informasi proses debug mencakup hal-hal seperti info project, info VM, konfigurasi agen, log agen, status layanan agen, dan informasi yang biasanya memerlukan pekerjaan manual untuk dikumpulkan. Alat ini juga memeriksa lingkungan VM lokal untuk memastikannya memenuhi persyaratan tertentu agar agen dapat berfungsi dengan baik, misalnya, konektivitas jaringan dan izin yang diperlukan.
Saat mengajukan kasus pelanggan untuk agen di VM, jalankan alat diagnostik agen dan lampirkan informasi yang dikumpulkan ke kasus tersebut. Memberikan informasi ini akan mengurangi waktu yang diperlukan untuk memecahkan kasus dukungan. Sebelum melampirkan informasi tersebut ke kasus dukungan, samarkan informasi sensitif seperti sandi.
Alat diagnostik agen harus dijalankan dari dalam VM, sehingga Anda biasanya harus melakukan SSH ke VM terlebih dahulu. Perintah berikut mengambil alat diagnostik agen dan menjalankannya:
Linux
curl -sSO https://dl.google.com/cloudagents/diagnose-agents.sh
sudo bash diagnose-agents.sh
Windows
(New-Object Net.WebClient).DownloadFile("https://dl.google.com/cloudagents/diagnose-agents.ps1", "${env:UserProfile}\diagnose-agents.ps1")
Invoke-Expression "${env:UserProfile}\diagnose-agents.ps1"
Ikuti output eksekusi skrip untuk menemukan file yang menyertakan
info yang dikumpulkan. Biasanya, Anda dapat menemukannya di direktori /var/tmp/google-agents
di Linux dan di direktori $env:LOCALAPPDATA/Temp
pada Windows,
kecuali jika Anda telah menyesuaikan direktori output saat menjalankan skrip.
Untuk informasi mendetail, periksa skrip diagnose-agents.sh
di Linux atau
skrip diagnose-agents.ps1
di Windows.
Alat diagnostik agen untuk kebijakan penginstalan otomatis
Jika upaya penginstalan Agen Operasional menggunakan kebijakan OS Agen Operasional gagal, Anda dapat menggunakan skrip diagnostik yang dijelaskan di bagian ini untuk proses debug. Misalnya, Anda mungkin melihat salah satu kasus berikut:
- Penginstalan Agen Operasional gagal saat Anda menggunakan kotak centang Install Ops Agent for Monitoring and Logging untuk menginstal Agen Operasional selama pembuatan VM.
Status agen di dasbor VM instances Cloud Monitoring atau tab Observability di halaman detail VM Compute Engine tetap dalam status Pending selama lebih dari 10 menit. Status Tertunda yang berkepanjangan dapat menunjukkan salah satu hal berikut:
- Terjadi masalah saat menerapkan kebijakan.
- Terjadi masalah pada penginstalan Agen Operasional yang sebenarnya.
- Masalah konektivitas antara VM dan Cloud Monitoring.
Untuk beberapa masalah ini, skrip diagnostik agen dan health check umum mungkin juga dapat membantu.
Untuk menjalankan skrip diagnostik kebijakan, jalankan perintah berikut:
curl -sSO https://dl.google.com/cloudagents/diagnose-ui-policies.sh bash diagnose-ui-policies.sh VM_NAME VM_ZONE
Skrip ini menunjukkan informasi tentang VM yang terpengaruh dan kebijakan penginstalan otomatis terkait.
Saat mengajukan kasus pelanggan untuk agen di VM, jalankan alat diagnostik agen dan lampirkan informasi yang dikumpulkan ke kasus tersebut. Memberikan informasi ini akan mengurangi waktu yang diperlukan untuk memecahkan kasus dukungan. Sebelum melampirkan informasi tersebut ke kasus dukungan, samarkan informasi sensitif seperti sandi.
Status agen
Anda dapat memeriksa status proses Agen Operasional di VM untuk menentukan apakah agen berjalan atau tidak.
Linux
Untuk memeriksa status Agen Operasional, gunakan perintah berikut:sudo systemctl status google-cloud-ops-agent"*"
Pastikan komponen "Agen Metrik" dan "Agen Logging" tercantum sebagai "aktif (berjalan)", seperti yang ditunjukkan dalam contoh output berikut (beberapa baris telah dihapus agar lebih singkat):
● google-cloud-ops-agent.service - Google Cloud Ops Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled) Active: active (exited) since Wed 2023-05-03 21:22:28 UTC; 4 weeks 0 days ago Process: 3353828 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -in /etc/go> Process: 3353837 ExecStart=/bin/true (code=exited, status=0/SUCCESS) Main PID: 3353837 (code=exited, status=0/SUCCESS) CPU: 195ms [...] ● google-cloud-ops-agent-opentelemetry-collector.service - Google Cloud Ops Agent - Metrics Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-opentelemetry-collector.service; static) Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago Process: 3353840 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=ot> Main PID: 3353855 (otelopscol) Tasks: 9 (limit: 2355) Memory: 65.3M CPU: 40min 31.555s CGroup: /system.slice/google-cloud-ops-agent-opentelemetry-collector.service └─3353855 /opt/google-cloud-ops-agent/subagents/opentelemetry-collector/otelopscol --config=/run/g> [...] ● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static) Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago Process: 3353838 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fl> Main PID: 3353856 (google_cloud_op) Tasks: 31 (limit: 2355) Memory: 58.3M CPU: 29min 6.771s CGroup: /system.slice/google-cloud-ops-agent-fluent-bit.service ├─3353856 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_wrapper -config_path /etc/goo> └─3353872 /opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config /run/google-clo> [...] ● google-cloud-ops-agent-diagnostics.service - Google Cloud Ops Agent - Diagnostics Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-diagnostics.service; disabled; vendor preset: e> Active: active (running) since Wed 2023-05-03 21:22:26 UTC; 4 weeks 0 days ago Main PID: 3353819 (google_cloud_op) Tasks: 8 (limit: 2355) Memory: 36.0M CPU: 3min 19.488s CGroup: /system.slice/google-cloud-ops-agent-diagnostics.service └─3353819 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_diagnostics -config /etc/goog> [...]
Windows
Untuk memeriksa status Agen Operasional, gunakan perintah berikut:Get-Service google-cloud-ops-agent*
Pastikan komponen "Agen Metrik" dan "Agen Logging" tercantum sebagai "Running", seperti yang ditunjukkan dalam contoh output berikut:
Status Name DisplayName ------ ---- ----------- Running google-cloud-op... Google Cloud Ops Agent Running google-cloud-op... Google Cloud Ops Agent - Logging Agent Running google-cloud-op... Google Cloud Ops Agent - Metrics Agent Running google-cloud-op... Google Cloud Ops Agent - Diagnostics
Log mandiri agen
Jika agen gagal menyerap log ke Cloud Logging, Anda mungkin harus memeriksa log agen secara lokal di VM untuk melakukan pemecahan masalah. Anda juga dapat menggunakan rotasi log untuk mengelola log mandiri agen.
Linux
Untuk memeriksa log mandiri yang ditulis ke Journald
, jalankan perintah berikut:
journalctl -u google-cloud-ops-agent*
Untuk memeriksa log mandiri yang ditulis ke disk oleh modul logging, jalankan perintah berikut:
vim -M /var/log/google-cloud-ops-agent/subagents/logging-module.log
Windows
Untuk memeriksa log mandiri yang ditulis ke Windows Event Logs
, jalankan perintah
berikut:
Get-WinEvent -FilterHashtable @{ Logname='Application'; ProviderName='google-cloud-ops-agent*' } | Format-Table -AutoSize -Wrap
Untuk memeriksa log mandiri yang ditulis ke disk oleh modul logging, jalankan perintah berikut:
notepad "C:\ProgramData\Google\Cloud Operations\Ops Agent\log\logging-module.log"
Untuk memeriksa log dari Windows Service Control Manager
untuk layanan Agen Operasional, jalankan perintah berikut:
Get-WinEvent -FilterHashtable @{ Logname='System'; ProviderName='Service Control Manager' } | Where-Object -Property Message -Match 'Google Cloud Ops Agent' | Format-Table -AutoSize -Wrap
Lihat penggunaan dan diagnostik metrik di Cloud Monitoring
Halaman Metrics Management Cloud Monitoring menyediakan informasi yang dapat membantu Anda mengontrol jumlah biaya yang dikeluarkan untuk metrik yang dapat dikenakan biaya tanpa memengaruhi kemampuan observasi. Halaman Pengelolaan Metrik melaporkan informasi berikut:
- Volume penyerapan untuk penagihan berbasis byte dan sampel, di seluruh domain metrik dan untuk masing-masing metrik.
- Data tentang label dan kardinalitas metrik.
- Penggunaan metrik dalam kebijakan pemberitahuan dan dasbor kustom.
- Rasio error penulisan metrik.
Untuk menampilkan halaman Metrics Management, lakukan hal berikut:
-
Di panel navigasi konsol Google Cloud, pilih Monitoring, lalu pilih
Metrics management: - Di toolbar, pilih periode waktu. Secara default, halaman Metrics Management menampilkan informasi tentang metrik yang dikumpulkan dalam satu hari sebelumnya.
Untuk informasi selengkapnya tentang halaman Metrics Management, baca artikel Melihat dan mengelola penggunaan metrik.