Dokumen ini memberikan informasi untuk membantu Anda mendiagnosis dan menyelesaikan masalah dalam penginstalan dan pengaktifan Ops Agent. Jika agen berjalan, tetapi gagal menyerap log atau metrik, lihat Memecahkan masalah penyerapan data.
Sebelum memulai
Sebelum mencoba memperbaiki masalah, periksa status health check agen.
Agen gagal diinstal
Anda mungkin mengalami error berikut saat menjalankan skrip penginstalan.
Sistem operasi tidak didukung
Jika sistem operasi tidak didukung, penginstalan Agen Operasi akan gagal. Pesan error mungkin terlihat mirip dengan yang berikut ini:
Linux
https://packages.cloud.google.com/yum/repos/google-cloud-ops-agent-el6-x86_64-all/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found" Trying other mirror. To address this issue please refer to the below wiki article https://wiki.centos.org/yum-errors If above article doesn't help to resolve this issue please use https://bugs.centos.org/. Error: Cannot retrieve repository metadata (repomd.xml) for repository: google-cloud-ops-agent. Please verify its path and try again
Agen lama diinstal yang bertentangan dengan Agen Operasional
Jika VM sudah menginstal agen Cloud Logging atau agen Cloud Monitoring, agen tersebut akan bertentangan dengan agen baru. Pesan error mungkin terlihat mirip dengan berikut:
Linux
Error: Problem: problem with installed package stackdriver-agent-6.0.5-1.el8.x86_64 - package google-cloud-ops-agent-0.1.0-1.el8.x86_64 conflicts with stackdriver-agent provided by stackdriver-agent-6.0.5-1.el8.x86_64
Ops Agent menggunakan file konfigurasi baru yang tidak kompatibel dengan agen lama. Untuk informasi selengkapnya, lihat panduan Mengonfigurasi Agen Operasional.
Untuk memperbaiki error ini, lakukan tindakan berikut:
Simpan file konfigurasi kustom untuk agen Cloud Monitoring dan agen Cloud Logging.
Uninstal agen Cloud Monitoring dan agen Cloud Logging lama.
Setelah Anda meng-uninstal agen, konsol Google Cloud mungkin memerlukan waktu hingga satu jam untuk melaporkan perubahan ini.
Penginstalan Agen Operasional gagal setelah penginstalan Agen pemantauan gagal
Penginstalan Agen Ops gagal setelah upaya penginstalan Agen Pemantauan gagal. Pada sistem operasi Debian, pesan error saat Agen Operasional gagal diinstal mirip dengan berikut:
Linux
... E: The repository 'https://packages.cloud.google.com/apt google-cloud-monitoring-jammy-all Release' does not have a Release file. ... Could not refresh the google-cloud-ops-agent apt repositories.
Jika Anda mencoba menginstal Agen pemantauan di sistem operasi yang tidak didukung oleh agen tersebut, penginstalan akan gagal. Kegagalan penginstalan terjadi setelah repositori Agen pemantauan ditambahkan ke sistem. Menginstal Agen Ops setelah penginstalan Agen Pemantauan gagal juga akan gagal karena repositori Agen Pemantauan tidak valid.
Tidak semua sistem operasi yang didukung oleh Agen Operasional juga didukung oleh Agen Pemantauan. Untuk informasi tentang sistem operasi yang didukung, lihat Agen Operasional: Sistem operasi Linux dan Agen pemantauan: Sistem operasi Linux.
Untuk menginstal Agen Operasional, lakukan hal berikut:
Hapus repositori untuk agen Monitoring:
Jika skrip
add-monitoring-agent-repo.sh
ada di sistem Anda, jalankan perintah berikut:sudo bash add-monitoring-agent-repo.sh --remove-repo
Jika tidak, hapus repositori secara manual:
Debian
sudo rm /etc/apt/sources.list.d/google-cloud-monitoring.list
RHEL
sudo rm /etc/yum.repos.d/google-cloud-monitoring.repo
Suse
sudo rm /etc/zypp/repos.d/google-cloud-monitoring.repo
Jalankan skrip penginstalan Agen Operasional.
Penginstalan Agen Operasi gagal karena pembaruan repositori gagal
Penginstalan Ops Agent gagal karena pembaruan repositori yang diinstal gagal.
Linux
Untuk contoh pesan kegagalan untuk sistem operasi Debian,
tempat pembaruan repositori terjadi karena panggilan ke apt-get update
, lihat
entri pemecahan masalah
Penginstalan Agen Operasional gagal setelah penginstalan Agen pemantauan gagal.
Jika mengalami kegagalan saat memuat ulang repositori, Anda harus menyelesaikan kegagalan tersebut sebelum dapat menginstal Agen Operasional. Anda mungkin dapat mengatasi kegagalan ini dengan menghapus atau menonaktifkan repositori yang tidak diperlukan.
Setelah dapat memuat ulang repositori, Anda dapat menginstal Ops Agent dengan menjalankan skrip penginstalan Ops Agent.
Refresh repositori gagal karena kunci publik tidak tersedia
Linux
Pembaruan repositori, karena panggilan ke apt-get update
, gagal karena
kunci publik tidak tersedia. Hal ini juga dapat terjadi saat menginstal atau mengupgrade Ops Agent. Anda mungkin melihat kegagalan berikut:
W: GPG error: http://packages.cloud.google.com/apt google-cloud-ops-agent-focal-all InRelease: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY C0BA5CE6DC6315A3
E: The repository 'http://packages.cloud.google.com/apt google-cloud-ops-agent-focal-all InRelease' is not signed.
Untuk memperbaiki error ini, jalankan perintah berikut untuk menambahkan kunci yang hilang ke sistem Anda:
curl -fsSL https://packages.cloud.google.com/apt/doc/apt-key.gpg \
| sudo gpg --dearmor -o /etc/apt/trusted.gpg.d/google-cloud-ops-agent.gpg
Agen diinstal, tetapi tidak berjalan
Jika Anda telah menginstal agen, tetapi agen tidak berjalan, masalahnya mungkin salah satu dari hal berikut:
- Salah satu komponen utama, "Metrics Agent" atau "Logging Agent", telah gagal dimulai; lihat Layanan agen tidak berjalan.
- Salah satu agen lama juga diinstal di VM; lihat Konflik dengan agen yang saat ini diinstal.
- Port yang diperlukan oleh salah satu komponen sedang digunakan oleh proses lain; lihat Port tidak tersedia.
- Konfigurasi Agen Operasional tidak valid; lihat Konfigurasi tidak valid.
Layanan agen tidak berjalan
Jika layanan agen berjalan seperti yang diharapkan, Agen Metrik dan Agen Logging akan tercantum sebagai berjalan saat Anda mengkueri status:
Untuk Linux
sudo systemctl status google-cloud-ops-agent"*"
Beberapa baris dalam output telah dihapus untuk mempersingkat.
● google-cloud-ops-agent.service - Google Cloud Ops Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled) Active: active (exited) since Wed 2023-05-03 21:22:28 UTC; 4 weeks 0 days ago Process: 3353828 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -in /etc/go> Process: 3353837 ExecStart=/bin/true (code=exited, status=0/SUCCESS) Main PID: 3353837 (code=exited, status=0/SUCCESS) CPU: 195ms [...] ● google-cloud-ops-agent-opentelemetry-collector.service - Google Cloud Ops Agent - Metrics Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-opentelemetry-collector.service; static) Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago Process: 3353840 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=ot> Main PID: 3353855 (otelopscol) Tasks: 9 (limit: 2355) Memory: 65.3M CPU: 40min 31.555s CGroup: /system.slice/google-cloud-ops-agent-opentelemetry-collector.service └─3353855 /opt/google-cloud-ops-agent/subagents/opentelemetry-collector/otelopscol --config=/run/g> [...] ● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static) Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago Process: 3353838 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fl> Main PID: 3353856 (google_cloud_op) Tasks: 31 (limit: 2355) Memory: 58.3M CPU: 29min 6.771s CGroup: /system.slice/google-cloud-ops-agent-fluent-bit.service ├─3353856 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_wrapper -config_path /etc/goo> └─3353872 /opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config /run/google-clo> [...] ● google-cloud-ops-agent-diagnostics.service - Google Cloud Ops Agent - Diagnostics Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-diagnostics.service; disabled; vendor preset: e> Active: active (running) since Wed 2023-05-03 21:22:26 UTC; 4 weeks 0 days ago Main PID: 3353819 (google_cloud_op) Tasks: 8 (limit: 2355) Memory: 36.0M CPU: 3min 19.488s CGroup: /system.slice/google-cloud-ops-agent-diagnostics.service └─3353819 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_diagnostics -config /etc/goog> [...]
Untuk Windows
Get-Service google-cloud-ops-agent* Status Name DisplayName ------ ---- ----------- Running google-cloud-op... Google Cloud Ops Agent Running google-cloud-op... Google Cloud Ops Agent - Logging Agent Running google-cloud-op... Google Cloud Ops Agent - Metrics Agent Running google-cloud-op... Google Cloud Ops Agent - Diagnostics
Jika layanan agen tidak berjalan, Anda mungkin melihat status berikut:
Linux
$ sudo service google-cloud-ops-agent status ● google-cloud-ops-agent.service - Google Cloud Ops Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled) Active: inactive (dead) since Wed 2021-06-30 21:20:43 UTC; 6s ago
Windows
Get-Service google-cloud-ops-agent Status Name DisplayName ------ ---- ----------- Stopped google-cloud-ops-agent Google Cloud Ops Agent
Untuk memperbaiki error ini, jalankan perintah berikut untuk memulai layanan:
Linux
sudo service google-cloud-ops-agent start
Windows
Start-Service google-cloud-ops-agent
Jika layanan gagal dimulai, konfigurasinya mungkin tidak valid.
Konflik dengan agen yang saat ini diinstal
VM sudah menginstal agen Cloud Logging atau agen Cloud Monitoring, dan konfigurasinya bertentangan dengan konfigurasi agen baru. Pesan error mungkin terlihat seperti berikut:
Windows
We detected an existing Windows service for the StackdriverLogging agent, which is not compatible with the Ops Agent when the Ops Agent configuration has a non-empty logging section. Please either remove the logging section from the Ops Agent configuration, or disable the StackdriverLogging agent, and then retry enabling the Ops Agent.
Untuk memperbaiki error ini, Anda memiliki dua opsi:
Nonaktifkan bagian yang bertentangan dari file konfigurasi Agen Operasional. Untuk informasi selengkapnya, lihat panduan Mengonfigurasi Agen Operasional.
Nonaktifkan agen Cloud Logging yang bertentangan atau agen Cloud Monitoring.
- Simpan file konfigurasi kustom untuk agen Cloud Logging.
- Uninstal agen Cloud Monitoring dan agen Cloud Logging lama.
Setelah Anda meng-uninstal agen, konsol Google Cloud mungkin memerlukan waktu hingga satu jam untuk melaporkan perubahan ini.
Port yang diperlukan tidak tersedia
Ops Agent atau salah satu komponennya dapat gagal dimulai saat port yang diperlukan oleh komponen sedang digunakan oleh proses lain. Agen Operasi menggunakan port berikut:
- Port 20201, untuk komponen "Metrics Agent"
- Port 20202, untuk komponen "Logging Agent"
Jika proses selain komponen Agen Operasional menggunakan port 20201 atau port 20202, hentikan proses tersebut dan mulai ulang Agen Operasional. Gunakan langkah-langkah berikut untuk menentukan proses mana yang menggunakan port:
Linux
Komponen Agen Metrik: Untuk melihat proses mana yang menggunakan port 20201, gunakan perintah berikut:
sudo netstat -ns -p | grep '20201'
Output berikut menunjukkan hasil yang diharapkan:
pengumpul metrik Agen Operasi, otelopscol
, menggunakan port:
tcp 0 0 127.0.0.1:50138 127.0.0.1:20201 ESTABLISHED 16850/otelopscol tcp6 0 0 :::20201 :::* LISTEN 16850/otelopscol tcp6 0 0 127.0.0.1:20201 127.0.0.1:50138 ESTABLISHED 16850/otelopscol
Komponen Agen Logging: Untuk melihat proses mana yang menggunakan port 20202, gunakan perintah berikut:
sudo netstat -ns -p | grep '20202'
Output berikut menunjukkan hasil yang diharapkan:
kolektor log Ops Agent, fluent-bit
, menggunakan port:
tcp 0 0 0.0.0.0:20202 0.0.0.0:* LISTEN 16640/fluent-bit tcp 0 0 127.0.0.1:20202 127.0.0.1:52998 TIME_WAIT -
Windows
Komponen Agen Metrik: Untuk melihat proses mana yang menggunakan port 20201, gunakan perintah berikut:
netstat -na -b | Select-String "20201" -Context 0,1
Output berikut menunjukkan hasil yang diharapkan: kolektor metrik Ops Agent, google-cloud-metrics-agent_windows_amd64.exe
, menggunakan port:
> TCP 0.0.0.0:20201 0.0.0.0:0 LISTENING [google-cloud-metrics-agent_windows_amd64.exe] > TCP 127.0.0.1:20201 127.0.0.1:50090 ESTABLISHED [google-cloud-metrics-agent_windows_amd64.exe] > TCP 127.0.0.1:50090 127.0.0.1:20201 ESTABLISHED [google-cloud-metrics-agent_windows_amd64.exe] > TCP [::]:20201 [::]:0 LISTENING [google-cloud-metrics-agent_windows_amd64.exe]
Komponen Agen Logging: Untuk melihat proses mana yang menggunakan port 20202, gunakan perintah berikut:
netstat -na -b | Select-String "20202" -Context 0,1
Output berikut menunjukkan hasil yang diharapkan:
pengumpul log Ops Agent, fluent-bit.exe
, menggunakan port:
> TCP 0.0.0.0:20202 0.0.0.0:0 LISTENING [fluent-bit.exe] > TCP 127.0.0.1:20202 127.0.0.1:57535 TIME_WAIT > TCP 127.0.0.1:20202 127.0.0.1:57539 TIME_WAIT TCP 127.0.0.1:49807 127.0.0.1:49808 ESTABLISHED
Error ketersediaan port dapat dideteksi oleh health check yang dijalankan oleh Ops Agent.
Agen tidak memiliki izin API
Jika agen gagal dimulai atau gagal menyerap data, masalahnya mungkin karena komponen "Metrics Agent" atau "Logging agent" tidak memiliki izin yang diperlukan untuk mengakses API.
Akun layanan yang digunakan oleh Ops Agent memerlukan peran Identity and Access Management berikut:
- Untuk komponen "Logging Agent": Logs Writer (
roles/logging.logWriter
) - Untuk komponen "Metrics Agent": Monitoring Metric Writer (
roles/monitoring.metricWriter
).
Peran ini mencakup izin yang diperlukan untuk menulis data logging atau metrik dan harus diberikan ke akun layanan yang terkait dengan VM. Akun layanan yang Anda gunakan bergantung pada cara Anda mengonfigurasi VM dan memberikan otorisasi kepada agen. Anda mungkin menggunakan salah satu dari berikut ini:
- Akun layanan yang disertakan ke VM.
- Akun layanan yang menggunakan kunci pribadi.
Untuk mengidentifikasi akun layanan yang terkait dengan VM, lakukan hal berikut:
-
Di Konsol Google Cloud, buka halaman Instance VM:
Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Compute Engine.
Jika perlu, klik daftar drop-down project Google Cloud dan pilih nama project Anda.
Pilih tab Instance jika perlu.
Dalam daftar instance VM, klik nama VM untuk melihat halaman Details untuk VM.
Cari bagian API and identity management di halaman. Akun layanan tercantum sebagai nilai kolom Service account.
Untuk mengetahui informasi tentang cara menetapkan peran yang diberikan ke akun layanan, lihat Memverifikasi dan mengubah peran akun layanan yang ada.
Error izin API dapat dideteksi oleh health check yang dijalankan oleh Ops Agent.
Konfigurasi tidak valid
Jika konfigurasi tidak valid, Anda mungkin melihat error berikut saat mencoba memulai ulang layanan agen:
Linux
$ sudo service google-cloud-ops-agent restart \ && sudo service google-cloud-ops-agent status ● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent Loaded: loaded (/usr/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static; vendor preset: disabled) Drop-In: /usr/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service.d └─directories.conf Active: failed (Result: exit-code) since Wed 2021-06-30 22:21:08 UTC; 2s ago Process: 1141421 ExecStart=/opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config ${RUNTIME_DIRECTORY}/fluent_bit_main.conf --parser ${RUNTIME_DIRECTORY}/fluent_bit_parser.conf --log_> Process: 1141847 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fluentbit -in /etc/google-cloud-ops-agent/config.yaml -logs ${LOGS_DIRECTORY} -state ${STATE_DIR> Main PID: 1141421 (code=exited, status=0/SUCCESS) Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Control process exited, code=exited status=1 Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Failed with result 'exit-code'. Jun 30 22:21:08 centos8-2 systemd[1]: Failed to start Google Cloud Ops Agent - Logging Agent. Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Service RestartSec=100ms expired, scheduling restart. Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Scheduled restart job, restart counter is at 5. Jun 30 22:21:08 centos8-2 systemd[1]: Stopped Google Cloud Ops Agent - Logging Agent. Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Start request repeated too quickly. Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Failed with result 'exit-code'. Jun 30 22:21:08 centos8-2 systemd[1]: Failed to start Google Cloud Ops Agent - Logging Agent.
Gunakan journalctl
untuk mendapatkan pesan error yang tepat:
sudo journalctl -xe | grep "google_cloud_ops_agent_engine"
Anda mungkin melihat pesan yang mirip dengan yang berikut ini:
Jun 30 22:00:26 centos8-2 google_cloud_ops_agent_engine[1141491]: 2021/06/30 22:00:26 the agent config file is not valid YAML. detailed error: yaml: line 21: did not find expected key
Windows
failed to generate config files: can't parse configuration: yaml: line 20: could not find expected ':'
Untuk memperbaiki error, perbaiki konfigurasi yang tidak valid dan mulai ulang agen. Sebagai referensi, lihat panduan Mengonfigurasi Agen Operasional.
Error agen dan laporan menyebutkan NVIDIA
Anda mencoba menjalankan Agen Operasional di VM Compute Engine dengan GPU terpasang. Agen mengalami error, dan output menyebutkan NVIDIA.
Masalah ini sering terjadi pada Ops Agent versi 2.39.0 dan 2.40.0. Untuk menguranginya, instal Ops Agent versi 2.38.0 atau versi 2.41.0 atau yang lebih tinggi.Informasi status di Konsol Google Cloud salah
Konsol Google Cloud melaporkan informasi tentang status agen di VM Compute Engine di berbagai dasbor, misalnya, dasbor Instance VM di Cloud Monitoring. Jika informasi ini tidak cocok dengan yang Anda harapkan, penyebabnya mungkin hanya penundaan karena perubahan konfigurasi berfungsi melalui sistem. Namun, informasi yang tidak terduga juga dapat menunjukkan bahwa agen tidak berjalan seperti yang Anda harapkan.
Agen yang diinstal dilaporkan oleh konsol Google Cloud sebagai tidak terdeteksi
Agen harus berjalan dan menyerap data agar konsol Google Cloud dapat mengenali bahwa agen ada. Jika Anda telah menginstal agen, tetapi status konsol tetap "Tidak Terdeteksi", artinya agen tidak berjalan atau berjalan dan tidak menyerap data. Untuk informasi selengkapnya, lihat referensi berikut:
Agen yang dihapus dilaporkan oleh konsol Google Cloud sebagai terinstal
Setelah Anda meng-uninstal agen, konsol Google Cloud mungkin memerlukan waktu hingga satu jam untuk melaporkan perubahan ini.