Memecahkan masalah penginstalan dan pengaktifan Agen Operasional

Dokumen ini memberikan informasi untuk membantu Anda mendiagnosis dan menyelesaikan masalah dalam penginstalan dan pengaktifan Agen Operasional. Jika agen berjalan, tetapi gagal menyerap log atau metrik, lihat Memecahkan masalah penyerapan data.

Sebelum memulai

Sebelum mencoba memperbaiki masalah, periksa status health check agen.

Agen gagal menginstal

Anda mungkin mengalami error berikut ini saat menjalankan skrip penginstalan.

Sistem operasi tidak didukung

Jika sistem operasi tidak didukung, penginstalan Agen Operasional akan gagal. Pesan error mungkin terlihat seperti berikut:

Linux

https://packages.cloud.google.com/yum/repos/google-cloud-ops-agent-el6-x86_64-all/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found"
Trying other mirror.
To address this issue please refer to the below wiki article

https://wiki.centos.org/yum-errors

If above article doesn't help to resolve this issue please use https://bugs.centos.org/.

Error: Cannot retrieve repository metadata (repomd.xml) for repository: google-cloud-ops-agent. Please verify its path and try again

Agen lama diinstal dan bertentangan dengan Agen Operasional

Jika VM sudah menginstal agen Cloud Logging atau agen Cloud Monitoring, keduanya akan bentrok dengan agen baru. Pesan error mungkin terlihat seperti berikut:

Linux

Error:
 Problem: problem with installed package stackdriver-agent-6.0.5-1.el8.x86_64 - package google-cloud-ops-agent-0.1.0-1.el8.x86_64 conflicts with stackdriver-agent provided by stackdriver-agent-6.0.5-1.el8.x86_64

Agen Operasional menggunakan file konfigurasi baru yang tidak kompatibel dengan agen lama. Untuk informasi selengkapnya, lihat panduan Mengonfigurasi Agen Operasional.

Untuk memperbaiki error ini, lakukan hal berikut:

  1. Simpan file konfigurasi kustom untuk agen Cloud Monitoring dan agen Cloud Logging.

  2. Uninstal agen Cloud Monitoring dan agen Cloud Logging lama.

    Setelah Anda meng-uninstal agen, konsol Google Cloud mungkin memerlukan waktu hingga satu jam untuk melaporkan perubahan ini.

Penginstalan Agen Operasional gagal setelah penginstalan agen Monitoring gagal

Penginstalan Agen Operasional gagal setelah upaya penginstalan agen Monitoring gagal. Pada sistem operasi Debian, pesan error saat Agen Operasional gagal menginstal akan mirip dengan pesan berikut:

Linux

...
E: The repository 'https://packages.cloud.google.com/apt google-cloud-monitoring-jammy-all Release' does not have a Release file.
...
Could not refresh the google-cloud-ops-agent apt repositories.

Jika Anda mencoba menginstal agen Monitoring pada sistem operasi yang tidak didukung oleh agen tersebut, penginstalan akan gagal. Kegagalan penginstalan terjadi setelah repositori agen Monitoring ditambahkan ke sistem. Menginstal Agen Operasional setelah penginstalan agen Monitoring yang gagal juga akan gagal karena repositori agen Monitoring yang tidak valid.

Tidak semua sistem operasi yang didukung oleh Agen Operasional juga didukung oleh agen Pemantauan. Untuk mengetahui informasi tentang sistem operasi yang didukung, lihat Agen Operasional: sistem operasi Linux dan Agen pemantauan: sistem operasi Linux.

Untuk menginstal Agen Operasional, lakukan hal berikut:

  1. Hapus repositori untuk agen Monitoring:

    Jika skrip add-monitoring-agent-repo.sh ada di sistem Anda, jalankan perintah berikut:

    sudo bash add-monitoring-agent-repo.sh --remove-repo
    

    Jika tidak, hapus repositori secara manual:

    Debian

    sudo rm /etc/apt/sources.list.d/google-cloud-monitoring.list

    RHEL

     sudo rm /etc/yum.repos.d/google-cloud-monitoring.repo

    Susu

    sudo rm /etc/zypp/repos.d/google-cloud-monitoring.repo

  2. Jalankan skrip penginstalan Agen Operasional.

Penginstalan Agen Operasional gagal karena pemuatan ulang repositori gagal

Penginstalan Agen Operasional gagal karena pemuatan ulang repositori yang diinstal gagal.

Linux

Untuk contoh pesan kegagalan untuk sistem operasi Debian, saat refresh repositori terjadi karena panggilan ke apt-get update, lihat entri pemecahan masalah Penginstalan Agen Operasional gagal setelah penginstalan agen Monitoring gagal.

Jika mengalami kegagalan saat memuat ulang repositori, Anda harus mengatasi kegagalan tersebut sebelum dapat menginstal Agen Operasional. Anda mungkin dapat menyelesaikan kegagalan ini dengan menghapus atau menonaktifkan repositori yang tidak diperlukan.

Setelah dapat me-refresh repositori, Anda dapat menginstal Agen Operasional dengan menjalankan skrip penginstalan Agen Operasional.

Agen diinstal tetapi tidak berjalan

Jika Anda telah menginstal agen, tetapi agen tidak berjalan, masalahnya mungkin salah satu dari hal berikut:

Layanan agen tidak berjalan

Saat layanan agen berjalan seperti yang diharapkan, Agen Metrik dan Agen Logging akan tercantum sebagai berjalan saat Anda membuat kueri status:

Untuk Linux

sudo systemctl status google-cloud-ops-agent"*"

Beberapa baris dalam output telah dihapus agar lebih singkat.

● google-cloud-ops-agent.service - Google Cloud Ops Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled)
     Active: active (exited) since Wed 2023-05-03 21:22:28 UTC; 4 weeks 0 days ago
    Process: 3353828 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -in /etc/go>
    Process: 3353837 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 3353837 (code=exited, status=0/SUCCESS)
        CPU: 195ms

[...]

● google-cloud-ops-agent-opentelemetry-collector.service - Google Cloud Ops Agent - Metrics Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-opentelemetry-collector.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353840 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=ot>
   Main PID: 3353855 (otelopscol)
      Tasks: 9 (limit: 2355)
     Memory: 65.3M
        CPU: 40min 31.555s
     CGroup: /system.slice/google-cloud-ops-agent-opentelemetry-collector.service
             └─3353855 /opt/google-cloud-ops-agent/subagents/opentelemetry-collector/otelopscol --config=/run/g>

[...]

● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353838 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fl>
   Main PID: 3353856 (google_cloud_op)
      Tasks: 31 (limit: 2355)
     Memory: 58.3M
        CPU: 29min 6.771s
     CGroup: /system.slice/google-cloud-ops-agent-fluent-bit.service
             ├─3353856 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_wrapper -config_path /etc/goo>
             └─3353872 /opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config /run/google-clo>

[...]

● google-cloud-ops-agent-diagnostics.service - Google Cloud Ops Agent - Diagnostics
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-diagnostics.service; disabled; vendor preset: e>
     Active: active (running) since Wed 2023-05-03 21:22:26 UTC; 4 weeks 0 days ago
   Main PID: 3353819 (google_cloud_op)
      Tasks: 8 (limit: 2355)
     Memory: 36.0M
        CPU: 3min 19.488s
     CGroup: /system.slice/google-cloud-ops-agent-diagnostics.service
             └─3353819 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_diagnostics -config /etc/goog>

[...]

Untuk Windows

Get-Service google-cloud-ops-agent*

Status   Name               DisplayName
------   ----               -----------
Running  google-cloud-op... Google Cloud Ops Agent
Running  google-cloud-op... Google Cloud Ops Agent - Logging Agent
Running  google-cloud-op... Google Cloud Ops Agent - Metrics Agent
Running  google-cloud-op... Google Cloud Ops Agent - Diagnostics

Jika layanan agen tidak berjalan, Anda mungkin melihat status berikut:

Linux

$ sudo service google-cloud-ops-agent status
● google-cloud-ops-agent.service - Google Cloud Ops Agent
   Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled)
   Active: inactive (dead) since Wed 2021-06-30 21:20:43 UTC; 6s ago

Windows

Get-Service google-cloud-ops-agent

Status   Name                    DisplayName
------   ----                    -----------
Stopped  google-cloud-ops-agent  Google Cloud Ops Agent

Untuk memperbaiki error ini, jalankan perintah berikut untuk memulai layanan:

Linux

sudo service google-cloud-ops-agent start

Windows

Start-Service google-cloud-ops-agent

Jika layanan gagal dimulai, konfigurasi mungkin tidak valid.

Konflik dengan agen yang saat ini terinstal

  • VM sudah menginstal agen Cloud Logging atau agen Cloud Monitoring, dan konfigurasinya bertentangan dengan konfigurasi agen baru. Pesan error mungkin terlihat seperti berikut:

    Windows

    We detected an existing Windows service for the StackdriverLogging agent,
    which is not compatible with the Ops Agent when the Ops Agent configuration
    has a non-empty logging section. Please either remove the logging section
    from the Ops Agent configuration, or disable the StackdriverLogging agent,
    and then retry enabling the Ops Agent.
    

    Untuk memperbaiki error ini, Anda memiliki dua opsi:

    1. Nonaktifkan bagian yang bertentangan pada file konfigurasi Agen Operasional. Untuk informasi selengkapnya, lihat panduan Mengonfigurasi Agen Operasional.

    2. Nonaktifkan agen Cloud Logging yang bertentangan atau agen Cloud Monitoring.

      1. Simpan semua file konfigurasi kustom untuk agen Cloud Logging.
      2. Uninstal agen Cloud Monitoring dan agen Cloud Logging lama.

      Setelah Anda meng-uninstal agen, konsol Google Cloud mungkin memerlukan waktu hingga satu jam untuk melaporkan perubahan ini.

Port yang diperlukan tidak tersedia

Agen Operasional atau salah satu komponennya dapat gagal memulai saat port yang dibutuhkan oleh komponen sedang digunakan oleh proses lain. Agen Operasional menggunakan port berikut:

  • Port 20201, untuk komponen "Agen Metrik"
  • Port 20202, untuk komponen "Agen Logging"

Jika proses selain komponen Agen Operasional menggunakan port 20201 atau port 20202, hentikan proses tersebut dan mulai ulang Agen Operasional. Gunakan langkah-langkah berikut untuk menentukan proses mana yang menggunakan port:

Linux

Komponen Agen Metrics: Untuk melihat proses mana yang menggunakan port 20201, gunakan perintah berikut:

sudo netstat -ns -p | grep '20201'

Output berikut menunjukkan hasil yang diharapkan: kolektor metrik Agen Operasional, otelopscol, menggunakan port:

tcp        0      0 127.0.0.1:50138         127.0.0.1:20201         ESTABLISHED 16850/otelopscol
tcp6       0      0 :::20201                :::*                    LISTEN      16850/otelopscol
tcp6       0      0 127.0.0.1:20201         127.0.0.1:50138         ESTABLISHED 16850/otelopscol

Komponen Agen Logging: Untuk melihat proses yang menggunakan port 20202, gunakan perintah berikut:

sudo netstat -ns -p | grep '20202'

Output berikut menunjukkan hasil yang diharapkan: pengumpul log Agen Operasional, fluent-bit, menggunakan port:

tcp        0      0 0.0.0.0:20202           0.0.0.0:*               LISTEN      16640/fluent-bit
tcp        0      0 127.0.0.1:20202         127.0.0.1:52998         TIME_WAIT   -

Windows

Komponen Agen Metrics: Untuk melihat proses mana yang menggunakan port 20201, gunakan perintah berikut:

netstat -na -b  | Select-String "20201" -Context 0,1

Output berikut menunjukkan hasil yang diharapkan: kolektor metrik Agen Operasional, google-cloud-metrics-agent_windows_amd64.exe, menggunakan port:

>   TCP    0.0.0.0:20201          0.0.0.0:0              LISTENING
   [google-cloud-metrics-agent_windows_amd64.exe]
>   TCP    127.0.0.1:20201        127.0.0.1:50090        ESTABLISHED
   [google-cloud-metrics-agent_windows_amd64.exe]
>   TCP    127.0.0.1:50090        127.0.0.1:20201        ESTABLISHED
   [google-cloud-metrics-agent_windows_amd64.exe]
>   TCP    [::]:20201             [::]:0                 LISTENING
   [google-cloud-metrics-agent_windows_amd64.exe]

Komponen Agen Logging: Untuk melihat proses yang menggunakan port 20202, gunakan perintah berikut:

netstat -na -b  | Select-String "20202" -Context 0,1

Output berikut menunjukkan hasil yang diharapkan: pengumpul log Agen Operasional, fluent-bit.exe, menggunakan port:

>   TCP    0.0.0.0:20202          0.0.0.0:0              LISTENING
   [fluent-bit.exe]
>   TCP    127.0.0.1:20202        127.0.0.1:57535        TIME_WAIT
>   TCP    127.0.0.1:20202        127.0.0.1:57539        TIME_WAIT
    TCP    127.0.0.1:49807        127.0.0.1:49808        ESTABLISHED

Error ketersediaan port dapat dideteksi oleh health check yang dijalankan oleh Agen Operasional.

Agen tidak memiliki izin API

Jika agen gagal memulai atau gagal menyerap data, masalahnya mungkin karena komponen "Agen Metrik" atau "Agen logging" tidak memiliki izin yang diperlukan untuk mengakses API.

Akun layanan yang digunakan oleh Agen Operasional memerlukan peran Identity and Access Management berikut:

Peran ini mencakup izin yang diperlukan untuk menulis data logging atau metrik, dan harus diberikan ke akun layanan yang terkait dengan VM. Akun layanan yang digunakan bergantung pada cara Anda mengonfigurasi VM dan memberikan otorisasi kepada agen. Anda mungkin menggunakan salah satu dari yang berikut:

Untuk mengidentifikasi akun layanan yang terkait dengan VM, lakukan hal berikut:

  1. Pada panel navigasi Konsol Google Cloud, pilih Compute Engine, lalu pilih VM instances:

    Buka instance VM

  2. Jika perlu, klik menu drop-down project Google Cloud dan pilih nama project Anda.

  3. Pilih tab Instances jika perlu.

  4. Dalam daftar instance VM, klik nama VM guna melihat halaman Details untuk VM tersebut.

  5. Cari bagian API and identity management di halaman tersebut. Akun layanan tercantum sebagai nilai kolom Service account.

Untuk mengetahui informasi tentang cara menetapkan peran yang diberikan ke akun layanan, lihat Memverifikasi dan mengubah peran akun layanan yang ada.

Error izin API dapat dideteksi oleh health check yang dijalankan oleh Agen Operasional.

Konfigurasi tidak valid

Jika konfigurasi tidak valid, Anda mungkin melihat error berikut saat mencoba memulai ulang layanan agen:

Linux

$ sudo service google-cloud-ops-agent restart \
    && sudo service google-cloud-ops-agent status
● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent
   Loaded: loaded (/usr/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static; vendor preset: disabled)
  Drop-In: /usr/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service.d
           └─directories.conf
   Active: failed (Result: exit-code) since Wed 2021-06-30 22:21:08 UTC; 2s ago
  Process: 1141421 ExecStart=/opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config ${RUNTIME_DIRECTORY}/fluent_bit_main.conf --parser ${RUNTIME_DIRECTORY}/fluent_bit_parser.conf --log_>
  Process: 1141847 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fluentbit -in /etc/google-cloud-ops-agent/config.yaml -logs ${LOGS_DIRECTORY} -state ${STATE_DIR>
 Main PID: 1141421 (code=exited, status=0/SUCCESS)

Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Control process exited, code=exited status=1
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Failed with result 'exit-code'.
Jun 30 22:21:08 centos8-2 systemd[1]: Failed to start Google Cloud Ops Agent - Logging Agent.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Service RestartSec=100ms expired, scheduling restart.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Scheduled restart job, restart counter is at 5.
Jun 30 22:21:08 centos8-2 systemd[1]: Stopped Google Cloud Ops Agent - Logging Agent.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Start request repeated too quickly.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Failed with result 'exit-code'.
Jun 30 22:21:08 centos8-2 systemd[1]: Failed to start Google Cloud Ops Agent - Logging Agent.

Gunakan journalctl untuk mendapatkan pesan error yang tepat:

sudo journalctl -xe | grep "google_cloud_ops_agent_engine"

Anda mungkin melihat pesan yang mirip dengan yang berikut ini:

Jun 30 22:00:26 centos8-2 google_cloud_ops_agent_engine[1141491]: 2021/06/30 22:00:26 the agent config file is not valid YAML. detailed error: yaml: line 21: did not find expected key

Windows

failed to generate config files: can't parse configuration: yaml: line 20: could not find expected ':'

Untuk memperbaiki error, perbaiki konfigurasi yang tidak valid dan mulai ulang agen. Untuk referensi, lihat panduan Mengonfigurasi Agen Operasional.

Agen mengalami error dan laporan menyebutkan NVIDIA

Anda mencoba menjalankan Agen Operasional di VM Compute Engine dengan GPU terpasang. Agen error, dan {i>output<i} menyebutkan NVIDIA.

Ini adalah masalah umum pada Agen Operasional versi 2.39.0 dan 2.40.0. Untuk melakukan mitigasi, instal Agen Operasional versi 2.38.0 atau versi 2.41.0 atau yang lebih baru.

Informasi status di konsol Google Cloud salah

Konsol Google Cloud melaporkan informasi tentang status agen pada VM Compute Engine di berbagai dasbor, misalnya, dasbor Instance VM di Cloud Monitoring. Jika informasi ini tidak sesuai dengan yang Anda harapkan, penyebabnya mungkin hanya penundaan karena perubahan konfigurasi bekerja sesuai dengan cara sistem berpikir. Tetapi informasi yang tidak terduga mungkin juga menunjukkan bahwa agen tidak berjalan seperti yang Anda harapkan.

Agen yang diinstal dilaporkan oleh Konsol Google Cloud sebagai tidak terdeteksi

Agen harus menjalankan dan menyerap data untuk konsol Google Cloud agar dapat mengenali adanya agen. Jika Anda telah menginstal agen, tetapi status konsolnya tetap "Not Detected", berarti agen tidak berjalan atau sedang berjalan dan tidak menyerap data. Untuk informasi selengkapnya, lihat referensi berikut:

Agen yang dihapus dilaporkan oleh konsol Google Cloud saat diinstal

Setelah Anda meng-uninstal agen, konsol Google Cloud mungkin memerlukan waktu hingga satu jam untuk melaporkan perubahan ini.