Este documento fornece informações para ajudar você a diagnosticar e resolver problemas na instalação e na inicialização do Agente de operações. Se o agente estiver em execução, mas não ingerir registros ou métricas, consulte Resolver problemas na ingestão de dados.
Antes de começar
Antes de tentar corrigir um problema, verifique o status das verificações de integridade do agente.
Falha na instalação do agente
É possível encontrar os seguintes erros ao executar o script de instalação.
O sistema operacional não é compatível
Quando o sistema operacional não é compatível, a instalação do Agente de operações falha. A mensagem de erro pode ser semelhante a esta:
Linux
https://packages.cloud.google.com/yum/repos/google-cloud-ops-agent-el6-x86_64-all/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found" Trying other mirror. To address this issue please refer to the below wiki article https://wiki.centos.org/yum-errors If above article doesn't help to resolve this issue please use https://bugs.centos.org/. Error: Cannot retrieve repository metadata (repomd.xml) for repository: google-cloud-ops-agent. Please verify its path and try again
Um agente legado está instalado e em conflito com o Agente de operações
Quando uma VM já tem o agente do Cloud Logging ou o agente do Cloud Monitoring instalado, eles entram em conflito com o novo agente. A mensagem de erro pode ser semelhante a esta:
Linux
Error: Problem: problem with installed package stackdriver-agent-6.0.5-1.el8.x86_64 - package google-cloud-ops-agent-0.1.0-1.el8.x86_64 conflicts with stackdriver-agent provided by stackdriver-agent-6.0.5-1.el8.x86_64
O Agente de operações usa novos arquivos de configuração que não são compatíveis com os agentes antigos. Para mais informações, consulte o guia Configurar o agente de operações.
Para resolver esse erro, faça o seguinte:
- Salve os arquivos de configuração personalizados do agente do Cloud Monitoring e do agente do Cloud Logging. 
- Desinstale o agente do Cloud Monitoring antigo e o agente do Cloud Logging. - Depois de desinstalar o agente, o console Google Cloud pode levar até uma hora para informar essa alteração. 
A instalação do Agente de operações falha após a instalação do agente do Monitoring falhar
A instalação do Agente de operações falha após uma tentativa de instalação do agente do Monitoring falhar. Quando a instalação do Agente de operações falha em um sistema operacional Debian, as mensagens de erro são semelhantes a estas:
Linux
... E: The repository 'https://packages.cloud.google.com/apt google-cloud-monitoring-jammy-all Release' does not have a Release file. ... Could not refresh the google-cloud-ops-agent apt repositories.
Quando você tenta instalar o agente do Monitoring em um sistema operacional incompatível com ele, a instalação falha. A falha na instalação ocorre depois que o repositório do agente do Monitoring é adicionado ao sistema. A instalação do Agente de operações após uma falha na instalação do agente do Monitoring também falha devido a um repositório inválido do agente do Monitoring.
Nem todos os sistemas operacionais compatíveis com o Agente de operações também são compatíveis com o agente do Monitoring. Para informações sobre sistemas operacionais compatíveis, consulte Agente de operações: sistemas operacionais Linux e Agente do Monitoring: sistemas operacionais Linux.
Para instalar o Agente de operações, realize as seguintes ações:
- Remova o repositório do agente do Monitoring: - Se o script - add-monitoring-agent-repo.shestiver no sistema, execute o seguinte comando:- sudo bash add-monitoring-agent-repo.sh --remove-repo - Caso contrário, remova o repositório manualmente: - Debian- sudo rm /etc/apt/sources.list.d/google-cloud-monitoring.list - RHEL- sudo rm /etc/yum.repos.d/google-cloud-monitoring.repo - Suse- sudo rm /etc/zypp/repos.d/google-cloud-monitoring.repo 
- Execute o script de instalação do Agente de operações. 
A instalação do Agente de operações falha porque a atualização do repositório falha
A instalação do Agente de operações falha porque a atualização dos repositórios instalados falha.
Linux
Para ver um exemplo da mensagem de falha em um sistema operacional Debian, em que a atualização do repositório ocorre devido a uma chamada para apt-get update, consulte a entrada da solução de problemas A instalação do Agente de operações falha após a instalação do agente do Monitoring falhar.
Se você encontrar falhas ao atualizar os repositórios, será preciso resolvê-las antes de instalar o Agente de operações. Talvez seja possível resolver essas falhas excluindo ou desativando repositórios que não são necessários.
Depois de atualizar os repositórios, execute o script de instalação do Agente de operações para instalá-lo.
A atualização do repositório falha porque a chave pública está indisponível
Linux
Uma atualização do repositório, devido a uma chamada para apt-get update, falha porque o
a chave pública não está disponível. Isso também pode ocorrer durante a instalação ou upgrade
do Agente de operações. A falha a seguir pode aparecer:
W: GPG error: http://packages.cloud.google.com/apt google-cloud-ops-agent-focal-all InRelease: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY C0BA5CE6DC6315A3
E: The repository 'http://packages.cloud.google.com/apt google-cloud-ops-agent-focal-all InRelease' is not signed.
Para corrigir esse erro, execute o seguinte comando para adicionar a chave ausente à sua sistema:
curl -fsSL https://packages.cloud.google.com/apt/doc/apt-key.gpg \
    | sudo gpg --dearmor -o /etc/apt/trusted.gpg.d/google-cloud-ops-agent.gpg
O agente está instalado, mas não está em execução
Se você instalou o agente, mas ele não está em execução, o problema pode ser um dos seguintes:
- Falha ao iniciar um dos principais componentes, "Agente de métricas" ou "Agente de geração de registros", consulte Serviços de agente não executados.
- Um dos agentes legados também está instalado na VM; consulte Conflito com agentes instalados no momento.
- Uma porta exigida por um dos componentes está em uso por outro processo. Consulte Porta indisponível.
- A configuração do agente de operações é inválida. consulte Configuração inválida.
Serviços de agente não estão em execução
Quando os serviços do agente estão sendo executados conforme o esperado, os agentes do Metrics e do Logging estão listados como em execução quando você consulta o status:
For Linux
sudo systemctl status google-cloud-ops-agent"*"
Algumas linhas na saída foram excluídas para simplificar.
● google-cloud-ops-agent.service - Google Cloud Ops Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled)
     Active: active (exited) since Wed 2023-05-03 21:22:28 UTC; 4 weeks 0 days ago
    Process: 3353828 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -in /etc/go>
    Process: 3353837 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 3353837 (code=exited, status=0/SUCCESS)
        CPU: 195ms
[...]
● google-cloud-ops-agent-opentelemetry-collector.service - Google Cloud Ops Agent - Metrics Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-opentelemetry-collector.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353840 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=ot>
   Main PID: 3353855 (otelopscol)
      Tasks: 9 (limit: 2355)
     Memory: 65.3M
        CPU: 40min 31.555s
     CGroup: /system.slice/google-cloud-ops-agent-opentelemetry-collector.service
             └─3353855 /opt/google-cloud-ops-agent/subagents/opentelemetry-collector/otelopscol --config=/run/g>
[...]
● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static)
     Active: active (running) since Wed 2023-05-03 21:22:29 UTC; 4 weeks 0 days ago
    Process: 3353838 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fl>
   Main PID: 3353856 (google_cloud_op)
      Tasks: 31 (limit: 2355)
     Memory: 58.3M
        CPU: 29min 6.771s
     CGroup: /system.slice/google-cloud-ops-agent-fluent-bit.service
             ├─3353856 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_wrapper -config_path /etc/goo>
             └─3353872 /opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config /run/google-clo>
[...]
● google-cloud-ops-agent-diagnostics.service - Google Cloud Ops Agent - Diagnostics
     Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent-diagnostics.service; disabled; vendor preset: e>
     Active: active (running) since Wed 2023-05-03 21:22:26 UTC; 4 weeks 0 days ago
   Main PID: 3353819 (google_cloud_op)
      Tasks: 8 (limit: 2355)
     Memory: 36.0M
        CPU: 3min 19.488s
     CGroup: /system.slice/google-cloud-ops-agent-diagnostics.service
             └─3353819 /opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_diagnostics -config /etc/goog>
[...]
For Windows
Get-Service google-cloud-ops-agent* Status Name DisplayName ------ ---- ----------- Running google-cloud-op... Google Cloud Ops Agent Running google-cloud-op... Google Cloud Ops Agent - Logging Agent Running google-cloud-op... Google Cloud Ops Agent - Metrics Agent Running google-cloud-op... Google Cloud Ops Agent - Diagnostics
Se o serviço do agente não estiver em execução, você verá o seguinte status:
Linux
$ sudo service google-cloud-ops-agent status ● google-cloud-ops-agent.service - Google Cloud Ops Agent Loaded: loaded (/lib/systemd/system/google-cloud-ops-agent.service; enabled; vendor preset: enabled) Active: inactive (dead) since Wed 2021-06-30 21:20:43 UTC; 6s ago
Windows
Get-Service google-cloud-ops-agent Status Name DisplayName ------ ---- ----------- Stopped google-cloud-ops-agent Google Cloud Ops Agent
Para corrigir esse erro, execute o seguinte comando para iniciar o serviço:
Linux
sudo service google-cloud-ops-agent start
Windows
Start-Service google-cloud-ops-agent
Se o serviço não for iniciado, a configuração poderá ser inválida.
Conflito com os agentes instalados atualmente
- A VM já tem o agente do Cloud Logging ou o agente do Cloud Monitoring instalado, e a configuração deles entra em conflito com as configurações do novo agente. A mensagem de erro pode ser semelhante a esta: - Windows - We detected an existing Windows service for the StackdriverLogging agent, which is not compatible with the Ops Agent when the Ops Agent configuration has a non-empty logging section. Please either remove the logging section from the Ops Agent configuration, or disable the StackdriverLogging agent, and then retry enabling the Ops Agent. - Para corrigir esse erro, você tem duas opções: - Desativar a seção conflitante do arquivo de configuração do agente de operações. Para mais informações, consulte o guia Configurar o agente de operações. 
- Desative o agente do Cloud Logging ou o agente do Cloud Monitoring conflitante. - Salve todos os arquivos de configuração personalizados para o agente do Cloud Logging.
- Desinstale o agente do Cloud Monitoring antigo e o agente do Cloud Logging.
 - Depois de desinstalar o agente, o console Google Cloud pode levar até uma hora para informar essa alteração. 
 
A porta necessária não está disponível
O Agente de operações ou um dos componentes dele pode não ser iniciado quando a porta necessária para o componente estiver sendo usada por outro processo. O agente de operações usa as seguintes portas:
- Porta 20201 para o componente "Agente de Métricas"
- Porta 20202 para o componente "agente do Logging"
Se outro processo que não seja um componente de agente de operações estiver usando a porta 20201 ou 20202, interrompa esse processo e reinicie o agente de operações. Siga estas etapas para determinar qual processo está usando as portas:
Linux
Componente do agente de métricas: para ver qual processo está usando a porta 20201, use o seguinte comando:
sudo netstat -ns -p | grep '20201'
A saída a seguir mostra o resultado esperado:
o coletor de métricas do agente de operações, otelopscol, está usando a porta:
tcp 0 0 127.0.0.1:50138 127.0.0.1:20201 ESTABLISHED 16850/otelopscol tcp6 0 0 :::20201 :::* LISTEN 16850/otelopscol tcp6 0 0 127.0.0.1:20201 127.0.0.1:50138 ESTABLISHED 16850/otelopscol
Componente do agente do Logging: para ver qual processo está usando a porta 20202, use o seguinte comando:
sudo netstat -ns -p | grep '20202'
A saída a seguir mostra o resultado esperado:
 o coletor de registros do Agente de operações, fluent-bit, está usando a porta:
tcp 0 0 0.0.0.0:20202 0.0.0.0:* LISTEN 16640/fluent-bit tcp 0 0 127.0.0.1:20202 127.0.0.1:52998 TIME_WAIT -
Windows
Componente do agente de métricas: para ver qual processo está usando a porta 20201, use o seguinte comando:
netstat -na -b | Select-String "20201" -Context 0,1
A saída a seguir mostra o resultado esperado: o coletor de métricas do
agente de operações, google-cloud-metrics-agent_windows_amd64.exe, está usando a porta:
> TCP 0.0.0.0:20201 0.0.0.0:0 LISTENING [google-cloud-metrics-agent_windows_amd64.exe] > TCP 127.0.0.1:20201 127.0.0.1:50090 ESTABLISHED [google-cloud-metrics-agent_windows_amd64.exe] > TCP 127.0.0.1:50090 127.0.0.1:20201 ESTABLISHED [google-cloud-metrics-agent_windows_amd64.exe] > TCP [::]:20201 [::]:0 LISTENING [google-cloud-metrics-agent_windows_amd64.exe]
Componente do agente do Logging: para ver qual processo está usando a porta 20202, use o seguinte comando:
netstat -na -b | Select-String "20202" -Context 0,1
A saída a seguir mostra o resultado esperado:
o coletor de registros do agente de operações, fluent-bit.exe, está usando a porta:
>   TCP    0.0.0.0:20202          0.0.0.0:0              LISTENING
   [fluent-bit.exe]
>   TCP    127.0.0.1:20202        127.0.0.1:57535        TIME_WAIT
>   TCP    127.0.0.1:20202        127.0.0.1:57539        TIME_WAIT
    TCP    127.0.0.1:49807        127.0.0.1:49808        ESTABLISHED
Os erros de disponibilidade de porta podem ser detectados pelas verificações de integridade executadas pelo agente de operações.
O agente não tem permissões de API
Se o agente não iniciar ou não ingerir dados, o problema pode ser que o componente "Agente de métricas" ou "Agente do Logging" não tenha a permissão necessária para acessar a API.
A conta de serviço usada pelo agente de operações requer os seguintes papéis do Identity and Access Management:
- Para o componente "Agente do Logging": Gravador de registros (roles/logging.logWriter)
- Para o componente "Agente de métricas": Gravador de métricas do Monitoring (roles/monitoring.metricWriter).
Esses papéis incluem as permissões necessárias para gravar dados de métrica ou geração de registros e precisam ser concedidos à conta de serviço associada à VM. A conta de serviço usada depende de como você configurou a VM e autorizou o agente. Talvez você esteja usando uma das seguintes opções:
- Uma conta de serviço anexada à VM.
- Uma conta de serviço que use uma chave privada.
Para identificar a conta de serviço associada a uma VM, faça o seguinte:
- 
No Google Cloud console, acesse a página Instâncias de VM: Se você usar a barra de pesquisa para encontrar a página, selecione o resultado com o subtítulo Compute Engine. 
- Se necessário, clique na lista suspensa de projetos Google Cloud e selecione o nome do seu projeto. 
- Selecione a guia Instâncias, se necessário. 
- Na lista de instâncias de VM, clique no nome da VM para ver a página Detalhes dela. 
- Localize a seção API and Identity management da página. A conta de serviço é listada como o valor do campo Conta de serviço. 
Para informações sobre como definir os papéis concedidos à conta de serviço, consulte Verificar e modificar papéis de uma conta de serviço atual.
Erros de permissão de API podem ser detectados pelas verificações de integridade executadas pelo agente de operações.
Configuração inválida
Se a configuração for inválida, talvez você verá o seguinte erro ao tentar reiniciar o serviço do agente:
Linux
$ sudo service google-cloud-ops-agent restart \
    && sudo service google-cloud-ops-agent status
● google-cloud-ops-agent-fluent-bit.service - Google Cloud Ops Agent - Logging Agent
   Loaded: loaded (/usr/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service; static; vendor preset: disabled)
  Drop-In: /usr/lib/systemd/system/google-cloud-ops-agent-fluent-bit.service.d
           └─directories.conf
   Active: failed (Result: exit-code) since Wed 2021-06-30 22:21:08 UTC; 2s ago
  Process: 1141421 ExecStart=/opt/google-cloud-ops-agent/subagents/fluent-bit/bin/fluent-bit --config ${RUNTIME_DIRECTORY}/fluent_bit_main.conf --parser ${RUNTIME_DIRECTORY}/fluent_bit_parser.conf --log_>
  Process: 1141847 ExecStartPre=/opt/google-cloud-ops-agent/libexec/google_cloud_ops_agent_engine -service=fluentbit -in /etc/google-cloud-ops-agent/config.yaml -logs ${LOGS_DIRECTORY} -state ${STATE_DIR>
 Main PID: 1141421 (code=exited, status=0/SUCCESS)
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Control process exited, code=exited status=1
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Failed with result 'exit-code'.
Jun 30 22:21:08 centos8-2 systemd[1]: Failed to start Google Cloud Ops Agent - Logging Agent.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Service RestartSec=100ms expired, scheduling restart.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Scheduled restart job, restart counter is at 5.
Jun 30 22:21:08 centos8-2 systemd[1]: Stopped Google Cloud Ops Agent - Logging Agent.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Start request repeated too quickly.
Jun 30 22:21:08 centos8-2 systemd[1]: google-cloud-ops-agent-fluent-bit.service: Failed with result 'exit-code'.
Jun 30 22:21:08 centos8-2 systemd[1]: Failed to start Google Cloud Ops Agent - Logging Agent.
Use journalctl para receber a mensagem de erro exata:
sudo journalctl -xe | grep "google_cloud_ops_agent_engine"
Você verá uma mensagem semelhante a esta:
Jun 30 22:00:26 centos8-2 google_cloud_ops_agent_engine[1141491]: 2021/06/30 22:00:26 the agent config file is not valid YAML. detailed error: yaml: line 21: did not find expected key
Windows
failed to generate config files: can't parse configuration: yaml: line 20: could not find expected ':'
Para corrigir o erro, corrija a configuração inválida e reinicie o agente. Para referência, consulte o guia Configurar o agente de operações.
O agente falha e o relatório menciona a NVIDIA
Você está tentando executar o Agente de operações em uma VM do Compute Engine com GPUs anexadas. O agente falha, e a saída menciona a NVIDIA.
Esse é um problema conhecido com as versões 2.39.0 e 2.40.0 do Agente de operações. Para atenuar, instale a versão 2.38.0 ou mais recente do Agente de operações.As informações de status no console Google Cloud estão erradas
O Google Cloud console informa o status dos agentes nas VMs do Compute Engine em vários painéis, como o painel Instâncias de VM no Cloud Monitoring. Se essas informações não corresponderem ao que você espera, a causa pode ser apenas um atraso, já que as mudanças de configuração funcionam da maneira que o sistema pensa. No entanto, informações inesperadas também podem indicar que o agente não está sendo executado como esperado.
Agente instalado informado pelo Google Cloud console como não detectado
O agente precisa executar e ingerir dados para o console do Google Cloud reconhecer que o agente está presente. Se você instalou o agente, mas o status do console permanece "Não detectado", ele está em execução ou não processando dados. Para ver mais informações, consulte os seguintes tópicos:
- O agente está instalado, mas não está em execução.
- O agente está em execução, mas os dados não foram ingeridos.
Agente removido informado pelo console do Google Cloud como instalado
Depois de desinstalar o agente, o console Google Cloud pode levar até uma hora para informar essa alteração.