Esta página documenta a versão 16.8.0 do AlloyDB Omni usando a opção de implantação do Kubernetes. Escolha outra opção de implantação.

Esta página foi traduzida pela API Cloud Translation.

Resolver problemas do operador AlloyDB Omni no Kubernetes

Selecione uma versão da documentação:

Nesta página, mostramos como resolver problemas com o operador do AlloyDB Omni no Kubernetes.

Coletar informações de depuração

Estas seções descrevem como coletar registros e configurações para depuração.

Extrair registros de pods de operador

Para buscar registros dos pods do operador, execute os seguintes comandos:

kubectl logs deployments/fleet-controller-manager -c manager -n alloydb-omni-system > alloydb-omni-system-fleet-controller-manager.out
kubectl logs deployments/local-controller-manager -c manager -n alloydb-omni-system > alloydb-omni-system-local-controller-manager.out

Extrair registros do pod do banco de dados

Para buscar os registros do pod de banco de dados, execute os seguintes comandos:

DB_POD=$(kubectl get pod -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME,alloydbomni.internal.dbadmin.goog/task-type=database -n DB_CLUSTER_NAMESPACE -o jsonpath='{.items[0].metadata.name}')
kubectl logs -c database ${DB_POD} -n DB_CLUSTER_NAMESPACE > ${DB_POD}.log
kubectl logs -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -c database -n DB_CLUSTER_NAMESPACE > dbcluster_DB_CLUSTER_NAME.out

Os registros a seguir são exemplos de verificações de integridade bem-sucedidas do banco de dados:

I0813 11:01:49.210051      27 gateway.go:184] "DatabaseHealthCheck: request handled successfully" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:01:59.196796      27 gateway.go:166] "DatabaseHealthCheck: handling request" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:01:59.196853      27 database.go:702] "dbdaemon/isRestoreInProgress: starting" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:01:59.209824      27 gateway.go:184] "DatabaseHealthCheck: request handled successfully" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:02:09.197013      27 gateway.go:166] "DatabaseHealthCheck: handling request" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:02:09.197093      27 database.go:702] "dbdaemon/isRestoreInProgress: starting" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:02:09.210010      27 gateway.go:184] "DatabaseHealthCheck: request handled successfully" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:02:19.197368      27 gateway.go:166] "DatabaseHealthCheck: handling request" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:02:19.197425      27 database.go:702] "dbdaemon/isRestoreInProgress: starting" log_name="agent" project_ns="default" dbcluster="adb"
I0813 11:02:19.210416      27 gateway.go:184] "DatabaseHealthCheck: request handled successfully" log_name="agent" project_ns="default" dbcluster="adb"

Extrair o postgresql.log

Para buscar o postgresql.log, execute o seguinte comando:

DB_POD=$(kubectl get pod -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME,alloydbomni.internal.dbadmin.goog/task-type=database -n DB_CLUSTER_NAMESPACE -o jsonpath='{.items[0].metadata.name}')
kubectl exec -c database -n DB_CLUSTER_NAMESPACE -it ${DB_POD} -- cat /obs/diagnostic/postgresql.log > dbcluster_DB_CLUSTER_NAME_postgresql.log

Extrair o arquivo YAML DBInstance

Para buscar o arquivo YAML DBInstance, execute o seguinte comando:

kubectl get dbclusters.alloydbomni.dbadmin.goog DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o yaml > dbcluster_DB_CLUSTER_NAME.yaml

Buscar configurações e registros para cenários de alta disponibilidade

Para buscar configurações e registros específicos de cenários de alta disponibilidade (HA), execute os seguintes comandos:

kubectl get replicationconfig.alloydbomni.internal.dbadmin.goog -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o yaml > replicationconfig_DB_CLUSTER_NAME.yaml
kubectl get deletestandbyjobs.alloydbomni.internal.dbadmin.goog -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o yaml > deletestandbyjobs_DB_CLUSTER_NAME.yaml
kubectl get createstandbyjobs.alloydbomni.internal.dbadmin.goog -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o yaml > createstandbyjobs_DB_CLUSTER_NAME.yaml
kubectl get failovers.alloydbomni.dbadmin.goog -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o yaml > failovers_DB_CLUSTER_NAME.yaml

Buscar status do pod e do STS

Para buscar os status do pod e do StatefulSet (STS), execute os seguintes comandos:

DB_POD=$(kubectl get pod -n DB_CLUSTER_NAMESPACE -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME,alloydbomni.internal.dbadmin.goog/task-type=database -o jsonpath='{.items[0].metadata.name}')
kubectl describe pod ${DB_POD} -n DB_CLUSTER_NAMESPACE > pod_${DB_POD}.out
kubectl describe statefulset -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE > statefulset_DB_CLUSTER_NAME.out

Identificar erros

Essas seções descrevem como identificar erros.

Procurar status e códigos de erro

Para identificar o código de erro, verifique o arquivo YAML do DBCluster em "status". Consulte a documentação de códigos de erro para mais informações.

Para buscar o arquivo YAML do DBCluster, execute o seguinte comando:

kubectl get dbclusters.alloydbomni.dbadmin.goog DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o yaml > dbcluster_DB_CLUSTER_NAME.yaml

Procure por criticalIncidents. Esta seção contém o código do erro e um stack trace.

Confira alguns exemplos de criticalIncidents:

status:
    certificateReference:
      certificateKey: ca.crt
      secretRef:
        name: dbs-al-cert-dr-mce
        namespace: dr
    conditions:
    -   lastTransitionTime: "2024-10-07T22:46:03Z"
    ...
    criticalIncidents:
    -   code: DBSE0304
      createTime: "2024-10-03T11:50:54Z"
      message: 'Healthcheck: Health check invalid result.'
      resource:
        component: healthcheck
        location:
          group: alloydbomni.internal.dbadmin.goog
          kind: Instance
          name: bc0f-dr-mce
          namespace: dr
          version: v1
      stackTrace:
      -   component: healthcheck
        message: 'DBSE0304: Healthcheck: Health check invalid result. rpc error: code
          = Code(10304) desc = DBSE0304: Healthcheck: Health check invalid result.
          dbdaemon/healthCheck: invalid timestamp read back from the healthcheck table.
          Lag is 384837.296269 seconds, wanted 35 seconds'

Também é possível extrair campos específicos em formato JSON para conferir o status:

kubectl get dbclusters.alloydbomni.dbadmin.goog DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o jsonpath='{.status.criticalIncidents}' | jq

O resultado será assim:

[
  {
    "code": "DBSE0085",
    "createTime": "2024-03-14T05:41:37Z",
    "message": "Platform: Pod is unschedulable.",
    "resource": {
      "component": "provisioning",
      "location": {
        "group": "alloydb.internal.dbadmin.goog",
        "kind": "Instance",
        "name": "b55f-testdbcluster",
        "namespace": "dbs-system",
        "version": "v1"
      }
    },
    "stackTrace": [
      {
        "component": "provisioning",
        "message": "DBSE0085: Platform: Pod is unschedulable. 0/16 nodes are available: pod has unbound immediate PersistentVolumeClaims. preemption: 0/16 nodes are available: 16 No preemption victims found for incoming pod..: Pod is unschedulable"
      }
    ]
  }
]

Se a mensagem de erro se referir ao pod do banco de dados, verifique as instâncias e os recursos do pod no mesmo namespace:

kubectl get instances.alloydbomni.internal.dbadmin.goog -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o yaml > instance_DB_CLUSTER_NAME.yaml
kubectl get pods -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME,alloydbomni.internal.dbadmin.goog/task-type=database -n DB_CLUSTER_NAMESPACE

Depurar problemas de memória

Essas seções descrevem como depurar problemas de memória.

Executar e fazer um heapdump

Ative esse recurso apenas para resolver problemas. Não se esqueça de desligar depois.

Para fazer um heapdump, siga estas etapas:

Modifique a implantação do operador no namespace alloydb-omni-system com os nomes fleet-controller-manager e local-controller-manager.
Adicione o argumento a seguir ao pod --pprof-address=:8642 ou a qualquer outra porta disponível.
Aguarde a reinicialização do pod do controlador.

Encaminhe a porta anterior. Exemplo:

kubectl port-forward FLEET_CONTROLLER_MANAGER_POD_NAME -n alloydb-omni-system 8642:8642

Em outro terminal, execute go tool pprof http://localhost:8642/debug/pprof/heap. Mude a porta para corresponder à anterior se você não usar 8642.
Conecte-se ao endereço e execute comandos de solução de problemas. Por exemplo, top.
Depois de concluir a solução de problemas, desfaça a etapa 1 removendo o argumento e aguardando a reinicialização do pod.

Determinar o número de recursos que o operador está monitorando

Para entender os recursos em uso, execute os seguintes comandos:

kubectl get backuprepositories -A  | wc -l
kubectl get failovers -A  | wc -l
kubectl get instancebackupplans -A  | wc -l
kubectl get instancebackups -A  | wc -l
kubectl get instancerestores -A  | wc -l
kubectl get instances -A  | wc -l
kubectl get instanceswitchovers -A  | wc -l
kubectl get lrojobs -A  | wc -l
kubectl get replicationconfigs -A  | wc -l
kubectl get sidecars -A  | wc -l
kubectl get deployments -A  | wc -l
kubectl get statefulsets -A  | wc -l
kubectl get certificates.cert-manager.io -A  | wc -l
kubectl get issuers.cert-manager.io -A  | wc -l
kubectl get configmaps -A  | wc -l
kubectl get persistentvolumeclaims -A  | wc -l
kubectl get persistentvolumes -A  | wc -l
kubectl get pods -A  | wc -l
kubectl get secrets -A  | wc -l
kubectl get services -A  | wc -l
kubectl get storageclasses.storage.k8s.io -A  | wc -l

Por exemplo, se o número de secrets for alto, isso poderá causar um erro de falta de memória (OOM).

kubectl get secrets -A | wc -l

Depuração avançada de HA

Esta seção faz referência a recursos que são implementações internas. Elas estão sujeitas a mudanças a qualquer momento e não têm compromissos de compatibilidade com versões anteriores. Aplique correções manuais apenas a problemas em bancos de dados que não sejam de produção. Essas etapas podem tornar o banco de dados irrecuperável.

A configuração de alta disponibilidade do AlloyDB Omni tem três fases:

Configure o principal para receber uma conexão do modo de espera.
Inicialize o modo de espera e conecte-o ao primário.
Defina as configurações principais para tornar a conexão síncrona.

A etapa 2 geralmente é a mais lenta. Dependendo do tamanho do banco de dados, isso pode levar várias horas.

Cada instância de replicação precisa ter um replicationconfig anexado. Exemplo:

kubectl get replicationconfigs.alloydbomni.internal.dbadmin.goog -n DB_CLUSTER_NAMESPACE

Exemplo de saída:

NAME                 PARENT     TYPE       ROLE         READY   HEALTHY   SYNC_U   SYNC_D   SLOT_LOG   SLOT_REPLAY
cd58-adb--58ea-adb   cd58-adb   Physical   Upstream     True    True      true
ds-58ea-adb          58ea-adb   Physical   Downstream   True    True               true

A especificação da configuração de replicação indica as configurações pretendidas, enquanto o status reflete o estado real lido do banco de dados. Se houver uma incompatibilidade entre a especificação e o status, o controlador ainda vai tentar aplicar a mudança ou haverá algum erro que impeça a aplicação. Isso seria refletido nos campos de status.

Jobs em espera

Há dois conjuntos de jobs internos que rastreiam o fluxo de trabalho de um standby:

createstandbyjobs.alloydbomni.internal.dbadmin.goog
deletestandbyjobs.alloydbomni.internal.dbadmin.goog

Se a configuração parecer travada, confira os jobs relacionados ao cluster de banco de dados (DBC). O job pode ter mensagens de erro que explicam em qual estado a configuração está. Os jobs são limpos automaticamente algum tempo depois de serem concluídos. Por isso, talvez você não veja nenhum job se não houver nenhum em andamento.

kubectl get createstandbyjobs.alloydbomni.internal.dbadmin.goog -n DB_CLUSTER_NAMESPACE

O resultado será assim:

apiVersion: alloydbomni.dbadmin.gdc.goog/v1
  kind: CreateStandbyJob
  metadata:
    creationTimestamp: "2024-11-05T03:34:26Z"
    finalizers:
    -   createstandbyjob.dbadmin.goog/finalizer
    generation: 1804
    labels:
      dbs.internal.dbadmin.goog/dbc: foo-ha-alloydb1-clone1
    name: foo-ha-alloydb1-clone1--ac00-foo-ha-alloydb1-clone1--6036-foo-ha-alloydb1-clone1-1730777666
    namespace: db
    resourceVersion: "11819071"
    uid: 1f24cedf-b326-422f-9405-c96c8720cd90
  spec:
    attempt: 3
    cleanup: false
    currentStep: SetupSynchronous
    currentStepTime: "2024-11-05T03:45:31Z"
    metadata:
      dbc: foo-ha-alloydb1-clone1
      primaryInstance: ac00-foo-ha-alloydb1-clone1
      retryError: 'etcdserver: leader changed'
      standbyInstance: 6036-foo-ha-alloydb1-clone1
    requeueTime: "2024-11-05T18:33:03Z"
    startTime: "2024-11-05T03:36:56Z"

Verificação principal

Primeiro, verifique se o servidor principal está configurado corretamente. É necessário ter um perfil de replicação para cada standby. Se isSynchronous for verdadeiro na especificação e no status, a configuração estará concluída. Se isSynchronous for falso na especificação e no status, significa que ainda não chegou à etapa 3. Confira os jobs em espera para saber se há jobs em execução e se eles têm mensagens de erro.

  replication:
    profiles:
    -   isActive: true
      isSynchronous: true
      name: ha:4c82-dbcluster-sample::d85d-dbcluster-sample
      password:
        name: ha-rep-pw-dbcluster-sample
        namespace: default
      passwordResourceVersion: "896080"
      role: Upstream
      type: Physical
      username: alloydbreplica

Verifique se a anotação disableHealthcheck é falsa. Ele deve ser desativado apenas durante um failover ou uma alternância.

apiVersion: alloydbomni.internal.dbadmin.goog/v1
kind: Instance
metadata:
  annotations:
    dbs.internal.dbadmin.goog/consecutiveHealthcheckFailures: "0"
    dbs.internal.dbadmin.goog/disableHealthcheck: "false"
    dr-secondary: "false"
    forceReconcile: "1730414498"

Consultas

Para verificar se os recursos no pod do banco de dados estão configurados corretamente, faça login no banco de dados como o usuário administrador alloydbadmin. Em seguida, execute estas consultas:

Slot de replicação

\x on
select * from pg_replication_slots;

-[ RECORD 1 ]-------+---------------------------------------------
slot_name           | d85d_dbcluster_sample
plugin              |
slot_type           | physical
datoid              |
database            |
temporary           | f
active              | t
active_pid          | 250
xmin                | 16318
catalog_xmin        |
restart_lsn         | 0/CA657F0
confirmed_flush_lsn |
wal_status          | reserved
safe_wal_size       |
two_phase           | f

Um bom estado é a presença de um slot de replicação com o mesmo nome da instância em espera. A ausência de um slot de replicação indica que a primeira etapa de configuração não foi concluída.

Se active não for t (verdadeiro), isso significa que o dispositivo reserva não está se conectando por algum motivo (rede, configuração não concluída etc.), e a depuração provavelmente precisará continuar no dispositivo reserva.

Estatísticas de replicação

\x on
select * from pg_stat_replication;

-[ RECORD 1 ]----+----------------------------------------------------------------
pid              | 250
usesysid         | 16385
usename          | alloydbreplica
application_name | d85d_dbcluster_sample
client_addr      | 10.54.79.196
client_hostname  | gke-samwise-default-pool-afaf152d-8197.us-central1-a.c.foo
client_port      | 24914
backend_start    | 2024-10-30 21:44:26.408261+00
backend_xmin     |
state            | streaming
sent_lsn         | 0/CA64DA8
write_lsn        | 0/CA64DA8
flush_lsn        | 0/CA64DA8
replay_lsn       | 0/CA64DA8
write_lag        |
flush_lag        |
replay_lag       |
sync_priority    | 2
sync_state       | sync
reply_time       | 2024-11-04 22:08:04.370838+00

Se ele não existir, significa que não há uma conexão ativa. O sync_state precisa ser sync. Se não for sync, isso significa que a etapa final da configuração não foi concluída. Confira os registros / jobs para mais detalhes.

Verificação em espera

O standby precisa ter um perfil de replicação que corresponda ao mesmo perfil da instância principal:

  replication:
    profiles:
    -   host: 10.54.79.210
      isActive: true
      isSynchronous: true
      name: ha:4c82-dbcluster-sample::d85d-dbcluster-sample
      passwordResourceVersion: "896080"
      port: 5432
      role: Downstream
      type: Physical
      username: alloydbreplica

Se não houver conexão da espera para a principal, há duas possibilidades comuns:

O standby ainda está sendo configurado.
O standby está recebendo um erro ao configurar ou tentar se conectar.

Para verificar se a opção 1 está acontecendo, extraia os registros do pod do banco de dados e procure instruções de registro chamadas dbdaemon/setupPhysicalReplicationDownstream. Confira a seguir exemplos de registros de configuração bem-sucedida:

I1104 22:42:42.604871     103 replication.go:107] "dbdaemon/setupPhysicalReplicationDownstream: begin setup" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
2024-11-04 22:42:42,605 INFO waiting for postgres to stop
2024-11-04 22:42:43,566 INFO stopped: postgres (exit status 0)
I1104 22:42:43.567590     103 replication.go:131] "dbdaemon/setupPhysicalReplicationDownstream: about to call pg_basebackup" log_name="agent" project_ns="default" dbcluster="dbcluster-sample" cmd=["-h","10.54.79.210","-D","/mnt/disks/pgsql/pg_basebackup_data","-U","alloydbreplica","-v","-P","-p","5432","-w","-c","fast"]
I1104 22:42:44.206403     103 replication.go:139] "dbdaemon/setupPhysicalReplicationDownstream: pg_basebackup finished" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
I1104 22:42:44.206440     103 replication.go:141] "dbdaemon/setupPhysicalReplicationDownstream: replacing data directory with pg_basebackup data directory" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
I1104 22:42:44.244749     103 replication.go:148] "dbdaemon/setupPhysicalReplicationDownstream: replaced data directory with pg_basebackup data directory" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
I1104 22:42:44.244783     103 replication.go:150] "dbdaemon/setupPhysicalReplicationDownstream: Creating config files" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
I1104 22:42:44.251565     103 replication.go:155] "dbdaemon/setupPhysicalReplicationDownstream: removing postgresql config file for log archiving" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
I1104 22:42:44.251621     103 replication.go:160] "dbdaemon/setupPhysicalReplicationDownstream: removing postgresql auto config file" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
I1104 22:42:44.251689     103 replication.go:165] "dbdaemon/setupPhysicalReplicationDownstream: Successfully wrote to config file" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
2024-11-04 22:42:44,256 INFO spawned: 'postgres' with pid 271
2024-11-04 22:42:45,469 INFO success: postgres entered RUNNING state, process has stayed up for > than 1 seconds (startsecs)
I1104 22:42:45.469838     103 replication.go:174] "dbdaemon/setupPhysicalReplicationDownstream: backup replication configuration after changing replication config" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"
I1104 22:42:45.476732     103 replication.go:179] "dbdaemon/setupPhysicalReplicationDownstream: finished standby setup" log_name="agent" project_ns="default" dbcluster="dbcluster-sample"

Se houver um erro de conexão, verifique os registros do pod do banco de dados e o arquivo de registro no banco de dados em /obs/diagnostic/postgresql.log para saber qual é o erro ao tentar se conectar. Um erro comum é a falta de conectividade de rede entre o standby e o primário.

Correções manuais

A maneira mais fácil de corrigir problemas de HA é desativar e reativar o HA definindo numberOfStandbys como 0 e redefinindo para o número desejado. Se os standbys ficarem presos e desativados, siga estas etapas para redefinir manualmente a configuração de alta disponibilidade para ficar vazia:

Exclua manualmente as instâncias de espera.
Conecte-se ao banco de dados principal. Consulte os slots de replicação atuais e exclua os slots de replicação dos standbys que você quer excluir:
```
select pg_drop_replication_slot('REPLICATION_SLOT_NAME');
```
Exclua todos os perfis de replicação da instância principal que você quer excluir.

Se uma instância não tiver sido reconciliada recentemente, edite o valor da anotação forceReconcile. Defina como qualquer valor numérico, que é o carimbo de data/hora da última atualização da anotação. O único propósito dessa anotação é fornecer um campo que podemos atualizar para forçar uma nova conciliação.

apiVersion: alloydbomni.internal.dbadmin.goog/v1
kind: Instance
metadata:
  annotations:
    dbs.internal.dbadmin.goog/consecutiveHealthcheckFailures: "0"
    dbs.internal.dbadmin.goog/disableHealthcheck: "false"
    dr-secondary: "false"
    forceReconcile: "1730414498"

Coletar registros de auditoria e do mecanismo de banco de dados

Os registros do mecanismo de banco de dados e de auditoria estão disponíveis como arquivos no pod do banco de dados (exige acesso root):

obs/diagnostic/postgresql.log
obs/diagnostic/postgresql.audit

DB_POD=$(kubectl get pod -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME,alloydbomni.internal.dbadmin.goog/task-type=database -n DB_CLUSTER_NAMESPACE -o jsonpath='{.items[0].metadata.name}')
kubectl exec -c database -n DB_CLUSTER_NAMESPACE ${DB_POD} -it -- /bin/bash

Quando conectado ao contêiner do banco de dados:

ls -l /obs/diagnostic/

Exemplo de saída:

drwx--S--- 2 postgres postgres    4096 Aug 13 10:22 archive
-rw------- 1 postgres postgres  256050 Aug 13 13:25 postgresql.internal
-rw------- 1 postgres postgres 1594799 Aug 13 13:25 postgresql.log

Coletar métricas de banco de dados e pods de banco de dados

O operador do AlloyDB Omni fornece um conjunto de métricas básicas para o mecanismo do AlloyDB Omni e o pod que o hospeda. As métricas estão disponíveis como endpoints do Prometheus na porta 9187. Para acessar os endpoints, identifique o nome do pod do banco de dados usando o rótulo DBCluster e inicie o encaminhamento de portas da seguinte maneira:

DB_POD=$(kubectl get pod -l alloydbomni.internal.dbadmin.goog/dbcluster=DB_CLUSTER_NAME -n DB_CLUSTER_NAMESPACE -o jsonpath='{.items[0].metadata.name}')
kubectl port-forward -n DB_CLUSTER_NAMESPACE ${DB_POD} 9187:9187

Acessar métricas de pods de banco de dados

Em outro terminal:

curl http://localhost:9187/metrics | grep HELP

Para mais informações sobre monitoramento, consulte Monitorar o AlloyDB Omni.

Também é possível configurar o Prometheus para extrair as métricas no cluster do Kubernetes. Consulte a configuração de descoberta de serviço do Kubernetes do Prometheus para mais detalhes.