Registros e métricas

Este documento descreve os registros e as métricas que a API conectada do Gemini no Google Distributed Cloud coleta e exporta.

Configurar a geração de registros e o monitoramento

Antes de começar a coletar registros e métricas, faça o seguinte:

  1. Ative as APIs de geração de registros usando os seguintes comandos:

    gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID
    gcloud services enable logging.googleapis.com --project PROJECT_ID
    gcloud services enable monitoring.googleapis.com --project PROJECT_ID
    

    Substitua PROJECT_ID pelo ID do projeto Google Cloud de destino.

  2. Conceda os papéis necessários para gravar registros e métricas:

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/opsconfigmonitoring.resourceMetadata.writer \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/logging.logWriter \
         --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/monitoring.metricWriter \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
    

    Substitua PROJECT_ID pelo ID do projeto Google Cloud de destino.

Registros

Esta seção lista os tipos de recursos do Cloud Logging compatíveis com a API conectada do Gemini no GDC. Para ver os registros da API conectada do Gemini no GDC, use o Explorador de registros no console do Google Cloud . O registro em log do Gemini na API conectada do GDC} está sempre ativado.

O tipo de recurso registrado da API conectada do Gemini no GDC é aiplatform.googleapis.com/Endpoint.

Também é possível capturar e recuperar registros conectados da API Gemini no GDC usando a API Cloud Logging. Para informações sobre como configurar esse mecanismo de registro em log, consulte a documentação das bibliotecas de cliente do Cloud Logging.

Métricas

Esta seção lista as métricas do Cloud Monitoring compatíveis com a API conectada do Gemini no GDC. Para conferir as métricas da API conectada do Gemini no GDC, use o Metrics Explorer no Google Cloud console.

Métricas do cluster do Distributed Cloud conectado

Os endpoints de API do Gemini no GDC connected são implantados em clusters conectados do Distributed Cloud. Consulte Registros e métricas para informações sobre registros e métricas do Distributed Cloud Connected.

Métricas do Inference Gateway

Nome da métrica do Prometheus Tipo de métrica Tipo de dados Rótulos Tipo de químico Chemist metric_kind Chemist value_type Rótulos de produtos químicos
ig_ops_successful_incoming_requests Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests CUMULATIVE INT64 modelo
ig_ops_unique_users Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users CUMULATIVE INT64 modelo
ig_tokens_per_minute Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min CUMULATIVE DISTRIBUTION modelo
ig_total_response_time Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time CUMULATIVE DISTRIBUTION modelo
ig_ops_ffmpeg_image_latency Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies CUMULATIVE DISTRIBUTION modelo
ig_ops_ffmpeg_video_latency Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies CUMULATIVE DISTRIBUTION modelo
ig_ops_ffmpeg_audio_latency Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies CUMULATIVE DISTRIBUTION modelo
ig_time_to_first_token Histograma double janela de contexto do modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft CUMULATIVE DISTRIBUTION janela de contexto do modelo
ig_time_per_output_token Histograma double janela de contexto do modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot CUMULATIVE DISTRIBUTION janela de contexto do modelo
ig_cache_hit Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count CUMULATIVE DISTRIBUTION model _gdch_project
ig_cache_miss Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count CUMULATIVE DISTRIBUTION model _gdch_project

Métricas do GenAI Router

Nome da métrica do Prometheus Tipo de métrica Tipo de dados Rótulos Tipo de químico Chemist metric_kind Chemist value_type Rótulos de produtos químicos
llm_total_request_latency_milliseconds Histograma double Modelo de janela de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies CUMULATIVE DISTRIBUTION Modelo de janela de contexto
llm_unary_request_latency_milliseconds Histograma double Modelo de janela de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies CUMULATIVE DISTRIBUTION Modelo de janela de contexto
llm_streaming_ttft_milliseconds Histograma double Modelo de janela de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms CUMULATIVE DISTRIBUTION Modelo de janela de contexto
llm_streaming_tpot_milliseconds Histograma double Modelo de janela de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms CUMULATIVE DISTRIBUTION Modelo de janela de contexto
llm_input_token_count Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count CUMULATIVE DISTRIBUTION modelo
llm_output_token_count Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count CUMULATIVE DISTRIBUTION modelo
llm_success_response_count Contador double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count CUMULATIVE INT64 modelo
llm_failure_response_count Contador double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count CUMULATIVE INT64 modelo
llm_text_tokenization_latency_milliseconds Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies CUMULATIVE DISTRIBUTION modelo
llm_image_tokenization_latency_milliseconds Histograma double aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies CUMULATIVE DISTRIBUTION
llm_audio_tokenization_latency_milliseconds Histograma double aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies CUMULATIVE DISTRIBUTION

Métricas da GPU

Nome da métrica do Prometheus Tipo de métrica Tipo de dados Rótulos Tipo de químico Chemist metric_kind Chemist value_type Rótulos de produtos químicos
DCGM_FI_DEV_MEM_COPY_UTIL Medidor int64 gpu UUID pci_bus_id device modelName Hostname DCGM_FI_DRIVER_VERSION aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util MEDIDOR INT64 uuid gpu_model
DCGM_FI_DEV_MEMORY_TEMP Medidor int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp MEDIDOR INT64 Igual ao acima
DCGM_FI_DEV_POWER_USAGE Medidor double Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage MEDIDOR DOUBLE Igual ao acima
DCGM_FI_DEV_GPU_TEMP Medidor double Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp MEDIDOR INT64 Igual ao acima
DCGM_FI_DEV_GPU_UTIL Medidor double Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util MEDIDOR INT64 Igual ao acima
DCGM_FI_DEV_ENC_UTIL Medidor int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util MEDIDOR INT64 Igual ao acima
DCGM_FI_DEV_XID_ERRORS Contador int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors CUMULATIVE INT64 Igual ao acima
DCGM_FI_DEV_POWER_VIOLATION Contador int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power CUMULATIVE INT64 Igual ao acima
DCGM_FI_DEV_THERMAL_VIOLATION Contador int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal CUMULATIVE INT64 Igual ao acima
DCGM_FI_DEV_SYNC_BOOST_VIOLATION Contador int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost CUMULATIVE INT64 Igual ao acima
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION Contador int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit CUMULATIVE INT64 Igual ao acima
DCGM_FI_DEV_LOW_UTIL_VIOLATION Contador int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util CUMULATIVE INT64 Igual ao acima
DCGM_FI_DEV_RELIABILITY_VIOLATION Contador int64 Igual ao acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability CUMULATIVE INT64 Igual ao acima