Registos e métricas

Este documento descreve os registos e as métricas que a API Gemini on Google Distributed Cloud connected recolhe e exporta.

Configure o registo e a monitorização

Antes de poder começar a recolher registos e métricas, tem de fazer o seguinte:

  1. Ative as APIs de registo através dos seguintes comandos:

    gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID
    gcloud services enable logging.googleapis.com --project PROJECT_ID
    gcloud services enable monitoring.googleapis.com --project PROJECT_ID
    

    Substitua PROJECT_ID pelo ID do projeto Google Cloud de destino.

  2. Conceda as funções necessárias para escrever registos e métricas:

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/opsconfigmonitoring.resourceMetadata.writer \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/logging.logWriter \
         --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/monitoring.metricWriter \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
    

    Substitua PROJECT_ID pelo ID do projeto Google Cloud de destino.

Registos

Esta secção apresenta os tipos de recursos do Cloud Logging suportados pela API Gemini on GDC connected. Para ver os registos da API associada do GDC do Gemini, use o Explorador de registos na Google Cloud consola. O registo de {Gemini on GDC connected API} está sempre ativado.

O tipo de recurso registado da API Gemini on GDC associada é aiplatform.googleapis.com/Endpoint.

Também pode capturar e obter registos ligados à API Gemini on GDC através da API Cloud Logging. Para obter informações sobre como configurar este mecanismo de registo, consulte a documentação das bibliotecas de cliente do Cloud Logging.

Métrica

Esta secção apresenta as métricas do Cloud Monitoring suportadas pela API Gemini on GDC connected. Para ver as métricas da API Gemini on GDC connected, use o Explorador de métricas na Google Cloud consola.

Métricas de cluster ligado do Distributed Cloud

Os pontos finais da API associados ao GDC do Gemini são implementados em clusters associados do Distributed Cloud. Consulte Registos e métricas para obter informações sobre registos e métricas para o Distributed Cloud connected.

Métricas do gateway de inferência

Nome da métrica do Prometheus Tipo de métricas Tipo de dados Etiquetas Tipo de químico Chemist metric_kind Chemist value_type Etiquetas de farmácia
ig_ops_successful_incoming_requests Contrapropor modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests CUMULATIVE INT64 modelo
ig_ops_unique_users Contrapropor modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users CUMULATIVE INT64 modelo
ig_tokens_per_minute Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min CUMULATIVE DISTRIBUTION modelo
ig_total_response_time Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time CUMULATIVE DISTRIBUTION modelo
ig_ops_ffmpeg_image_latency Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies CUMULATIVE DISTRIBUTION modelo
ig_ops_ffmpeg_video_latency Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies CUMULATIVE DISTRIBUTION modelo
ig_ops_ffmpeg_audio_latency Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies CUMULATIVE DISTRIBUTION modelo
ig_time_to_first_token Histograma dupla model context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft CUMULATIVE DISTRIBUTION model context_window
ig_time_per_output_token Histograma dupla model context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot CUMULATIVE DISTRIBUTION model context_window
ig_cache_hit Contrapropor modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count CUMULATIVE DISTRIBUTION model _gdch_project
ig_cache_miss Contrapropor modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count CUMULATIVE DISTRIBUTION model _gdch_project

Métricas do router de IA gen

Nome da métrica do Prometheus Tipo de métricas Tipo de dados Etiquetas Tipo de químico Chemist metric_kind Chemist value_type Etiquetas de farmácia
llm_total_request_latency_milliseconds Histograma dupla Modelo context_window aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies CUMULATIVE DISTRIBUTION Modelo context_window
llm_unary_request_latency_milliseconds Histograma dupla Modelo context_window aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies CUMULATIVE DISTRIBUTION Modelo context_window
llm_streaming_ttft_milliseconds Histograma dupla Modelo context_window aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms CUMULATIVE DISTRIBUTION Modelo context_window
llm_streaming_tpot_milliseconds Histograma dupla Modelo context_window aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms CUMULATIVE DISTRIBUTION Modelo context_window
llm_input_token_count Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count CUMULATIVE DISTRIBUTION modelo
llm_output_token_count Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count CUMULATIVE DISTRIBUTION modelo
llm_success_response_count Contrapropor dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count CUMULATIVE INT64 modelo
llm_failure_response_count Contrapropor dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count CUMULATIVE INT64 modelo
llm_text_tokenization_latency_milliseconds Histograma dupla modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies CUMULATIVE DISTRIBUTION modelo
llm_image_tokenization_latency_milliseconds Histograma dupla aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies CUMULATIVE DISTRIBUTION
llm_audio_tokenization_latency_milliseconds Histograma dupla aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies CUMULATIVE DISTRIBUTION

Métricas de GPU

Nome da métrica do Prometheus Tipo de métricas Tipo de dados Etiquetas Tipo de químico Chemist metric_kind Chemist value_type Etiquetas de farmácia
DCGM_FI_DEV_MEM_COPY_UTIL Indicador int64 gpu UUID pci_bus_id device modelName Hostname DCGM_FI_DRIVER_VERSION aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util GAUGE INT64 uuid gpu_model
DCGM_FI_DEV_MEMORY_TEMP Indicador int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp GAUGE INT64 O mesmo que acima
DCGM_FI_DEV_POWER_USAGE Indicador dupla O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage GAUGE DOUBLE O mesmo que acima
DCGM_FI_DEV_GPU_TEMP Indicador dupla O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp GAUGE INT64 O mesmo que acima
DCGM_FI_DEV_GPU_UTIL Indicador dupla O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util GAUGE INT64 O mesmo que acima
DCGM_FI_DEV_ENC_UTIL Indicador int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util GAUGE INT64 O mesmo que acima
DCGM_FI_DEV_XID_ERRORS Contrapropor int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors CUMULATIVE INT64 O mesmo que acima
DCGM_FI_DEV_POWER_VIOLATION Contrapropor int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power CUMULATIVE INT64 O mesmo que acima
DCGM_FI_DEV_THERMAL_VIOLATION Contrapropor int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal CUMULATIVE INT64 O mesmo que acima
DCGM_FI_DEV_SYNC_BOOST_VIOLATION Contrapropor int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost CUMULATIVE INT64 O mesmo que acima
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION Contrapropor int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit CUMULATIVE INT64 O mesmo que acima
DCGM_FI_DEV_LOW_UTIL_VIOLATION Contrapropor int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util CUMULATIVE INT64 O mesmo que acima
DCGM_FI_DEV_RELIABILITY_VIOLATION Contrapropor int64 O mesmo que acima aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability CUMULATIVE INT64 O mesmo que acima