Este documento descreve os registros e as métricas que a API conectada do Gemini no Google Distributed Cloud coleta e exporta.
Configurar a geração de registros e o monitoramento
Antes de começar a coletar registros e métricas, faça o seguinte:
Ative as APIs de geração de registros usando os seguintes comandos:
gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID gcloud services enable logging.googleapis.com --project PROJECT_ID gcloud services enable monitoring.googleapis.com --project PROJECT_ID
Substitua
PROJECT_ID
pelo ID do projeto Google Cloud de destino.Conceda os papéis necessários para gravar registros e métricas:
gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/opsconfigmonitoring.resourceMetadata.writer \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/logging.logWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/monitoring.metricWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
Substitua
PROJECT_ID
pelo ID do projeto Google Cloud de destino.
Registros
Esta seção lista os tipos de recursos do Cloud Logging compatíveis com a API conectada do Gemini no GDC. Para ver os registros da API conectada do Gemini no GDC, use o Explorador de registros no console do Google Cloud . O registro em log do Gemini na API conectada do GDC} está sempre ativado.
O tipo de recurso registrado da API conectada do Gemini no GDC é aiplatform.googleapis.com/Endpoint
.
Também é possível capturar e recuperar registros conectados da API Gemini no GDC usando a API Cloud Logging. Para informações sobre como configurar esse mecanismo de registro em log, consulte a documentação das bibliotecas de cliente do Cloud Logging.
Métricas
Esta seção lista as métricas do Cloud Monitoring compatíveis com a API conectada do Gemini no GDC. Para conferir as métricas da API conectada do Gemini no GDC, use o Metrics Explorer no Google Cloud console.
Métricas do cluster do Distributed Cloud conectado
Os endpoints de API do Gemini no GDC connected são implantados em clusters conectados do Distributed Cloud. Consulte Registros e métricas para informações sobre registros e métricas do Distributed Cloud Connected.
Métricas do Inference Gateway
Nome da métrica do Prometheus | Tipo de métrica | Tipo de dados | Rótulos | Tipo de químico | Chemist metric_kind | Chemist value_type | Rótulos de produtos químicos |
---|---|---|---|---|---|---|---|
ig_ops_successful_incoming_requests | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests | CUMULATIVE | INT64 | modelo | |
ig_ops_unique_users | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users | CUMULATIVE | INT64 | modelo | |
ig_tokens_per_minute | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min | CUMULATIVE | DISTRIBUTION | modelo |
ig_total_response_time | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time | CUMULATIVE | DISTRIBUTION | modelo |
ig_ops_ffmpeg_image_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies | CUMULATIVE | DISTRIBUTION | modelo |
ig_ops_ffmpeg_video_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies | CUMULATIVE | DISTRIBUTION | modelo |
ig_ops_ffmpeg_audio_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies | CUMULATIVE | DISTRIBUTION | modelo |
ig_time_to_first_token | Histograma | double | janela de contexto do modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft | CUMULATIVE | DISTRIBUTION | janela de contexto do modelo |
ig_time_per_output_token | Histograma | double | janela de contexto do modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot | CUMULATIVE | DISTRIBUTION | janela de contexto do modelo |
ig_cache_hit | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count | CUMULATIVE | DISTRIBUTION | model _gdch_project | |
ig_cache_miss | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count | CUMULATIVE | DISTRIBUTION | model _gdch_project |
Métricas do GenAI Router
Nome da métrica do Prometheus | Tipo de métrica | Tipo de dados | Rótulos | Tipo de químico | Chemist metric_kind | Chemist value_type | Rótulos de produtos químicos |
---|---|---|---|---|---|---|---|
llm_total_request_latency_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
llm_unary_request_latency_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
llm_streaming_ttft_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
llm_streaming_tpot_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
llm_input_token_count | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count | CUMULATIVE | DISTRIBUTION | modelo |
llm_output_token_count | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count | CUMULATIVE | DISTRIBUTION | modelo |
llm_success_response_count | Contador | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count | CUMULATIVE | INT64 | modelo |
llm_failure_response_count | Contador | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count | CUMULATIVE | INT64 | modelo |
llm_text_tokenization_latency_milliseconds | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies | CUMULATIVE | DISTRIBUTION | modelo |
llm_image_tokenization_latency_milliseconds | Histograma | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies | CUMULATIVE | DISTRIBUTION | ||
llm_audio_tokenization_latency_milliseconds | Histograma | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies | CUMULATIVE | DISTRIBUTION |
Métricas da GPU
Nome da métrica do Prometheus | Tipo de métrica | Tipo de dados | Rótulos | Tipo de químico | Chemist metric_kind | Chemist value_type | Rótulos de produtos químicos |
---|---|---|---|---|---|---|---|
DCGM_FI_DEV_MEM_COPY_UTIL | Medidor | int64 | gpu UUID pci_bus_id device modelName Hostname DCGM_FI_DRIVER_VERSION | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util | MEDIDOR | INT64 | uuid gpu_model |
DCGM_FI_DEV_MEMORY_TEMP | Medidor | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp | MEDIDOR | INT64 | Igual ao acima |
DCGM_FI_DEV_POWER_USAGE | Medidor | double | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage | MEDIDOR | DOUBLE | Igual ao acima |
DCGM_FI_DEV_GPU_TEMP | Medidor | double | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp | MEDIDOR | INT64 | Igual ao acima |
DCGM_FI_DEV_GPU_UTIL | Medidor | double | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util | MEDIDOR | INT64 | Igual ao acima |
DCGM_FI_DEV_ENC_UTIL | Medidor | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util | MEDIDOR | INT64 | Igual ao acima |
DCGM_FI_DEV_XID_ERRORS | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors | CUMULATIVE | INT64 | Igual ao acima |
DCGM_FI_DEV_POWER_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power | CUMULATIVE | INT64 | Igual ao acima |
DCGM_FI_DEV_THERMAL_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal | CUMULATIVE | INT64 | Igual ao acima |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost | CUMULATIVE | INT64 | Igual ao acima |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit | CUMULATIVE | INT64 | Igual ao acima |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util | CUMULATIVE | INT64 | Igual ao acima |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability | CUMULATIVE | INT64 | Igual ao acima |