Este documento descreve os registos e as métricas que a API Gemini on Google Distributed Cloud connected recolhe e exporta.
Configure o registo e a monitorização
Antes de poder começar a recolher registos e métricas, tem de fazer o seguinte:
Ative as APIs de registo através dos seguintes comandos:
gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID gcloud services enable logging.googleapis.com --project PROJECT_ID gcloud services enable monitoring.googleapis.com --project PROJECT_ID
Substitua
PROJECT_ID
pelo ID do projeto Google Cloud de destino.Conceda as funções necessárias para escrever registos e métricas:
gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/opsconfigmonitoring.resourceMetadata.writer \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/logging.logWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/monitoring.metricWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
Substitua
PROJECT_ID
pelo ID do projeto Google Cloud de destino.
Registos
Esta secção apresenta os tipos de recursos do Cloud Logging suportados pela API Gemini on GDC connected. Para ver os registos da API associada do GDC do Gemini, use o Explorador de registos na Google Cloud consola. O registo de {Gemini on GDC connected API} está sempre ativado.
O tipo de recurso registado da API Gemini on GDC associada é aiplatform.googleapis.com/Endpoint
.
Também pode capturar e obter registos ligados à API Gemini on GDC através da API Cloud Logging. Para obter informações sobre como configurar este mecanismo de registo, consulte a documentação das bibliotecas de cliente do Cloud Logging.
Métrica
Esta secção apresenta as métricas do Cloud Monitoring suportadas pela API Gemini on GDC connected. Para ver as métricas da API Gemini on GDC connected, use o Explorador de métricas na Google Cloud consola.
Métricas de cluster ligado do Distributed Cloud
Os pontos finais da API associados ao GDC do Gemini são implementados em clusters associados do Distributed Cloud. Consulte Registos e métricas para obter informações sobre registos e métricas para o Distributed Cloud connected.
Métricas do gateway de inferência
Nome da métrica do Prometheus | Tipo de métricas | Tipo de dados | Etiquetas | Tipo de químico | Chemist metric_kind | Chemist value_type | Etiquetas de farmácia |
---|---|---|---|---|---|---|---|
ig_ops_successful_incoming_requests | Contrapropor | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests | CUMULATIVE | INT64 | modelo | |
ig_ops_unique_users | Contrapropor | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users | CUMULATIVE | INT64 | modelo | |
ig_tokens_per_minute | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min | CUMULATIVE | DISTRIBUTION | modelo |
ig_total_response_time | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time | CUMULATIVE | DISTRIBUTION | modelo |
ig_ops_ffmpeg_image_latency | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies | CUMULATIVE | DISTRIBUTION | modelo |
ig_ops_ffmpeg_video_latency | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies | CUMULATIVE | DISTRIBUTION | modelo |
ig_ops_ffmpeg_audio_latency | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies | CUMULATIVE | DISTRIBUTION | modelo |
ig_time_to_first_token | Histograma | dupla | model context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft | CUMULATIVE | DISTRIBUTION | model context_window |
ig_time_per_output_token | Histograma | dupla | model context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot | CUMULATIVE | DISTRIBUTION | model context_window |
ig_cache_hit | Contrapropor | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count | CUMULATIVE | DISTRIBUTION | model _gdch_project | |
ig_cache_miss | Contrapropor | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count | CUMULATIVE | DISTRIBUTION | model _gdch_project |
Métricas do router de IA gen
Nome da métrica do Prometheus | Tipo de métricas | Tipo de dados | Etiquetas | Tipo de químico | Chemist metric_kind | Chemist value_type | Etiquetas de farmácia |
---|---|---|---|---|---|---|---|
llm_total_request_latency_milliseconds | Histograma | dupla | Modelo context_window | aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies | CUMULATIVE | DISTRIBUTION | Modelo context_window |
llm_unary_request_latency_milliseconds | Histograma | dupla | Modelo context_window | aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies | CUMULATIVE | DISTRIBUTION | Modelo context_window |
llm_streaming_ttft_milliseconds | Histograma | dupla | Modelo context_window | aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms | CUMULATIVE | DISTRIBUTION | Modelo context_window |
llm_streaming_tpot_milliseconds | Histograma | dupla | Modelo context_window | aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms | CUMULATIVE | DISTRIBUTION | Modelo context_window |
llm_input_token_count | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count | CUMULATIVE | DISTRIBUTION | modelo |
llm_output_token_count | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count | CUMULATIVE | DISTRIBUTION | modelo |
llm_success_response_count | Contrapropor | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count | CUMULATIVE | INT64 | modelo |
llm_failure_response_count | Contrapropor | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count | CUMULATIVE | INT64 | modelo |
llm_text_tokenization_latency_milliseconds | Histograma | dupla | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies | CUMULATIVE | DISTRIBUTION | modelo |
llm_image_tokenization_latency_milliseconds | Histograma | dupla | aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies | CUMULATIVE | DISTRIBUTION | ||
llm_audio_tokenization_latency_milliseconds | Histograma | dupla | aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies | CUMULATIVE | DISTRIBUTION |
Métricas de GPU
Nome da métrica do Prometheus | Tipo de métricas | Tipo de dados | Etiquetas | Tipo de químico | Chemist metric_kind | Chemist value_type | Etiquetas de farmácia |
---|---|---|---|---|---|---|---|
DCGM_FI_DEV_MEM_COPY_UTIL | Indicador | int64 | gpu UUID pci_bus_id device modelName Hostname DCGM_FI_DRIVER_VERSION | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util | GAUGE | INT64 | uuid gpu_model |
DCGM_FI_DEV_MEMORY_TEMP | Indicador | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp | GAUGE | INT64 | O mesmo que acima |
DCGM_FI_DEV_POWER_USAGE | Indicador | dupla | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage | GAUGE | DOUBLE | O mesmo que acima |
DCGM_FI_DEV_GPU_TEMP | Indicador | dupla | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp | GAUGE | INT64 | O mesmo que acima |
DCGM_FI_DEV_GPU_UTIL | Indicador | dupla | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util | GAUGE | INT64 | O mesmo que acima |
DCGM_FI_DEV_ENC_UTIL | Indicador | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util | GAUGE | INT64 | O mesmo que acima |
DCGM_FI_DEV_XID_ERRORS | Contrapropor | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors | CUMULATIVE | INT64 | O mesmo que acima |
DCGM_FI_DEV_POWER_VIOLATION | Contrapropor | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power | CUMULATIVE | INT64 | O mesmo que acima |
DCGM_FI_DEV_THERMAL_VIOLATION | Contrapropor | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal | CUMULATIVE | INT64 | O mesmo que acima |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Contrapropor | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost | CUMULATIVE | INT64 | O mesmo que acima |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Contrapropor | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit | CUMULATIVE | INT64 | O mesmo que acima |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Contrapropor | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util | CUMULATIVE | INT64 | O mesmo que acima |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Contrapropor | int64 | O mesmo que acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability | CUMULATIVE | INT64 | O mesmo que acima |