本文說明 Gemini on Google Distributed Cloud connected API 收集及匯出的記錄和指標。
設定記錄和監控功能
開始收集記錄和指標前,請務必完成下列步驟:
使用下列指令啟用 Logging API:
gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID gcloud services enable logging.googleapis.com --project PROJECT_ID gcloud services enable monitoring.googleapis.com --project PROJECT_ID
將
PROJECT_ID
替換為目標專案的 ID。 Google Cloud授予寫入記錄和指標所需的角色:
gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/opsconfigmonitoring.resourceMetadata.writer \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/logging.logWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/monitoring.metricWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
將
PROJECT_ID
替換為目標專案的 ID。 Google Cloud
記錄
本節列出 Gemini on GDC connected API 支援的 Cloud Logging 資源類型。如要查看 Gemini on GDC 連線 API 記錄,請使用 Google Cloud 主控台中的記錄檔探索工具。Gemini on GDC connected API} 記錄功能一律為啟用。
Gemini on GDC connected API 連線記錄的資源類型為 aiplatform.googleapis.com/Endpoint
。
您也可以使用 Cloud Logging API,擷取及擷取 Gemini on GDC 連線 API 連線記錄。如要瞭解如何設定這項記錄機制,請參閱 Cloud Logging 用戶端程式庫的說明文件。
指標
本節列出 Gemini on GDC connected API 支援的 Cloud Monitoring 指標。如要查看 Gemini on GDC 連線 API 指標,請使用Google Cloud 控制台中的 Metrics Explorer。
Distributed Cloud connected 叢集指標
Gemini on GDC connected API 端點會部署在 Distributed Cloud connected 叢集上。如要瞭解 Distributed Cloud connected 的記錄和指標,請參閱「記錄和指標」。
Inference Gateway 指標
Prometheus 指標名稱 | 指標類型 | 資料類型 | 標籤 | 化學家類型 | 化學家 metric_kind | 化學家 value_type | 化學家標籤 |
---|---|---|---|---|---|---|---|
ig_ops_successful_incoming_requests | 計數器 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests | 累計 | INT64 | 模型 | |
ig_ops_unique_users | 計數器 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users | 累計 | INT64 | 模型 | |
ig_tokens_per_minute | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min | 累計 | 分配 | 模型 |
ig_total_response_time | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time | 累計 | 分配 | 模型 |
ig_ops_ffmpeg_image_latency | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies | 累計 | 分配 | 模型 |
ig_ops_ffmpeg_video_latency | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies | 累計 | 分配 | 模型 |
ig_ops_ffmpeg_audio_latency | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies | 累計 | 分配 | 模型 |
ig_time_to_first_token | 直方圖 | 雙精度值 | 模型 context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft | 累計 | 分配 | 模型 context_window |
ig_time_per_output_token | 直方圖 | 雙精度值 | 模型 context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot | 累計 | 分配 | 模型 context_window |
ig_cache_hit | 計數器 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count | 累計 | 分配 | model _gdch_project | |
ig_cache_miss | 計數器 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count | 累計 | 分配 | model _gdch_project |
GenAI Router 指標
Prometheus 指標名稱 | 指標類型 | 資料類型 | 標籤 | 化學家類型 | 化學家 metric_kind | 化學家 value_type | 化學家標籤 |
---|---|---|---|---|---|---|---|
llm_total_request_latency_milliseconds | 直方圖 | 雙精度值 | context_window model | aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies | 累計 | 分配 | context_window model |
llm_unary_request_latency_milliseconds | 直方圖 | 雙精度值 | context_window model | aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies | 累計 | 分配 | context_window model |
llm_streaming_ttft_milliseconds | 直方圖 | 雙精度值 | context_window model | aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms | 累計 | 分配 | context_window model |
llm_streaming_tpot_milliseconds | 直方圖 | 雙精度值 | context_window model | aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms | 累計 | 分配 | context_window model |
llm_input_token_count | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count | 累計 | 分配 | 模型 |
llm_output_token_count | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count | 累計 | 分配 | 模型 |
llm_success_response_count | 計數器 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count | 累計 | INT64 | 模型 |
llm_failure_response_count | 計數器 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count | 累計 | INT64 | 模型 |
llm_text_tokenization_latency_milliseconds | 直方圖 | 雙精度值 | 模型 | aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies | 累計 | 分配 | 模型 |
llm_image_tokenization_latency_milliseconds | 直方圖 | 雙精度值 | aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies | 累計 | 分配 | ||
llm_audio_tokenization_latency_milliseconds | 直方圖 | 雙精度值 | aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies | 累計 | 分配 |
GPU 指標
Prometheus 指標名稱 | 指標類型 | 資料類型 | 標籤 | 化學家類型 | 化學家 metric_kind | 化學家 value_type | 化學家標籤 |
---|---|---|---|---|---|---|---|
DCGM_FI_DEV_MEM_COPY_UTIL | 度量圖 | int64 | GPU UUID pci_bus_id 裝置型號名稱 主機名稱 DCGM_FI_DRIVER_VERSION | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util | GAUGE | INT64 | uuid gpu_model |
DCGM_FI_DEV_MEMORY_TEMP | 度量圖 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp | GAUGE | INT64 | 同上 |
DCGM_FI_DEV_POWER_USAGE | 度量圖 | 雙精度值 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage | GAUGE | DOUBLE | 同上 |
DCGM_FI_DEV_GPU_TEMP | 度量圖 | 雙精度值 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp | GAUGE | INT64 | 同上 |
DCGM_FI_DEV_GPU_UTIL | 度量圖 | 雙精度值 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util | GAUGE | INT64 | 同上 |
DCGM_FI_DEV_ENC_UTIL | 度量圖 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util | GAUGE | INT64 | 同上 |
DCGM_FI_DEV_XID_ERRORS | 計數器 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors | 累計 | INT64 | 同上 |
DCGM_FI_DEV_POWER_VIOLATION | 計數器 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power | 累計 | INT64 | 同上 |
DCGM_FI_DEV_THERMAL_VIOLATION | 計數器 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal | 累計 | INT64 | 同上 |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | 計數器 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost | 累計 | INT64 | 同上 |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | 計數器 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit | 累計 | INT64 | 同上 |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | 計數器 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util | 累計 | INT64 | 同上 |
DCGM_FI_DEV_RELIABILITY_VIOLATION | 計數器 | int64 | 同上 | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability | 累計 | INT64 | 同上 |