記錄檔和指標

本文說明 Gemini on Google Distributed Cloud connected API 收集及匯出的記錄和指標。

設定記錄和監控功能

開始收集記錄和指標前,請務必完成下列步驟:

  1. 使用下列指令啟用 Logging API:

    gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID
    gcloud services enable logging.googleapis.com --project PROJECT_ID
    gcloud services enable monitoring.googleapis.com --project PROJECT_ID
    

    PROJECT_ID 替換為目標專案的 ID。 Google Cloud

  2. 授予寫入記錄和指標所需的角色:

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/opsconfigmonitoring.resourceMetadata.writer \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/logging.logWriter \
         --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/monitoring.metricWriter \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
    

    PROJECT_ID 替換為目標專案的 ID。 Google Cloud

記錄

本節列出 Gemini on GDC connected API 支援的 Cloud Logging 資源類型。如要查看 Gemini on GDC 連線 API 記錄,請使用 Google Cloud 主控台中的記錄檔探索工具。Gemini on GDC connected API} 記錄功能一律為啟用。

Gemini on GDC connected API 連線記錄的資源類型為 aiplatform.googleapis.com/Endpoint

您也可以使用 Cloud Logging API,擷取及擷取 Gemini on GDC 連線 API 連線記錄。如要瞭解如何設定這項記錄機制,請參閱 Cloud Logging 用戶端程式庫的說明文件。

指標

本節列出 Gemini on GDC connected API 支援的 Cloud Monitoring 指標。如要查看 Gemini on GDC 連線 API 指標,請使用Google Cloud 控制台中的 Metrics Explorer

Distributed Cloud connected 叢集指標

Gemini on GDC connected API 端點會部署在 Distributed Cloud connected 叢集上。如要瞭解 Distributed Cloud connected 的記錄和指標,請參閱「記錄和指標」。

Inference Gateway 指標

Prometheus 指標名稱 指標類型 資料類型 標籤 化學家類型 化學家 metric_kind 化學家 value_type 化學家標籤
ig_ops_successful_incoming_requests 計數器 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests 累計 INT64 模型
ig_ops_unique_users 計數器 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users 累計 INT64 模型
ig_tokens_per_minute 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min 累計 分配 模型
ig_total_response_time 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time 累計 分配 模型
ig_ops_ffmpeg_image_latency 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies 累計 分配 模型
ig_ops_ffmpeg_video_latency 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies 累計 分配 模型
ig_ops_ffmpeg_audio_latency 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies 累計 分配 模型
ig_time_to_first_token 直方圖 雙精度值 模型 context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft 累計 分配 模型 context_window
ig_time_per_output_token 直方圖 雙精度值 模型 context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot 累計 分配 模型 context_window
ig_cache_hit 計數器 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count 累計 分配 model _gdch_project
ig_cache_miss 計數器 模型 aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count 累計 分配 model _gdch_project

GenAI Router 指標

Prometheus 指標名稱 指標類型 資料類型 標籤 化學家類型 化學家 metric_kind 化學家 value_type 化學家標籤
llm_total_request_latency_milliseconds 直方圖 雙精度值 context_window model aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies 累計 分配 context_window model
llm_unary_request_latency_milliseconds 直方圖 雙精度值 context_window model aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies 累計 分配 context_window model
llm_streaming_ttft_milliseconds 直方圖 雙精度值 context_window model aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms 累計 分配 context_window model
llm_streaming_tpot_milliseconds 直方圖 雙精度值 context_window model aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms 累計 分配 context_window model
llm_input_token_count 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count 累計 分配 模型
llm_output_token_count 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count 累計 分配 模型
llm_success_response_count 計數器 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count 累計 INT64 模型
llm_failure_response_count 計數器 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count 累計 INT64 模型
llm_text_tokenization_latency_milliseconds 直方圖 雙精度值 模型 aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies 累計 分配 模型
llm_image_tokenization_latency_milliseconds 直方圖 雙精度值 aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies 累計 分配
llm_audio_tokenization_latency_milliseconds 直方圖 雙精度值 aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies 累計 分配

GPU 指標

Prometheus 指標名稱 指標類型 資料類型 標籤 化學家類型 化學家 metric_kind 化學家 value_type 化學家標籤
DCGM_FI_DEV_MEM_COPY_UTIL 度量圖 int64 GPU UUID pci_bus_id 裝置型號名稱 主機名稱 DCGM_FI_DRIVER_VERSION aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util GAUGE INT64 uuid gpu_model
DCGM_FI_DEV_MEMORY_TEMP 度量圖 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp GAUGE INT64 同上
DCGM_FI_DEV_POWER_USAGE 度量圖 雙精度值 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage GAUGE DOUBLE 同上
DCGM_FI_DEV_GPU_TEMP 度量圖 雙精度值 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp GAUGE INT64 同上
DCGM_FI_DEV_GPU_UTIL 度量圖 雙精度值 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util GAUGE INT64 同上
DCGM_FI_DEV_ENC_UTIL 度量圖 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util GAUGE INT64 同上
DCGM_FI_DEV_XID_ERRORS 計數器 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors 累計 INT64 同上
DCGM_FI_DEV_POWER_VIOLATION 計數器 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power 累計 INT64 同上
DCGM_FI_DEV_THERMAL_VIOLATION 計數器 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal 累計 INT64 同上
DCGM_FI_DEV_SYNC_BOOST_VIOLATION 計數器 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost 累計 INT64 同上
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION 計數器 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit 累計 INT64 同上
DCGM_FI_DEV_LOW_UTIL_VIOLATION 計數器 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util 累計 INT64 同上
DCGM_FI_DEV_RELIABILITY_VIOLATION 計數器 int64 同上 aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability 累計 INT64 同上