En este documento se describen los registros y las métricas que recoge y exporta la API Gemini on Google Distributed Cloud connected.
Configurar el almacenamiento de registros y la monitorización
Antes de empezar a recoger registros y métricas, debes hacer lo siguiente:
Habilita las APIs de registro con los siguientes comandos:
gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID gcloud services enable logging.googleapis.com --project PROJECT_ID gcloud services enable monitoring.googleapis.com --project PROJECT_ID
Sustituye
PROJECT_ID
por el ID del proyecto de destino. Google CloudAsigna los roles necesarios para escribir registros y métricas:
gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/opsconfigmonitoring.resourceMetadata.writer \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/logging.logWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/monitoring.metricWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
Sustituye
PROJECT_ID
por el ID del proyecto de destino. Google Cloud
Registros
En esta sección se enumeran los tipos de recursos de Cloud Logging compatibles con la API conectada de Gemini on GDC. Para ver los registros de la API conectada de Gemini en GDC, usa el Explorador de registros en la Google Cloud consola. El registro de Gemini en la API conectada de GDC} siempre está habilitado.
El tipo de recurso registrado conectado a la API conectada de Gemini en GDC es aiplatform.googleapis.com/Endpoint
.
También puedes registrar y recuperar los registros conectados de la API conectada de Gemini en GDC mediante la API de Cloud Logging. Para obtener información sobre cómo configurar este mecanismo de registro, consulta la documentación de las bibliotecas de cliente de Cloud Logging.
Métricas
En esta sección se enumeran las métricas de Cloud Monitoring compatibles con la API conectada de Gemini en GDC. Para ver las métricas de la API conectada de Gemini en GDC, usa el explorador de métricas de la consolaGoogle Cloud .
Métricas de clúster de Distributed Cloud conectado
Los endpoints de la API de Gemini en GDC connected se despliegan en clústeres de Distributed Cloud connected. Consulta Registros y métricas para obtener información sobre los registros y las métricas de Distributed Cloud conectado.
Métricas de Inference Gateway
Nombre de la métrica de Prometheus | Tipo de métrica | Tipo de datos | Etiquetas | Tipo de químico | metric_kind de Chemist | Valor value_type de Chemist | Etiquetas de Chemist |
---|---|---|---|---|---|---|---|
ig_ops_successful_incoming_requests | Encimera | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests | ACUMULATIVO | INT64 | modelo | |
ig_ops_unique_users | Encimera | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users | ACUMULATIVO | INT64 | modelo | |
ig_tokens_per_minute | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min | ACUMULATIVO | DISTRIBUCIÓN | modelo |
ig_total_response_time | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time | ACUMULATIVO | DISTRIBUCIÓN | modelo |
ig_ops_ffmpeg_image_latency | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies | ACUMULATIVO | DISTRIBUCIÓN | modelo |
ig_ops_ffmpeg_video_latency | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies | ACUMULATIVO | DISTRIBUCIÓN | modelo |
ig_ops_ffmpeg_audio_latency | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies | ACUMULATIVO | DISTRIBUCIÓN | modelo |
ig_time_to_first_token | Histograma | doble | model_context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft | ACUMULATIVO | DISTRIBUCIÓN | model_context_window |
ig_time_per_output_token | Histograma | doble | model_context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot | ACUMULATIVO | DISTRIBUCIÓN | model_context_window |
ig_cache_hit | Encimera | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count | ACUMULATIVO | DISTRIBUCIÓN | model _gdch_project | |
ig_cache_miss | Encimera | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count | ACUMULATIVO | DISTRIBUCIÓN | model _gdch_project |
Métricas de GenAI Router
Nombre de la métrica de Prometheus | Tipo de métrica | Tipo de datos | Etiquetas | Tipo de químico | metric_kind de Chemist | Valor value_type de Chemist | Etiquetas de Chemist |
---|---|---|---|---|---|---|---|
llm_total_request_latency_milliseconds | Histograma | doble | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies | ACUMULATIVO | DISTRIBUCIÓN | Modelo de ventana de contexto |
llm_unary_request_latency_milliseconds | Histograma | doble | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies | ACUMULATIVO | DISTRIBUCIÓN | Modelo de ventana de contexto |
llm_streaming_ttft_milliseconds | Histograma | doble | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms | ACUMULATIVO | DISTRIBUCIÓN | Modelo de ventana de contexto |
llm_streaming_tpot_milliseconds | Histograma | doble | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms | ACUMULATIVO | DISTRIBUCIÓN | Modelo de ventana de contexto |
llm_input_token_count | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count | ACUMULATIVO | DISTRIBUCIÓN | modelo |
llm_output_token_count | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count | ACUMULATIVO | DISTRIBUCIÓN | modelo |
llm_success_response_count | Encimera | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count | ACUMULATIVO | INT64 | modelo |
llm_failure_response_count | Encimera | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count | ACUMULATIVO | INT64 | modelo |
llm_text_tokenization_latency_milliseconds | Histograma | doble | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies | ACUMULATIVO | DISTRIBUCIÓN | modelo |
llm_image_tokenization_latency_milliseconds | Histograma | doble | aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies | ACUMULATIVO | DISTRIBUCIÓN | ||
llm_audio_tokenization_latency_milliseconds | Histograma | doble | aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies | ACUMULATIVO | DISTRIBUCIÓN |
Métricas de GPU
Nombre de la métrica de Prometheus | Tipo de métrica | Tipo de datos | Etiquetas | Tipo de químico | metric_kind de Chemist | Valor value_type de Chemist | Etiquetas de Chemist |
---|---|---|---|---|---|---|---|
DCGM_FI_DEV_MEM_COPY_UTIL | Indicador | int64 | UUID de GPU pci_bus_id modelName Hostname DCGM_FI_DRIVER_VERSION | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util | GAUGE | INT64 | uuid gpu_model |
DCGM_FI_DEV_MEMORY_TEMP | Indicador | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp | GAUGE | INT64 | Igual que el anterior |
DCGM_FI_DEV_POWER_USAGE | Indicador | doble | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage | GAUGE | DOUBLE | Igual que el anterior |
DCGM_FI_DEV_GPU_TEMP | Indicador | doble | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp | GAUGE | INT64 | Igual que el anterior |
DCGM_FI_DEV_GPU_UTIL | Indicador | doble | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util | GAUGE | INT64 | Igual que el anterior |
DCGM_FI_DEV_ENC_UTIL | Indicador | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util | GAUGE | INT64 | Igual que el anterior |
DCGM_FI_DEV_XID_ERRORS | Encimera | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors | ACUMULATIVO | INT64 | Igual que el anterior |
DCGM_FI_DEV_POWER_VIOLATION | Encimera | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power | ACUMULATIVO | INT64 | Igual que el anterior |
DCGM_FI_DEV_THERMAL_VIOLATION | Encimera | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal | ACUMULATIVO | INT64 | Igual que el anterior |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Encimera | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost | ACUMULATIVO | INT64 | Igual que el anterior |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Encimera | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit | ACUMULATIVO | INT64 | Igual que el anterior |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Encimera | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util | ACUMULATIVO | INT64 | Igual que el anterior |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Encimera | int64 | Igual que el anterior | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability | ACUMULATIVO | INT64 | Igual que el anterior |