En este documento, se describen los registros y las métricas que recopila y exporta la API conectada de Gemini en Google Distributed Cloud.
Configurar el registro y la supervisión
Antes de comenzar a recopilar registros y métricas, debes hacer lo siguiente:
Habilita las APIs de registro con los siguientes comandos:
gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID gcloud services enable logging.googleapis.com --project PROJECT_ID gcloud services enable monitoring.googleapis.com --project PROJECT_ID
Reemplaza
PROJECT_ID
por el ID del proyecto Google Cloud de destino.Otorga los roles necesarios para escribir registros y métricas:
gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/opsconfigmonitoring.resourceMetadata.writer \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/logging.logWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/monitoring.metricWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
Reemplaza
PROJECT_ID
por el ID del proyecto Google Cloud de destino.
Registros
En esta sección, se enumeran los tipos de recursos de Cloud Logging que admite Gemini en la API conectada a GDC. Para ver los registros de la API conectada de Gemini on GDC, usa el Explorador de registros en la consola de Google Cloud . El registro de Gemini en la API conectada de GDC} siempre está habilitado.
El tipo de recurso registrado de la API conectada de Gemini en GDC conectado es aiplatform.googleapis.com/Endpoint
.
También puedes capturar y recuperar registros conectados a la API de Gemini on GDC con la API de Cloud Logging. Para obtener información sobre cómo configurar este mecanismo de registro, consulta la documentación de las bibliotecas cliente de Cloud Logging.
Métricas
En esta sección, se enumeran las métricas de Cloud Monitoring que admite la API conectada de Gemini on GDC. Para ver las métricas de la API conectada de Gemini on GDC, usa el Explorador de métricas en la consola deGoogle Cloud .
Métricas de clústeres de Distributed Cloud conectado
Los extremos de API de Gemini en GDC connected se implementan en clústeres de Distributed Cloud connected. Consulta Registros y métricas para obtener información sobre los registros y las métricas de Distributed Cloud Connected.
Métricas de Inference Gateway
Nombre de la métrica de Prometheus | Tipo de métricas | Tipo de datos | Etiquetas | Tipo de químico | Chemist metric_kind | value_type de Chemist | Etiquetas de químicos |
---|---|---|---|---|---|---|---|
ig_ops_successful_incoming_requests | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests | ACUMULATIVO | INT64 | modelo | |
ig_ops_unique_users | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users | ACUMULATIVO | INT64 | modelo | |
ig_tokens_per_minute | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min | ACUMULATIVO | DISTRIBUTION | modelo |
ig_total_response_time | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time | ACUMULATIVO | DISTRIBUTION | modelo |
ig_ops_ffmpeg_image_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies | ACUMULATIVO | DISTRIBUTION | modelo |
ig_ops_ffmpeg_video_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies | ACUMULATIVO | DISTRIBUTION | modelo |
ig_ops_ffmpeg_audio_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies | ACUMULATIVO | DISTRIBUTION | modelo |
ig_time_to_first_token | Histograma | double | model context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft | ACUMULATIVO | DISTRIBUTION | model context_window |
ig_time_per_output_token | Histograma | double | model context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot | ACUMULATIVO | DISTRIBUTION | model context_window |
ig_cache_hit | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count | ACUMULATIVO | DISTRIBUTION | model _gdch_project | |
ig_cache_miss | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count | ACUMULATIVO | DISTRIBUTION | model _gdch_project |
Métricas del enrutador de IA generativa
Nombre de la métrica de Prometheus | Tipo de métricas | Tipo de datos | Etiquetas | Tipo de químico | Chemist metric_kind | value_type de Chemist | Etiquetas de químicos |
---|---|---|---|---|---|---|---|
llm_total_request_latency_milliseconds | Histograma | double | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies | ACUMULATIVO | DISTRIBUTION | Modelo de ventana de contexto |
llm_unary_request_latency_milliseconds | Histograma | double | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies | ACUMULATIVO | DISTRIBUTION | Modelo de ventana de contexto |
llm_streaming_ttft_milliseconds | Histograma | double | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms | ACUMULATIVO | DISTRIBUTION | Modelo de ventana de contexto |
llm_streaming_tpot_milliseconds | Histograma | double | Modelo de ventana de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms | ACUMULATIVO | DISTRIBUTION | Modelo de ventana de contexto |
llm_input_token_count | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count | ACUMULATIVO | DISTRIBUTION | modelo |
llm_output_token_count | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count | ACUMULATIVO | DISTRIBUTION | modelo |
llm_success_response_count | Contador | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count | ACUMULATIVO | INT64 | modelo |
llm_failure_response_count | Contador | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count | ACUMULATIVO | INT64 | modelo |
llm_text_tokenization_latency_milliseconds | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies | ACUMULATIVO | DISTRIBUTION | modelo |
llm_image_tokenization_latency_milliseconds | Histograma | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies | ACUMULATIVO | DISTRIBUTION | ||
llm_audio_tokenization_latency_milliseconds | Histograma | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies | ACUMULATIVO | DISTRIBUTION |
Métricas de GPU
Nombre de la métrica de Prometheus | Tipo de métricas | Tipo de datos | Etiquetas | Tipo de químico | Chemist metric_kind | value_type de Chemist | Etiquetas de químicos |
---|---|---|---|---|---|---|---|
DCGM_FI_DEV_MEM_COPY_UTIL | Indicador | int64 | UUID de GPU, pci_bus_id, device, modelName, Hostname, DCGM_FI_DRIVER_VERSION | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util | GAUGE | INT64 | uuid gpu_model |
DCGM_FI_DEV_MEMORY_TEMP | Indicador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp | GAUGE | INT64 | Igual que arriba |
DCGM_FI_DEV_POWER_USAGE | Indicador | double | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage | GAUGE | DOUBLE | Igual que arriba |
DCGM_FI_DEV_GPU_TEMP | Indicador | double | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp | GAUGE | INT64 | Igual que arriba |
DCGM_FI_DEV_GPU_UTIL | Indicador | double | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util | GAUGE | INT64 | Igual que arriba |
DCGM_FI_DEV_ENC_UTIL | Indicador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util | GAUGE | INT64 | Igual que arriba |
DCGM_FI_DEV_XID_ERRORS | Contador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors | ACUMULATIVO | INT64 | Igual que arriba |
DCGM_FI_DEV_POWER_VIOLATION | Contador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power | ACUMULATIVO | INT64 | Igual que arriba |
DCGM_FI_DEV_THERMAL_VIOLATION | Contador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal | ACUMULATIVO | INT64 | Igual que arriba |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Contador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost | ACUMULATIVO | INT64 | Igual que arriba |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Contador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit | ACUMULATIVO | INT64 | Igual que arriba |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Contador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util | ACUMULATIVO | INT64 | Igual que arriba |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Contador | int64 | Igual que arriba | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability | ACUMULATIVO | INT64 | Igual que arriba |