Registros y métricas

En este documento se describen los registros y las métricas que recoge y exporta la API Gemini on Google Distributed Cloud connected.

Configurar el almacenamiento de registros y la monitorización

Antes de empezar a recoger registros y métricas, debes hacer lo siguiente:

  1. Habilita las APIs de registro con los siguientes comandos:

    gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID
    gcloud services enable logging.googleapis.com --project PROJECT_ID
    gcloud services enable monitoring.googleapis.com --project PROJECT_ID
    

    Sustituye PROJECT_ID por el ID del proyecto de destino. Google Cloud

  2. Asigna los roles necesarios para escribir registros y métricas:

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/opsconfigmonitoring.resourceMetadata.writer \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/logging.logWriter \
         --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/monitoring.metricWriter \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
    

    Sustituye PROJECT_ID por el ID del proyecto de destino. Google Cloud

Registros

En esta sección se enumeran los tipos de recursos de Cloud Logging compatibles con la API conectada de Gemini on GDC. Para ver los registros de la API conectada de Gemini en GDC, usa el Explorador de registros en la Google Cloud consola. El registro de Gemini en la API conectada de GDC} siempre está habilitado.

El tipo de recurso registrado conectado a la API conectada de Gemini en GDC es aiplatform.googleapis.com/Endpoint.

También puedes registrar y recuperar los registros conectados de la API conectada de Gemini en GDC mediante la API de Cloud Logging. Para obtener información sobre cómo configurar este mecanismo de registro, consulta la documentación de las bibliotecas de cliente de Cloud Logging.

Métricas

En esta sección se enumeran las métricas de Cloud Monitoring compatibles con la API conectada de Gemini en GDC. Para ver las métricas de la API conectada de Gemini en GDC, usa el explorador de métricas de la consolaGoogle Cloud .

Métricas de clúster de Distributed Cloud conectado

Los endpoints de la API de Gemini en GDC connected se despliegan en clústeres de Distributed Cloud connected. Consulta Registros y métricas para obtener información sobre los registros y las métricas de Distributed Cloud conectado.

Métricas de Inference Gateway

Nombre de la métrica de Prometheus Tipo de métrica Tipo de datos Etiquetas Tipo de químico metric_kind de Chemist Valor value_type de Chemist Etiquetas de Chemist
ig_ops_successful_incoming_requests Encimera modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests ACUMULATIVO INT64 modelo
ig_ops_unique_users Encimera modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users ACUMULATIVO INT64 modelo
ig_tokens_per_minute Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min ACUMULATIVO DISTRIBUCIÓN modelo
ig_total_response_time Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time ACUMULATIVO DISTRIBUCIÓN modelo
ig_ops_ffmpeg_image_latency Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies ACUMULATIVO DISTRIBUCIÓN modelo
ig_ops_ffmpeg_video_latency Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies ACUMULATIVO DISTRIBUCIÓN modelo
ig_ops_ffmpeg_audio_latency Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies ACUMULATIVO DISTRIBUCIÓN modelo
ig_time_to_first_token Histograma doble model_context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft ACUMULATIVO DISTRIBUCIÓN model_context_window
ig_time_per_output_token Histograma doble model_context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot ACUMULATIVO DISTRIBUCIÓN model_context_window
ig_cache_hit Encimera modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count ACUMULATIVO DISTRIBUCIÓN model _gdch_project
ig_cache_miss Encimera modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count ACUMULATIVO DISTRIBUCIÓN model _gdch_project

Métricas de GenAI Router

Nombre de la métrica de Prometheus Tipo de métrica Tipo de datos Etiquetas Tipo de químico metric_kind de Chemist Valor value_type de Chemist Etiquetas de Chemist
llm_total_request_latency_milliseconds Histograma doble Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies ACUMULATIVO DISTRIBUCIÓN Modelo de ventana de contexto
llm_unary_request_latency_milliseconds Histograma doble Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies ACUMULATIVO DISTRIBUCIÓN Modelo de ventana de contexto
llm_streaming_ttft_milliseconds Histograma doble Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms ACUMULATIVO DISTRIBUCIÓN Modelo de ventana de contexto
llm_streaming_tpot_milliseconds Histograma doble Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms ACUMULATIVO DISTRIBUCIÓN Modelo de ventana de contexto
llm_input_token_count Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count ACUMULATIVO DISTRIBUCIÓN modelo
llm_output_token_count Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count ACUMULATIVO DISTRIBUCIÓN modelo
llm_success_response_count Encimera doble modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count ACUMULATIVO INT64 modelo
llm_failure_response_count Encimera doble modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count ACUMULATIVO INT64 modelo
llm_text_tokenization_latency_milliseconds Histograma doble modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies ACUMULATIVO DISTRIBUCIÓN modelo
llm_image_tokenization_latency_milliseconds Histograma doble aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies ACUMULATIVO DISTRIBUCIÓN
llm_audio_tokenization_latency_milliseconds Histograma doble aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies ACUMULATIVO DISTRIBUCIÓN

Métricas de GPU

Nombre de la métrica de Prometheus Tipo de métrica Tipo de datos Etiquetas Tipo de químico metric_kind de Chemist Valor value_type de Chemist Etiquetas de Chemist
DCGM_FI_DEV_MEM_COPY_UTIL Indicador int64 UUID de GPU pci_bus_id modelName Hostname DCGM_FI_DRIVER_VERSION aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util GAUGE INT64 uuid gpu_model
DCGM_FI_DEV_MEMORY_TEMP Indicador int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp GAUGE INT64 Igual que el anterior
DCGM_FI_DEV_POWER_USAGE Indicador doble Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage GAUGE DOUBLE Igual que el anterior
DCGM_FI_DEV_GPU_TEMP Indicador doble Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp GAUGE INT64 Igual que el anterior
DCGM_FI_DEV_GPU_UTIL Indicador doble Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util GAUGE INT64 Igual que el anterior
DCGM_FI_DEV_ENC_UTIL Indicador int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util GAUGE INT64 Igual que el anterior
DCGM_FI_DEV_XID_ERRORS Encimera int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors ACUMULATIVO INT64 Igual que el anterior
DCGM_FI_DEV_POWER_VIOLATION Encimera int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power ACUMULATIVO INT64 Igual que el anterior
DCGM_FI_DEV_THERMAL_VIOLATION Encimera int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal ACUMULATIVO INT64 Igual que el anterior
DCGM_FI_DEV_SYNC_BOOST_VIOLATION Encimera int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost ACUMULATIVO INT64 Igual que el anterior
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION Encimera int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit ACUMULATIVO INT64 Igual que el anterior
DCGM_FI_DEV_LOW_UTIL_VIOLATION Encimera int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util ACUMULATIVO INT64 Igual que el anterior
DCGM_FI_DEV_RELIABILITY_VIOLATION Encimera int64 Igual que el anterior aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability ACUMULATIVO INT64 Igual que el anterior