Gemini en la API de GDC en la versión preliminar pública conectada a GDC (actual)

Para obtener información sobre la versión, consulta las notas de la versión de la API de Gemini en GDC conectada.

Versiones disponibles: Vista Previa Pública

Esta página se ha traducido con Cloud Translation API.

Registros y métricas

En este documento se describen los registros y las métricas que recoge y exporta la API Gemini on Google Distributed Cloud connected.

Configurar el almacenamiento de registros y la monitorización

Antes de empezar a recoger registros y métricas, debes hacer lo siguiente:

Habilita las APIs de registro con los siguientes comandos:

gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID
gcloud services enable logging.googleapis.com --project PROJECT_ID
gcloud services enable monitoring.googleapis.com --project PROJECT_ID

Sustituye PROJECT_ID por el ID del proyecto de destino. Google Cloud

Asigna los roles necesarios para escribir registros y métricas:

gcloud projects add-iam-policy-binding PROJECT_ID \
    --role roles/opsconfigmonitoring.resourceMetadata.writer \
    --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]"

gcloud projects add-iam-policy-binding PROJECT_ID \
    --role roles/logging.logWriter \
     --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]"

gcloud projects add-iam-policy-binding PROJECT_ID \
    --role roles/monitoring.metricWriter \
    --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"

Sustituye PROJECT_ID por el ID del proyecto de destino. Google Cloud

Registros

En esta sección se enumeran los tipos de recursos de Cloud Logging compatibles con la API conectada de Gemini on GDC. Para ver los registros de la API conectada de Gemini en GDC, usa el Explorador de registros en la Google Cloud consola. El registro de Gemini en la API conectada de GDC} siempre está habilitado.

El tipo de recurso registrado conectado a la API conectada de Gemini en GDC es aiplatform.googleapis.com/Endpoint.

También puedes registrar y recuperar los registros conectados de la API conectada de Gemini en GDC mediante la API de Cloud Logging. Para obtener información sobre cómo configurar este mecanismo de registro, consulta la documentación de las bibliotecas de cliente de Cloud Logging.

Métricas

En esta sección se enumeran las métricas de Cloud Monitoring compatibles con la API conectada de Gemini en GDC. Para ver las métricas de la API conectada de Gemini en GDC, usa el explorador de métricas de la consolaGoogle Cloud .

Métricas de clúster de Distributed Cloud conectado

Los endpoints de la API de Gemini en GDC connected se despliegan en clústeres de Distributed Cloud connected. Consulta Registros y métricas para obtener información sobre los registros y las métricas de Distributed Cloud conectado.

Métricas de Inference Gateway

Nombre de la métrica de Prometheus	Tipo de métrica	Tipo de datos	Etiquetas	Tipo de químico	metric_kind de Chemist	Valor value_type de Chemist	Etiquetas de Chemist
ig_ops_successful_incoming_requests	Encimera		modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests	ACUMULATIVO	INT64	modelo
ig_ops_unique_users	Encimera		modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users	ACUMULATIVO	INT64	modelo
ig_tokens_per_minute	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min	ACUMULATIVO	DISTRIBUCIÓN	modelo
ig_total_response_time	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time	ACUMULATIVO	DISTRIBUCIÓN	modelo
ig_ops_ffmpeg_image_latency	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies	ACUMULATIVO	DISTRIBUCIÓN	modelo
ig_ops_ffmpeg_video_latency	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies	ACUMULATIVO	DISTRIBUCIÓN	modelo
ig_ops_ffmpeg_audio_latency	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies	ACUMULATIVO	DISTRIBUCIÓN	modelo
ig_time_to_first_token	Histograma	doble	model_context_window	aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft	ACUMULATIVO	DISTRIBUCIÓN	model_context_window
ig_time_per_output_token	Histograma	doble	model_context_window	aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot	ACUMULATIVO	DISTRIBUCIÓN	model_context_window
ig_cache_hit	Encimera		modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count	ACUMULATIVO	DISTRIBUCIÓN	model _gdch_project
ig_cache_miss	Encimera		modelo	aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count	ACUMULATIVO	DISTRIBUCIÓN	model _gdch_project

Métricas de GenAI Router

Nombre de la métrica de Prometheus	Tipo de métrica	Tipo de datos	Etiquetas	Tipo de químico	metric_kind de Chemist	Valor value_type de Chemist	Etiquetas de Chemist
llm_total_request_latency_milliseconds	Histograma	doble	Modelo de ventana de contexto	aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies	ACUMULATIVO	DISTRIBUCIÓN	Modelo de ventana de contexto
llm_unary_request_latency_milliseconds	Histograma	doble	Modelo de ventana de contexto	aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies	ACUMULATIVO	DISTRIBUCIÓN	Modelo de ventana de contexto
llm_streaming_ttft_milliseconds	Histograma	doble	Modelo de ventana de contexto	aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms	ACUMULATIVO	DISTRIBUCIÓN	Modelo de ventana de contexto
llm_streaming_tpot_milliseconds	Histograma	doble	Modelo de ventana de contexto	aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms	ACUMULATIVO	DISTRIBUCIÓN	Modelo de ventana de contexto
llm_input_token_count	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count	ACUMULATIVO	DISTRIBUCIÓN	modelo
llm_output_token_count	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count	ACUMULATIVO	DISTRIBUCIÓN	modelo
llm_success_response_count	Encimera	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count	ACUMULATIVO	INT64	modelo
llm_failure_response_count	Encimera	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count	ACUMULATIVO	INT64	modelo
llm_text_tokenization_latency_milliseconds	Histograma	doble	modelo	aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies	ACUMULATIVO	DISTRIBUCIÓN	modelo
llm_image_tokenization_latency_milliseconds	Histograma	doble		aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies	ACUMULATIVO	DISTRIBUCIÓN
llm_audio_tokenization_latency_milliseconds	Histograma	doble		aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies	ACUMULATIVO	DISTRIBUCIÓN

Métricas de GPU

Nombre de la métrica de Prometheus	Tipo de métrica	Tipo de datos	Etiquetas	Tipo de químico	metric_kind de Chemist	Valor value_type de Chemist	Etiquetas de Chemist
DCGM_FI_DEV_MEM_COPY_UTIL	Indicador	int64	UUID de GPU pci_bus_id modelName Hostname DCGM_FI_DRIVER_VERSION	aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util	GAUGE	INT64	uuid gpu_model
DCGM_FI_DEV_MEMORY_TEMP	Indicador	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp	GAUGE	INT64	Igual que el anterior
DCGM_FI_DEV_POWER_USAGE	Indicador	doble	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage	GAUGE	DOUBLE	Igual que el anterior
DCGM_FI_DEV_GPU_TEMP	Indicador	doble	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp	GAUGE	INT64	Igual que el anterior
DCGM_FI_DEV_GPU_UTIL	Indicador	doble	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util	GAUGE	INT64	Igual que el anterior
DCGM_FI_DEV_ENC_UTIL	Indicador	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util	GAUGE	INT64	Igual que el anterior
DCGM_FI_DEV_XID_ERRORS	Encimera	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors	ACUMULATIVO	INT64	Igual que el anterior
DCGM_FI_DEV_POWER_VIOLATION	Encimera	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power	ACUMULATIVO	INT64	Igual que el anterior
DCGM_FI_DEV_THERMAL_VIOLATION	Encimera	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal	ACUMULATIVO	INT64	Igual que el anterior
DCGM_FI_DEV_SYNC_BOOST_VIOLATION	Encimera	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost	ACUMULATIVO	INT64	Igual que el anterior
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION	Encimera	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit	ACUMULATIVO	INT64	Igual que el anterior
DCGM_FI_DEV_LOW_UTIL_VIOLATION	Encimera	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util	ACUMULATIVO	INT64	Igual que el anterior
DCGM_FI_DEV_RELIABILITY_VIOLATION	Encimera	int64	Igual que el anterior	aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability	ACUMULATIVO	INT64	Igual que el anterior