Vertex AI 추론 DCGM 측정항목 보기

이 페이지에서는 Vertex AI 추론 엔드포인트와 연결된 NVIDIA Data Center GPU Manager (DCGM) 측정항목을 탐색하는 방법을 설명합니다.

DCGM 소개

DCGM, 즉 NVIDIA의 Data Center GPU Manager는 NVIDIA GPU를 관리하고 모니터링할 수 있는 NVIDIA의 도구 모음입니다. 엔드포인트에서 지원되는 GPU를 사용하는 경우 Vertex AI Inference는 Vertex AI DCGM 측정항목을 Cloud Monitoring으로 자동 내보냅니다. 이러한 측정항목은 GPU 사용률, 성능, 상태를 종합적으로 보여줍니다.

기본 요건

시작하기 전에 프로젝트에서 Cloud Monitoring을 사용 설정했는지 확인합니다. 자세한 내용은 Monitoring API 사용 설정을 참고하세요.

DCGM 측정항목 사용

측정항목 탐색기에서 DCGM 측정항목을 보려면 다음을 수행하세요.

  1. Google Cloud 콘솔에서 측정항목 탐색기 페이지로 이동합니다.

    측정항목 탐색기로 이동

  2. 측정항목 선택에서 Prometheus 대상을 선택합니다.

  3. 활성 측정항목 카테고리에서 Vertex를 선택합니다.

  4. 활성 측정항목에서 원하는 측정항목을 선택합니다.

  5. 적용을 클릭합니다.

Grafana 또는 Prometheus API 또는 UI를 사용하여 측정항목을 쿼리할 수도 있습니다.

할당량

DCGM 측정항목은 Cloud Monitoring API의 분당 시계열 수집 요청 할당량을 사용합니다. 측정항목 패키지를 사용 설정하기 전에 해당 할당량의 최근 최고 사용량을 확인하세요. 이미 할당량 한도에 가까워지고 있다면 할당량 한도 상향 조정을 요청할 수 있습니다.

Vertex AI DCGM 측정항목

이 테이블의 Cloud Monitoring 측정항목 이름에는 prometheus.googleapis.com/ 프리픽스를 붙여야 합니다. 테이블의 항목에서는 이 프리픽스가 생략되었습니다.

prometheus_target 모니터링 리소스의 라벨과 함께 Vertex AI에서 수집된 모든 DCGM 측정항목에는 다음 라벨이 연결됩니다.

GPU 라벨:

  • gpu_model: GPU 기기 모델(예: NVIDIA L4)
  • gpu_uuid: GPU 기기 UUID입니다.
  • gpu_i_id: NVIDIA 멀티 인스턴스 GPU (MIG) 인스턴스 ID입니다.

Vertex AI 라벨:

  • deployed_model_id: 추론 요청을 처리하는 배포된 모델의 ID입니다.
  • model_display_name: 배포된 모델의 표시 이름입니다.
  • replica_id: 배포된 모델 복제본 (포드 이름)에 해당하는 고유 ID입니다.
  • endpoint_id: 모델 엔드포인트의 ID입니다.
  • endpoint_display_name: 모델 엔드포인트의 표시 이름
  • product: Vertex AI의 기능 이름입니다. 항상 Online Inference입니다.
PromQL 측정항목 이름
Cloud Monitoring 측정항목 이름
종류, 유형, 단위
모니터링 리소스
설명
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target 사용 가능한 프레임 버퍼(MB)입니다.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target GPU의 총 프레임 버퍼(MB)입니다.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target 사용된 프레임 버퍼(MB)입니다.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target 기기의 현재 온도 판독값(°C)입니다.
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target GPU 사용률(%)입니다.
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target 메모리 사용률(%)입니다.
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target 기기의 메모리 온도(°C)입니다.
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target 기기의 전원 사용량(와트)입니다.
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target SM 클럭 주파수(MHz)입니다.
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target 드라이버가 마지막으로 새로고침된 이후 GPU의 총 에너지 소비량(mJ)입니다.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target 기기 메모리 인터페이스가 데이터를 송수신하는 활성 상태인 주기의 비율입니다.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target 그래픽 엔진이 활성 상태인 시간의 비율입니다.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 헤더와 페이로드를 모두 포함한 활성 NvLink rx(읽기) 데이터의 비율(바이트)입니다.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 헤더와 페이로드를 모두 포함한 활성 NvLink tx(전송) 데이터의 비율(바이트)입니다.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 헤더와 페이로드를 모두 포함한 활성 PCIe rx(읽기) 데이터의 비율(바이트)입니다.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target 헤더와 페이로드를 모두 포함한 활성 PCIe tx(전송) 데이터의 비율(바이트)입니다.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target fp16 파이프가 활성 상태인 주기의 비율입니다.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target fp32 파이프가 활성 상태인 주기의 비율입니다.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target fp64 파이프가 활성 상태인 주기의 비율입니다.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target 텐서 파이프가 활성 상태인 주기의 비율입니다.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target SM에 할당된 워프가 1개 이상인 주기의 비율입니다.

지원되는 GPU

리소스 제약으로 인해 다음을 제외한 모든 NVIDIA GPU가 지원됩니다.

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

다음 단계