이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Vertex AI 추론 DCGM 측정항목 보기

이 페이지에서는 Vertex AI 추론 엔드포인트와 연결된 NVIDIA Data Center GPU Manager (DCGM) 측정항목을 탐색하는 방법을 설명합니다.

DCGM 소개

DCGM, 즉 NVIDIA의 Data Center GPU Manager는 NVIDIA GPU를 관리하고 모니터링할 수 있는 NVIDIA의 도구 모음입니다. 엔드포인트에서 지원되는 GPU를 사용하는 경우 Vertex AI Inference는 Vertex AI DCGM 측정항목을 Cloud Monitoring으로 자동 내보냅니다. 이러한 측정항목은 GPU 사용률, 성능, 상태를 종합적으로 보여줍니다.

기본 요건

시작하기 전에 프로젝트에서 Cloud Monitoring을 사용 설정했는지 확인합니다. 자세한 내용은 Monitoring API 사용 설정을 참고하세요.

DCGM 측정항목 사용

측정항목 탐색기에서 DCGM 측정항목을 보려면 다음을 수행하세요.

Google Cloud 콘솔에서 측정항목 탐색기 페이지로 이동합니다.

측정항목 탐색기로 이동
측정항목 선택에서 Prometheus 대상을 선택합니다.
활성 측정항목 카테고리에서 Vertex를 선택합니다.
활성 측정항목에서 원하는 측정항목을 선택합니다.
적용을 클릭합니다.

Grafana 또는 Prometheus API 또는 UI를 사용하여 측정항목을 쿼리할 수도 있습니다.

할당량

DCGM 측정항목은 Cloud Monitoring API의 분당 시계열 수집 요청 할당량을 사용합니다. 측정항목 패키지를 사용 설정하기 전에 해당 할당량의 최근 최고 사용량을 확인하세요. 이미 할당량 한도에 가까워지고 있다면 할당량 한도 상향 조정을 요청할 수 있습니다.

Vertex AI DCGM 측정항목

이 테이블의 Cloud Monitoring 측정항목 이름에는 prometheus.googleapis.com/ 프리픽스를 붙여야 합니다. 테이블의 항목에서는 이 프리픽스가 생략되었습니다.

prometheus_target 모니터링 리소스의 라벨과 함께 Vertex AI에서 수집된 모든 DCGM 측정항목에는 다음 라벨이 연결됩니다.

GPU 라벨:

gpu_model: GPU 기기 모델(예: NVIDIA L4)
gpu_uuid: GPU 기기 UUID입니다.
gpu_i_id: NVIDIA 멀티 인스턴스 GPU (MIG) 인스턴스 ID입니다.

Vertex AI 라벨:

deployed_model_id: 추론 요청을 처리하는 배포된 모델의 ID입니다.
model_display_name: 배포된 모델의 표시 이름입니다.
replica_id: 배포된 모델 복제본 (포드 이름)에 해당하는 고유 ID입니다.
endpoint_id: 모델 엔드포인트의 ID입니다.
endpoint_display_name: 모델 엔드포인트의 표시 이름
product: Vertex AI의 기능 이름입니다. 항상 Online Inference입니다.

PromQL 측정항목 이름 Cloud Monitoring 측정항목 이름
종류, 유형, 단위 모니터링 리소스	설명
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	사용 가능한 프레임 버퍼(MB)입니다.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	GPU의 총 프레임 버퍼(MB)입니다.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	사용된 프레임 버퍼(MB)입니다.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	기기의 현재 온도 판독값(°C)입니다.
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	GPU 사용률(%)입니다.
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	메모리 사용률(%)입니다.
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	기기의 메모리 온도(°C)입니다.
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	기기의 전원 사용량(와트)입니다.
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	SM 클럭 주파수(MHz)입니다.
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	드라이버가 마지막으로 새로고침된 이후 GPU의 총 에너지 소비량(mJ)입니다.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	기기 메모리 인터페이스가 데이터를 송수신하는 활성 상태인 주기의 비율입니다.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	그래픽 엔진이 활성 상태인 시간의 비율입니다.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	헤더와 페이로드를 모두 포함한 활성 NvLink rx(읽기) 데이터의 비율(바이트)입니다.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	헤더와 페이로드를 모두 포함한 활성 NvLink tx(전송) 데이터의 비율(바이트)입니다.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	헤더와 페이로드를 모두 포함한 활성 PCIe rx(읽기) 데이터의 비율(바이트)입니다.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	헤더와 페이로드를 모두 포함한 활성 PCIe tx(전송) 데이터의 비율(바이트)입니다.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	fp16 파이프가 활성 상태인 주기의 비율입니다.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	fp32 파이프가 활성 상태인 주기의 비율입니다.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	fp64 파이프가 활성 상태인 주기의 비율입니다.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	텐서 파이프가 활성 상태인 주기의 비율입니다.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	SM에 할당된 워프가 1개 이상인 주기의 비율입니다.

지원되는 GPU

리소스 제약으로 인해 다음을 제외한 모든 NVIDIA GPU가 지원됩니다.

다음 단계

측정항목 탐색기에 대해 알아보기

Vertex AI 추론 DCGM 측정항목 보기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.