NVIDIA Data Center GPU Manager 통합은 DCGM에서 주요 고급 GPU 측정항목을 수집합니다. dcgm
수신기 버전을 선택하여 두 가지 측정항목 집합 중 하나를 수집하도록 운영 에이전트를 구성할 수 있습니다.
dcgm
수신기 버전 2는 지정된 VM 인스턴스에 연결된 GPU의 성능 및 상태를 모니터링하기 위한 선별된 측정항목 집합을 제공합니다.dcgm
수신기의 버전 1은 기본 GPU 측정항목과 함께 사용하도록 설계된 프로파일링 측정항목 모음을 제공합니다. 이러한 측정항목의 목적과 해석에 대한 자세한 내용은 DCGM 기능 개요의 프로파일링 측정항목을 참조하세요.
NVIDIA Data Center GPU Manager에 대한 자세한 내용은 DCGM 문서를 참조하세요. 이 통합은 DCGM 버전 3.1 이상과 호환됩니다.
Linux 시스템에서만 이러한 측정항목을 사용할 수 있습니다. 프로파일링 측정항목은 NVIDIA GPU 모델 P100, P4에서 수집되지 않습니다.
기본 요건
NVIDIA DCGM 측정항목을 수집하려면 다음을 수행해야 합니다.
-
- 버전 1 측정항목: 운영 에이전트 버전 2.38.0 이상 운영 에이전트 버전 2.38.0 또는 버전 2.41.0 이상만 GPU 모니터링과 호환됩니다. GPU가 연결된 VM에 운영 에이전트 버전 2.39.0 및 2.40.0을 설치하지 마세요. 자세한 내용은 에이전트가 비정상 종료되고 보고서에서 NVIDIA가 표시됨을 참조하세요.
- 버전 2 측정항목: 운영 에이전트 버전 2.51.0 이상
DCGM 설치 및 설치 확인
DCGM 버전 3.1 이상을 설치하고 권한이 있는 서비스로 실행되는지 확인해야 합니다. DCGM을 설치하려면 DCGM 문서에서 설치를 참조하세요.
DCGM이 올바르게 실행 중인지 확인하려면 다음을 수행합니다.
다음 명령어를 실행하여 DCGM 서비스 상태를 확인합니다.
sudo service nvidia-dcgm status
서비스가 실행 중이면
nvidia-dcgm
서비스가active (running)
로 나열됩니다. 다음과 유사한 결과가 출력됩니다.● nvidia-dcgm.service - NVIDIA DCGM service Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled) Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago Main PID: 24388 (nv-hostengine) Tasks: 7 (limit: 14745) CGroup: /system.slice/nvidia-dcgm.service └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
다음 명령어를 실행하여 GPU 기기가 있는지 확인합니다.
dcgmi discovery --list
기기가 있으면 다음과 유사한 결과가 출력됩니다.
1 GPU found. +--------+----------------------------------------------------------------------+ | GPU ID | Device Information | +--------+----------------------------------------------------------------------+ | 0 | Name: NVIDIA A100-SXM4-40GB | | | PCI Bus ID: 00000000:00:04.0 | | | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957 | +--------+----------------------------------------------------------------------+
DCGM용 운영 에이전트 구성
운영 에이전트 구성 가이드에 따라 DCGM 서비스에서 원격 분석을 수집하는 데 필요한 요소를 추가하고 에이전트를 다시 시작합니다.
구성 예시
다음 명령어는 NVIDIA DCGM의 수신기 버전 2 측정항목을 수집하고 처리하는 구성을 만들고 운영 에이전트를 다시 시작합니다.
DCGM 프로파일링 측정항목만 수집하려면 receiver_version
필드의 값을 1
로 바꿉니다. receiver_version
항목을 완전히 삭제할 수도 있습니다. 기본 버전은 1
입니다.
두 버전을 동시에 사용할 수는 없습니다.
이러한 명령어를 실행한 후 에이전트가 다시 시작되었는지 확인할 수 있습니다. 다음 명령어를 실행하고 하위 에이전트 구성요소 '측정항목 에이전트' 및 'Logging 에이전트'가 '활성(실행 중)'으로 나열되는지 확인합니다.
sudo systemctl status google-cloud-ops-agent"*"
기본 Compute Engine 서비스 계정 대신 커스텀 서비스 계정을 사용하거나 매우 오래된 Compute Engine VM이 있는 경우 운영 에이전트를 승인해야 할 수 있습니다.
측정항목 수집 구성
NVIDIA DCGM에서 측정항목을 수집하려면 NVIDIA DCGM에서 생성하는 측정항목의 수신자를 만든 후 새 수신자의 파이프라인을 만들어야 합니다.
이 수신자는 구성에서 여러 인스턴스 모니터링과 같은 여러 인스턴스의 사용을 지원하지 않습니다. 이러한 모든 인스턴스는 동일한 시계열에 기록되며, Cloud Monitoring은 이를 구분할 수 있는 방법이 없습니다.
dcgm
측정항목의 수신자를 구성하려면 다음 필드를 지정합니다.
필드 | 기본값 | 설명 |
---|---|---|
collection_interval |
60s |
기간(예: 30s 또는 5m )입니다. |
endpoint |
localhost:5555 |
host:port 형식의 DCGM 서비스 주소입니다. |
receiver_version |
1 |
1 또는 2입니다. 버전 2에는 더 많은 측정항목이 제공됩니다. |
type |
값은 dcgm 여야 합니다. |
모니터링 대상
다음 테이블에서는 운영 에이전트가 NVIDIA DGCM 인스턴스에서 수집하는 측정항목 목록을 보여줍니다. 모든 GPU 모델에 모든 측정항목을 사용할 수 있는 것은 아닙니다. 프로파일링 측정항목은 NVIDIA GPU 모델 P100, P4에서 수집되지 않습니다.
버전 1 측정항목
다음 측정항목은 dcgm
수신기 버전 1을 사용하여 수집됩니다.
측정항목 유형 | |
---|---|
종류, 유형 모니터링 리소스 |
라벨 |
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate †
|
|
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate †
|
|
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model pipe ‡uuid
|
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
† GPU 모델 P100 및 P4에서는 사용할 수 없습니다.
‡ L4의 경우 pipe
값 fp64
는 지원되지 않습니다.
버전 2 측정항목
다음 측정항목은 dcgm
수신기 버전 2를 사용하여 수집됩니다.
측정항목 유형 | |
---|---|
종류, 유형 모니터링 리소스 |
라벨 |
workload.googleapis.com/gpu.dcgm.clock.frequency
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.clock.throttle_duration.time
|
|
CUMULATIVE , DOUBLE gce_instance |
gpu_number model uuid violation †
|
workload.googleapis.com/gpu.dcgm.codec.decoder.utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.codec.encoder.utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.ecc_errors
|
|
CUMULATIVE , INT64 gce_instance |
error_type gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.energy_consumption
|
|
CUMULATIVE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.memory.bandwidth_utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.memory.bytes_used
|
|
GAUGE , INT64 gce_instance |
gpu_number model state uuid
|
workload.googleapis.com/gpu.dcgm.nvlink.io ‡
|
|
CUMULATIVE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.pcie.io ‡
|
|
CUMULATIVE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.pipe.utilization ‡
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model pipe §uuid
|
workload.googleapis.com/gpu.dcgm.sm.utilization ‡
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.temperature
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
† P100 및 P4의 경우 violation
값 power
, thermal
, sync_boost
만 지원됩니다.
‡ GPU 모델 P100 및 P4에서는 사용할 수 없습니다.
§ L4의 경우 pipe
값 fp64
는 지원되지 않습니다.
GPU 측정항목
또한 운영 에이전트의 기본 제공 구성은 NVIDIA Management Library(NVML)에서 보고하는 agent.googleapis.com/gpu
측정항목도 수집합니다.
이러한 측정항목을 수집하기 위해 운영 에이전트에 추가 구성이 필요하지는 않지만 연결된 GPU로 VM을 만들고 GPU 드라이버를 설치해야 합니다. 자세한 내용은 gpu
측정항목 정보를 참조하세요. dcgm
수신기 버전 1 측정항목은 이러한 기본 측정항목을 보완하도록 설계되었으며 dcgm
수신기 버전 2 측정항목은 독립형으로 설계되었습니다.
구성 확인
이 섹션에서는 NVIDIA DCGM 수신자를 올바르게 구성했는지 확인하는 방법을 설명합니다. 운영 에이전트에서 원격 분석 수집을 시작하려면 1~2분 정도 걸릴 수 있습니다.
NVIDIA DCGM 측정항목이 Cloud Monitoring으로 전송되는지 확인하려면 다음을 수행합니다.
-
Google Cloud 콘솔에서 leaderboard 측정항목 탐색기 페이지로 이동합니다.
검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
- 쿼리 빌더 창의 툴바에서 이름이 code MQL 또는 code PromQL인 버튼을 선택합니다.
- MQL 전환 버튼에 MQL이 선택되어 있는지 확인합니다. 언어 전환 버튼은 쿼리 형식을 지정할 수 있는 동일한 툴바에 있습니다.
- v1 측정항목의 경우 편집기에 다음 쿼리를 입력한 다음 쿼리 실행을 클릭합니다.
fetch gce_instance | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization' | every 1m
- v2 측정항목의 경우 편집기에 다음 쿼리를 입력한 다음 실행을 클릭합니다.
fetch gce_instance | metric 'workload.googleapis.com/gpu.dcgm.sm.utilization' | every 1m
대시보드 보기
NVIDIA DCGM 측정항목을 보려면 차트나 대시보드가 구성되어 있어야 합니다. NVIDIA DCGM 통합에는 대시보드 하나 이상이 자동으로 포함됩니다. 통합을 구성하고 운영 에이전트가 측정항목 데이터 수집을 시작한 후 모든 대시보드가 자동으로 설치됩니다.
통합을 설치하지 않고도 대시보드의 정적 미리보기를 볼 수 있습니다.
설치된 대시보드를 보려면 다음을 수행합니다.
-
Google Cloud 콘솔에서 대시보드 페이지로 이동합니다.
검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
- 대시보드 목록 탭을 선택한 후 통합 카테고리를 선택합니다.
- 확인할 대시보드의 이름을 클릭합니다.
통합을 구성했지만 대시보드가 설치되지 않은 경우 운영 에이전트가 실행 중인지 확인합니다. 대시보드에 차트의 측정항목 데이터가 없으면 대시보드 설치가 실패합니다. 운영 에이전트가 측정항목 수집을 시작하면 대시보드가 자동으로 설치됩니다.
대시보드의 정적 미리보기를 보려면 다음을 수행합니다.
-
Google Cloud 콘솔에서 통합 페이지로 이동합니다.
검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
- Compute Engine 배포 플랫폼 필터를 클릭합니다.
- NVIDIA DCGM의 항목을 찾아 세부정보 보기를 클릭합니다.
- 정적 미리보기를 보려면 대시보드 탭을 선택합니다. 대시보드가 설치되어 있으면 대시보드 보기를 클릭하여 대시보드로 이동할 수 있습니다.
Cloud Monitoring의 대시보드에 대한 자세한 내용은 대시보드 및 차트를 참조하세요.
통합 페이지 사용에 대한 자세한 내용은 통합 관리를 참조하세요.
DCGM 제한사항 및 프로파일링 일시중지
DCGM 동시 사용은 Nsight Systems 또는 Nsight Compute와 같은 다른 NVIDIA 개발자 도구 사용과 충돌할 수 있습니다. 이 제한은 NVIDIA A100 및 이전 GPU에 적용됩니다. 자세한 내용은 DCGM 기능 개요에서 프로파일링 샘플링 속도를 참조하세요.
심각한 중단 없이 Nsight Systems와 같은 도구를 사용해야 할 경우 다음 명령어를 사용하여 측정항목 수집을 일시적으로 중지하거나 재개할 수 있습니다.
dcgmi profile --pause dcgmi profile --resume
프로파일링이 일시중지될 때 운영 에이전트가 수집하는 DCGM 측정항목이 VM에서 배출되지 않습니다.
다음 단계
Ansible을 사용하여 운영 에이전트를 설치하고, 서드파티 애플리케이션을 구성하고, 샘플 대시보드를 설치하는 방법은 운영 에이전트를 설치하여 서드파티 애플리케이션 문제 해결 동영상을 참조하세요.