NVIDIA Data Center GPU Manager(DCGM)

NVIDIA Data Center GPU Manager 통합은 스트리밍 멀티프로세서(SM), 블록 사용률, SM 점유율, SM 파이프 사용률, PCIe 트래픽 속도, NVLink 트래픽 속도를 포함하는 DCGM의 주요 고급 GPU 측정항목을 수집합니다. 이러한 측정항목의 목적과 해석에 대한 자세한 내용은 DCGM 기능 개요의 프로파일링 측정항목을 참조하세요.

NVIDIA Data Center GPU Manager에 대한 자세한 내용은 DCGM 문서를 참조하세요. 이 통합은 DCGM 버전 3.1 이상과 호환됩니다.

운영 에이전트는 NVIDIA의 클라이언트 라이브러리 go-dcgm을 사용하여 DCGM 측정항목을 수집합니다.

Linux 시스템에서만 이러한 측정항목을 사용할 수 있습니다. 측정항목은 NVIDIA GPU 모델 K80, P100, P4에서 수집되지 않습니다.

기본 요건

DCGM 측정항목을 수집하려면 다음을 수행해야 합니다.

DCGM 설치 및 설치 확인

DCGM 버전 3.1 이상을 설치하고 권한이 있는 서비스로 실행되는지 확인해야 합니다. DCGM을 설치하려면 DCGM 문서에서 설치를 참조하세요.

DCGM이 올바르게 실행 중인지 확인하려면 다음을 수행합니다.

  1. 다음 명령어를 실행하여 DCGM 서비스 상태를 확인합니다.

    sudo service nvidia-dcgm status
    

    서비스가 실행 중이면 nvidia-dcgm 서비스가 active (running)로 나열됩니다. 다음과 유사한 결과가 출력됩니다.

    ● nvidia-dcgm.service - NVIDIA DCGM service
    Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled)
    Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago
    Main PID: 24388 (nv-hostengine)
    Tasks: 7 (limit: 14745)
    CGroup: /system.slice/nvidia-dcgm.service
           └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
    
  2. 다음 명령어를 실행하여 GPU 기기가 있는지 확인합니다.

    dcgmi discovery --list
    

    기기가 있으면 다음과 유사한 결과가 출력됩니다.

    1 GPU found.
    +--------+----------------------------------------------------------------------+
    | GPU ID | Device Information                                                   |
    +--------+----------------------------------------------------------------------+
    | 0      | Name: NVIDIA A100-SXM4-40GB                                          |
    |        | PCI Bus ID: 00000000:00:04.0                                         |
    |        | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957                |
    +--------+----------------------------------------------------------------------+
    

DCGM용 운영 에이전트 구성

운영 에이전트 구성 가이드에 따라 DCGM 서비스에서 원격 분석을 수집하는 데 필요한 요소를 추가하고 에이전트를 다시 시작합니다.

구성 예시

다음 명령어는 DCGM용 원격 분석을 수집하고 운영 에이전트를 다시 시작하는 구성을 만듭니다.

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.
set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    dcgm:
      type: dcgm
  service:
    pipelines:
      dcgm:
        receivers:
          - dcgm
EOF

sudo systemctl restart google-cloud-ops-agent

이러한 명령어를 실행한 후 에이전트가 다시 시작되었는지 확인할 수 있습니다. 다음 명령어를 실행하고 하위 에이전트 구성요소 '측정항목 에이전트' 및 'Logging 에이전트'가 '활성(실행 중)'으로 나열되는지 확인합니다.

sudo systemctl status google-cloud-ops-agent"*"

기본 Compute Engine 서비스 계정 대신 커스텀 서비스 계정을 사용하거나 매우 오래된 Compute Engine VM이 있는 경우 운영 에이전트를 승인해야 할 수 있습니다.

측정항목 수집 구성

DCGM에서 측정항목을 수집하려면 DCGM에서 생성하는 측정항목의 수신자를 만든 후 새 수신자의 파이프라인을 만들어야 합니다.

이 수신자는 구성에서 여러 엔드포인트 모니터링과 같은 여러 인스턴스 사용을 지원하지 않습니다. 이러한 모든 인스턴스는 동일한 시계열에 기록되며, Cloud Monitoring은 이를 구분할 수 있는 방법이 없습니다.

dcgm 측정항목의 수신자를 구성하려면 다음 필드를 지정합니다.

필드 기본값 설명
collection_interval 60s 기간(예: 30s 또는 5m)입니다.
endpoint localhost:5555 host:port 형식의 DCGM 서비스 주소입니다.
type 값은 dcgm여야 합니다.

모니터링 대상

다음 표에서는 운영 에이전트가 DCGM 서비스에서 수집하는 측정항목 목록을 제공합니다. 모든 GPU 모델에 모든 측정항목을 사용할 수 있는 것은 아닙니다. 측정항목은 NVIDIA GPU 모델 K80, P100, P4에서 수집되지 않습니다.

측정항목 유형 
종류, 유형
모니터링 리소스
라벨
지원되는 GPU 모델
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
K80, P100, P4를 제외한 모든 항목
GAUGEINT64
gce_instance
direction
gpu_number
model
uuid
K80, P100, P4를 제외한 모든 항목
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate
GAUGEINT64
gce_instance
direction
gpu_number
model
uuid
K80, P100, P4를 제외한 모든 항목
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
pipe
uuid
K80, P100, P4를 제외한 모든 항목. L4의 경우 pipefp64는 지원되지 않습니다.
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
K80, P100, P4를 제외한 모든 항목
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
K80, P100, P4를 제외한 모든 항목

또한 운영 에이전트의 기본 제공 구성은 NVIDIA Management Library(NVML)에서 보고하는 agent.googleapis.com/gpu 측정항목도 수집합니다. 이러한 측정항목을 수집하기 위해 운영 에이전트에 추가 구성이 필요하지는 않지만 연결된 GPU로 VM을 만들고 GPU 드라이버를 설치해야 합니다. 자세한 내용은 gpu 측정항목 정보를 참조하세요.

구성 확인

이 섹션에서는 NVIDIA DCGM 수신자를 올바르게 구성했는지 확인하는 방법을 설명합니다. 운영 에이전트에서 원격 분석 수집을 시작하려면 1~2분 정도 걸릴 수 있습니다.

NVIDIA DCGM 측정항목이 Cloud Monitoring으로 전송되는지 확인하려면 다음을 수행합니다.

  1. Google Cloud 콘솔의 탐색 패널에서 Monitoring을 선택한 후 측정항목 탐색기를 선택합니다.

    측정항목 탐색기로 이동

  2. 쿼리 빌더 창의 툴바에서 이름이  MQL 또는  PromQL인 버튼을 선택합니다.
  3. 언어 전환 버튼에 MQL이 선택되어 있는지 확인합니다. 언어 전환 버튼은 쿼리 형식을 지정할 수 있는 동일한 툴바에 있습니다.
  4. 편집기에 다음 쿼리를 입력한 후 쿼리 실행을 클릭합니다.
    fetch gce_instance
    | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization'
    | every 1m
    

대시보드 보기

NVIDIA DCGM 측정항목을 보려면 차트나 대시보드가 구성되어 있어야 합니다. NVIDIA DCGM 통합에는 대시보드 하나 이상이 자동으로 포함됩니다. 통합을 구성하고 운영 에이전트가 측정항목 데이터 수집을 시작한 후 모든 대시보드가 자동으로 설치됩니다.

통합을 설치하지 않고도 대시보드의 정적 미리보기를 볼 수 있습니다.

설치된 대시보드를 보려면 다음을 수행합니다.

  1. Google Cloud 콘솔의 탐색 패널에서 Monitoring을 선택한 후 대시보드를 선택합니다.

    대시보드로 이동

  2. 대시보드 목록 탭을 선택한 후 통합 카테고리를 선택합니다.
  3. 확인할 대시보드의 이름을 클릭합니다.

통합을 구성했지만 대시보드가 설치되지 않은 경우 운영 에이전트가 실행 중인지 확인합니다. 대시보드에 차트의 측정항목 데이터가 없으면 대시보드 설치가 실패합니다. 운영 에이전트가 측정항목 수집을 시작하면 대시보드가 자동으로 설치됩니다.

대시보드의 정적 미리보기를 보려면 다음을 수행합니다.

  1. Google Cloud 콘솔의 탐색 패널에서 Monitoring을 선택한 후 통합을 선택합니다.

    통합으로 이동

  2. Compute Engine 배포 플랫폼 필터를 클릭합니다.
  3. NVIDIA DCGM의 항목을 찾아 세부정보 보기를 클릭합니다.
  4. 정적 미리보기를 보려면 대시보드 탭을 선택합니다. 대시보드가 설치되어 있으면 대시보드 보기를 클릭하여 대시보드로 이동할 수 있습니다.

Cloud Monitoring의 대시보드에 대한 자세한 내용은 대시보드 및 차트를 참조하세요.

통합 페이지 사용에 대한 자세한 내용은 통합 관리를 참조하세요.

DCGM 제한사항 및 프로파일링 일시중지

DCGM 동시 사용은 Nsight Systems 또는 Nsight Compute와 같은 다른 NVIDIA 개발자 도구 사용과 충돌할 수 있습니다. 이 제한은 NVIDIA A100 및 이전 GPU에 적용됩니다. 자세한 내용은 DCGM 기능 개요에서 프로파일링 샘플링 속도를 참조하세요.

심각한 중단 없이 Nsight Systems와 같은 도구를 사용해야 할 경우 다음 명령어를 사용하여 측정항목 수집을 일시적으로 중지하거나 재개할 수 있습니다.

dcgmi profile --pause
dcgmi profile --resume

프로파일링이 일시중지될 때 운영 에이전트가 수집하는 DCGM 측정항목이 VM에서 배출되지 않습니다.

다음 단계

Ansible을 사용하여 운영 에이전트를 설치하고, 서드파티 애플리케이션을 구성하고, 샘플 대시보드를 설치하는 방법은 운영 에이전트를 설치하여 서드파티 애플리케이션 문제 해결 동영상을 참조하세요.