NVIDIA Data Center GPU Manager(DCGM)는 클러스터 환경에서 NVIDIA 데이터 센터 GPU를 관리하고 모니터링하기 위한 도구 모음입니다.
DCGM을 사용하여 GPU 환경의 문제를 해결하려면 다음을 완료합니다.
VM에 연결된 GPU 모델에 권장되는 최신 NVIDIA 드라이버를 사용하고 있는지 확인하세요.
드라이버 버전을 검토하려면 권장되는 NVIDIA 드라이버 버전을 참조하세요.
최신 버전의 DCGM이 설치되어 있는지 확인합니다. 최신 버전을 설치하려면 DCGM 설치를 참조하세요.
문제 진단
dcgmi 진단 명령어를 실행하면 진단 도구에서 보고하는 문제에 대해 조치를 취하기 위한 다음 단계가 포함됩니다. 다음 예는 dcgmi diag -r memory -j 명령어의 조치 가능한 출력을 보여줍니다.
{
........
"category":"Hardware",
"tests":[
{
"name":"GPU Memory",
"results":[
{
"gpu_id":"0",
"info":"GPU 0 Allocated 23376170169
bytes (98.3%)",
"status":"Fail",
""warnings":[
{
"warning":"Pending page
retirements together with a DBE were detected on GPU 0. Drain the GPU and reset it or reboot the node to resolve this issue.",
"error_id":83,
"error_category":10,
"error_severity":6
}
]
}
.........
위의 출력 스니펫에서 GPU 0에 복구 불가능한 오류로 인한 대기 중인 페이지 중단이 있음을 확인할 수 있습니다.
출력에는 고유한 error_id와 문제 디버깅에 관한 조언이 제공되어 있습니다.
이 예시 출력의 경우 GPU를 드레이닝하고 VM을 재부팅하는 것이 좋습니다. 대부분의 경우 출력의 이 섹션에 있는 안내에 따라 문제를 해결할 수 있습니다.
지원 사례 접수하기
dcgmi 진단 실행의 출력에서 제공된 안내에 따라 문제를 해결할 수 없는 경우 지원 케이스를 열 수 있습니다. 지원 케이스를 열 때는 다음 정보를 제공해야 합니다.
실행한 명령어 및 반환된 출력
호스트 엔진 및 진단 로그와 같은 관련 로그 파일. 필요한 로그 파일을 수집하려면 gather-dcgm-logs.sh 스크립트를 실행하면 됩니다.
Debian 및 RPM 기반 시스템이 기본 설치된 경우 이 스크립트는 /usr/local/dcgm/scripts에 있습니다.
dcgmi diag 실패의 경우 실패한 플러그인의 통계 파일을 제공합니다.
통계 파일은 stats_PLUGIN_NAME.json 이름 지정 규칙을 사용합니다.
예를 들어 pcie 플러그인이 실패한 경우 stats_pcie.json이라는 파일을 포함합니다.
NVIDIA 시스템 정보 및 드라이버 상태. 이 정보를 수집하려면 nvidia-bug-report.sh 스크립트를 실행하면 됩니다.
또한 이 스크립트를 실행하면 문제가 DCGM 자체의 버그가 아니라 다른 NVIDIA 종속 항목으로 인해 발생한 경우 추가 디버깅에 도움이 됩니다.
오류 발생 전 사용자 환경에 적용된 최근 변경사항에 대한 세부정보입니다.
Xid 메시지
GPU가 연결된 VM을 만든 후에는 애플리케이션에서 GPU에 액세스할 수 있도록 GPU VM에 NVIDIA 기기 드라이버를 설치해야 합니다. 하지만 이러한 드라이버에서 오류 메시지를 반환하는 경우가 있습니다.
Xid 메시지는 Linux VM의 운영체제 커널 로그나 이벤트 로그에 출력되는 NVIDIA 드라이버의 오류 보고서입니다. 이러한 메시지는 /var/log/messages 파일에 저장됩니다.
다음 섹션에서는 GPU 메모리 오류, GPU 시스템 프로세서(GSP) 오류, 잘못된 메모리 액세스 오류와 같은 가장 일반적인 유형으로 그룹화된 일부 Xid 메시지를 처리하는 방법을 안내합니다.
GPU 메모리 오류
GPU 메모리는 데이터의 임시 저장에 사용할 수 있는 GPU에서 사용 가능한 메모리입니다. GPU 메모리는 단일 비트 오류(SBE)를 감지 및 수정하고 이중 비트 오류(DBE)를 감지 및 보고하는 오류 정정 코드(ECC)로 보호됩니다.
NVIDIA A100 GPU 출시 이전에는 동적 페이지 중단이 지원되었습니다. NVIDIA A100 이후 GPU 출시 버전(예: NVIDIA H100)에는 행 다시 매핑 오류 복구가 도입되었습니다. ECC는 기본적으로 사용 설정되어 있습니다. ECC를 사용 설정 상태로 유지하는 것이 좋습니다.
매우 드물게 하드웨어 성능 저하로 인해 잘못된 메모리 액세스 오류가 반환될 수 있습니다. 하드웨어 문제인지 확인하려면 NVIDIA Data Center GPU Manager(DCGM)를 사용합니다.
dcgmi diag -r 3 또는 dcgmi diag -r 4를 실행하여 서로 다른 수준의 테스트 범위와 기간을 실행할 수 있습니다. 하드웨어 문제인 경우 Cloud Customer Care에 케이스를 제출합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-31(UTC)"],[[["\u003cp\u003eThis guide provides steps to troubleshoot issues with virtual machines (VMs) on Compute Engine that have attached GPUs, primarily using NVIDIA Data Center GPU Manager (DCGM) and analyzing Xid error messages.\u003c/p\u003e\n"],["\u003cp\u003eUsing \u003ccode\u003edcgmi\u003c/code\u003e diagnostic commands can help identify GPU issues, such as memory problems, and the output provides guidance, like error IDs and severity levels, to address those problems, including steps like draining the GPU or rebooting the VM.\u003c/p\u003e\n"],["\u003cp\u003eIf DCGM diagnostics fail to resolve the issue, users should open a support case, providing the \u003ccode\u003edcgmi\u003c/code\u003e command output, relevant log files, stats files, NVIDIA system information, and details of recent environmental changes.\u003c/p\u003e\n"],["\u003cp\u003eXid messages in the kernel or event logs indicate NVIDIA driver errors, which can be categorized into GPU memory errors, GPU System Processor (GSP) errors, and illegal memory access errors, each having specific resolutions like resetting GPUs, deleting, or recreating the VM.\u003c/p\u003e\n"],["\u003cp\u003eResolving certain GPU errors may require you to reset the GPU by rebooting the VM or using \u003ccode\u003envidia-smi --gpu-reset\u003c/code\u003e command, and if issues continue, a VM delete and recreate may be needed before opening a support case.\u003c/p\u003e\n"]]],[],null,["# Troubleshoot GPU VMs\n\n*** ** * ** ***\n\nThis page shows you how to resolve issues for VMs running on Compute Engine\nthat have attached GPUs.\n\nIf you are trying to create a VM with attached GPUs and are getting errors,\nreview [Troubleshooting resource availability errors](/compute/docs/troubleshooting/troubleshooting-resource-availability) and\n[Troubleshooting creating and updating VMs](/compute/docs/troubleshooting/troubleshooting-vm-creation).\n\nTroubleshoot GPU VMs by using NVIDIA DCGM\n-----------------------------------------\n\nNVIDIA Data Center GPU Manager (DCGM) is a suite of tools for managing and\nmonitoring NVIDIA data center GPUs in cluster environments.\n\nIf you want to use DCGM to troubleshoot issues in your GPU environment, complete\nthe following:\n\n- Ensure that you are using the latest recommended NVIDIA driver for the GPU model that is attached to your VM. To review driver versions, see [Recommended NVIDIA driver versions](/compute/docs/gpus/install-drivers-gpu#minimum-driver).\n- Ensure that you installed the latest version of DCGM. To install the latest version, see [DCGM installation](https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/getting-started.html).\n\n### Diagnose issues\n\nWhen you run a `dcgmi` diagnostic command, the issues reported by the diagnostic\ntool include next steps for taking action on the issue. The following example\nshows the actionable output from the `dcgmi diag -r memory -j` command. \n\n```\n{\n ........\n \"category\":\"Hardware\",\n \"tests\":[\n {\n \"name\":\"GPU Memory\",\n \"results\":[\n {\n \"gpu_id\":\"0\",\n \"info\":\"GPU 0 Allocated 23376170169\nbytes (98.3%)\",\n \"status\":\"Fail\",\n \"\"warnings\":[\n {\n \"warning\":\"Pending page\nretirements together with a DBE were detected on GPU 0. Drain the GPU and reset it or reboot the node to resolve this issue.\",\n \"error_id\":83,\n \"error_category\":10,\n \"error_severity\":6\n }\n ]\n }\n .........\n```\n\nFrom the preceding output snippet, you can see that `GPU 0` has pending page\nretirements that are caused by a non-recoverable error.\nThe output provided the unique `error_id` and advice on debugging the issue.\nFor this example output, it is recommended that you drain the GPU and reboot\nthe VM. In most cases, following the instructions in this section of the output\ncan help to resolve the issue.\n| **Pro Tip:** Take note of the error severity.\n| In the example output a value of `\"error_severity\":6`\n| corresponds to a `DCGM_ERROR_RESET` which means that a\n| reset resolves issues with this severity value.\n|\n| For a full list of\n| `error_severity` values, review the `dcgmErrorSeverity_enum`\n| section on the\n| [`dcgm_errors` GitHub file](https://github.com/NVIDIA/DCGM/blob/master/dcgmlib/dcgm_errors.h).\n\n### Open a support case\n\nIf you are unable to resolve the issues by using the guidance provided by the\noutput of your `dcgmi` diagnostic run, you can open a support case. When you\nopen a support case, you need to provide the following information:\n\n1. The command that was run and the output returned.\n2. Relevant log files such as host engine and diagnostic logs. To gather the\n required log files, you can run the `gather-dcgm-logs.sh` script.\n\n For a default installation on Debian and RPM-based systems, this script is\n located in `/usr/local/dcgm/scripts`.\n3. For `dcgmi diag` failures, provide the stats files for the plugins that failed.\n The stats file uses the following naming convention:\n `stats_`\u003cvar translate=\"no\"\u003ePLUGIN_NAME\u003c/var\u003e`.json`.\n\n For example, if the `pcie` plugin failed, include the file named `stats_pcie.json`.\n4. NVIDIA system information and driver state. To gather this information, you\n can run the `nvidia-bug-report.sh` script. If you are using an instance with\n Blackwell GPUs, follow [Generate NVIDIA Bug Report for Blackwell GPUs](/compute/docs/troubleshooting/generate-nvidia-bug-report-for-blackwell-gpus) to obtain a comprehensive bug report.\n\n Running this script also helps with additional debugging if the problem is\n caused by other NVIDIA dependencies and not a bug in DCGM itself.\n5. Details about any recent changes that were made to your environment\n preceding the failure.\n\nXid messages\n------------\n\nAfter you create a VM that has attached GPUs, you must install NVIDIA device\ndrivers [on your GPU VMs](/compute/docs/gpus/install-drivers-gpu)\nso that your applications can access the GPUs. However, sometimes these drivers\nreturn error messages.\n\nAn Xid message is an error report from the NVIDIA driver that is printed to the\noperating system's kernel log or event log for your Linux VM. These messages are\nplaced in the `/var/log/messages` file.\n\nFor more information about Xid messages including potential causes,\nsee [NVIDIA documentation](https://docs.nvidia.com/deploy/xid-errors/index.html).\n\nThe following section provides guidance on handling some Xid messages grouped\nby the most common types: GPU memory errors, GPU System Processor (GSP) errors,\nand illegal memory access errors.\n\n### GPU memory errors\n\nGPU memory is the memory that is available on a GPU that can be used for\ntemporary storage of data. GPU memory is protected with Error Correction Code,\nECC, which detects and corrects single bit errors (SBE) and detects and reports\nDouble Bit Errors (DBE).\n\nPrior to the release of the NVIDIA A100 GPUs,\n[dynamic page retirement](https://docs.nvidia.com/deploy/a100-gpu-mem-error-mgmt/index.html#dynamic-blacklisting)\nwas supported. For NVIDIA A100 and later GPU releases (such as NVIDIA H100),\n[row remap error](https://docs.nvidia.com/deploy/a100-gpu-mem-error-mgmt/index.html#row-remapping)\nrecovery is introduced. ECC is enabled by default. Google highly recommends\nkeeping ECC enabled.\n\nThe following are common GPU memory errors and their suggested resolutions.\n\n### GSP errors\n\nA [GPU System Processor](https://download.nvidia.com/XFree86/Linux-x86_64/510.39.01/README/gsp.html)\n(GSP) is a microcontroller that runs on GPUs and handles some of the low level\nhardware management functions.\n\n### Illegal memory access errors\n\nThe following Xids are returned when applications have illegal memory access\nissues:\n\n- `Xid 13: `*Graphics Engine Exception*\n- `Xid 31: `*GPU memory page fault*\n\nIllegal memory access errors are typically caused by your workloads trying\nto access memory that is already freed or is out of bounds. This can be caused\nby issues such as the dereferencing of an invalid pointer, or an out bounds array.\n\nTo resolve this issue, you need to debug your application. To debug your\napplication, you can use\n[cuda-memcheck](https://developer.nvidia.com/cuda-memcheck) and\n[CUDA-GDB](https://docs.nvidia.com/cuda/cuda-gdb/index.html).\n\nIn some very rare cases, hardware degradation might cause illegal memory access\nerrors to be returned. To identify if the issue is with your hardware, use\n[NVIDIA Data Center GPU Manager (DCGM)](https://developer.nvidia.com/dcgm).\nYou can run `dcgmi diag -r 3` or `dcgmi diag -r 4` to run different levels of\ntest coverage and duration. If you identify that the issue is with the hardware,\nfile a case with [Cloud Customer Care](/support/docs).\n\n### Other common Xid error messages\n\nReset GPUs\n----------\n\nSome issues might require you to reset your GPUs. To reset GPUs,\ncomplete the following steps:\n\n- For N1, G2, and A2 VMs, reboot the VM by running `sudo reboot`.\n- For A3 and A4 VMs, run `sudo nvidia-smi --gpu-reset`.\n - For most Linux VMs, the `nvidia-smi` executable is located in the `/var/lib/nvidia/bin` directory.\n - For GKE nodes, the `nvidia-smi` executable is located in the `/home/kubernetes/bin/nvidia` directory.\n\nIf errors persist after resetting the GPU, you need to\n[delete](/compute/docs/instances/deleting-instance) and\n[recreate the VM](/compute/docs/gpus/create-vm-with-gpus).\n\nIf the error persists after a delete and recreate, file a case with\n[Cloud Customer Care](/support/docs) to move the VM into the\n[repair stage](/compute/docs/instances/instance-lifecycle).\n\nWhat's next\n-----------\n\nReview [GPU machine types](/compute/docs/gpus)."]]