GKE의 TPU 문제 해결

Standard

이 페이지에서는 Google Kubernetes Engine(GKE)에서 TPU와 관련된 문제를 해결하는 방법을 설명합니다.

TPU 요청을 충족할 수 있는 할당량이 부족함

Insufficient quota to satisfy the request와 유사한 오류는Google Cloud 프로젝트에 요청을 처리할 수 있는 할당량이 부족하다는 의미입니다.

이 문제를 해결하려면 프로젝트의 할당량 한도 및 현재 사용량을 확인하세요. 필요한 경우 TPU 할당량 증가를 요청하세요.

할당량 한도 및 현재 사용량 확인

다음 섹션에서는 GKE에서 TPU를 사용할 때 할당량이 충분한지 확인하는 방법을 설명합니다.

TPU용 Compute Engine API 할당량의 한도 및 현재 사용량을 확인하려면 다음 단계를 따르세요.

Google Cloud 콘솔에서 할당량 페이지로 이동합니다.

할당량으로 이동

필터 상자에서 다음을 수행합니다,

다음 표를 사용하여 TPU 버전에 따라 할당량의 속성을 선택하고 복사합니다. 예를 들어 온디맨드 TPU v5e 노드를 만들려면 Name: TPU v5 Lite PodSlice chips를 입력합니다.

TPU 버전	온디맨드 인스턴스의 할당량 속성 및 이름	스팟² 인스턴스의 할당량 속성 및 이름
TPU v3	Dimensions (e.g. location): tpu_family:CT3	해당 사항 없음
TPU v3	Dimensions (e.g. location): tpu_family:CT3P	해당 사항 없음
TPU v4	Name: TPU v4 PodSlice chips	Name: Preemptible TPU v4 PodSlice chips
TPU v5e	Name: TPU v5 Lite PodSlice chips	Name: Preemptible TPU v5 Lite Podslice chips
TPU v5p	Name: TPU v5p chips	Name: Preemptible TPU v5p chips
TPU Trillium	Dimensions (e.g. location): tpu_family:CT6E	Name: Preemptible TPU slices v6e

측정기준(예: 위치) 속성을 선택하고 region:을 입력한 다음 GKE에서 TPU를 생성할 리전의 이름을 입력합니다. 예를 들어 us-west4-a 영역에 TPU 슬라이스 노드를 만들려면 region:us-west4를 입력합니다. TPU 할당량은 리전 기준이므로 동일한 리전 내의 모든 영역에서 동일한 TPU 할당량을 사용합니다.

입력한 필터와 일치하는 할당량이 없으면 필요한 리전에 대해 지정된 할당량이 프로젝트에 부여되지 않았으므로 TPU 할당량 조정을 요청해야 합니다.

TPU 예약이 생성되면 해당 할당량의 한도 및 현재 사용량 값이 TPU 예약의 칩 수만큼 증가합니다. 예를 들어 16개의 TPU v5e 칩에 대한 예약이 생성되면 관련 리전에서 TPU v5 Lite PodSlice chips 할당량의 한도 및 현재 사용량이 모두 16개씩 증가합니다.

추가 GKE 리소스의 할당량

GKE에서 리소스를 만드는 리전에서 다음 GKE 관련 할당량을 늘려야 할 수 있습니다.

영구 디스크 SSD(GB) 할당량: 각 Kubernetes 노드의 부팅 디스크에는 기본적으로 100GB가 필요합니다. 따라서 이 할당량은 생성될 것으로 예상되는 최대 GKE 노드 수와 100GB(노드 * 100GB)의 곱 이상으로 설정해야 합니다.
사용 중인 IP 주소 할당량: 각 Kubernetes 노드는 하나의 IP 주소를 사용합니다 따라서 이 할당량은 생성될 것으로 예상되는 최대 GKE 노드 수 이상으로 설정해야 합니다.
max-pods-per-node가 서브넷 범위와 일치하는지 확인: 각 Kubernetes 노드는 포드에 보조 IP 범위를 사용합니다. 예를 들어 max-pods-per-node가 32이면 64개의 IP 주소가 필요하며 이는 노드당 /26 서브넷으로 변환됩니다. 이 범위는 다른 클러스터와 공유해서는 안 됩니다. IP 주소 범위가 소진되지 않도록 하려면 --max-pods-per-node 플래그를 사용하여 노드에 예약할 수 있는 포드 수를 제한합니다. max-pods-per-node의 할당량은 생성될 것으로 예상되는 최대 GKE 노드 수 이상으로 설정해야 합니다.

할당량 상향을 요청하려면 할당량 조정 요청을 참고하세요.

TPU 요청을 충족할 수 있는 TPU 리소스가 부족함

GCE_STOCKOUT이 포함된 오류는 요청을 처리하기 위해 일시적으로 TPU 리소스를 사용할 수 없음을 나타냅니다. GKE는 TPU 리소스를 사용할 수 있게 되면 프로비저닝 요청을 처리합니다.

이 문제를 해결하려면 TPU 예약을 사용하면 됩니다.

TPU 슬라이스 노드 풀에서 노드 자동 프로비저닝을 사용 설정할 때의 오류

TPU를 지원하지 않는 GKE 클러스터에서 노드 자동 프로비저닝을 사용 설정하는 경우 다음 오류가 발생합니다.

오류 메시지는 다음과 비슷합니다.

ERROR: (gcloud.container.clusters.create) ResponseError: code=400,
  message=Invalid resource: tpu-v4-podslice.

이 문제를 해결하려면 GKE 클러스터를 버전 1.27.6 이상으로 업그레이드합니다.

GKE가 TPU 슬라이스 노드를 자동으로 프로비저닝하지 않음

다음 섹션에서는 GKE가 TPU 슬라이스 노드를 자동으로 프로비저닝하지 않는 경우와 이를 해결하는 방법을 설명합니다.

구성 오류 제한

클러스터의 자동 프로비저닝 한도가 없거나 너무 낮으면 GKE가 TPU 슬라이스 노드를 자동으로 프로비저닝하지 않습니다. 이러한 시나리오에서는 다음과 같은 오류가 관측될 수 있습니다.

GKE가 한도가 정의되지 않은 TPU 슬라이스 노드 풀을 자동 프로비저닝하려고 시도하면 클러스터 자동 확장 처리 가시성 로그에 다음 오류 메시지가 표시됩니다.
```
messageId: "no.scale.up.nap.pod.tpu.no.limit.defined"
```
TPU 슬라이스 노드 풀이 있지만 리소스 제한 위반으로 인해 GKE를 수직 확장할 수 없으면 kubectl get events 명령어를 실행할 때 다음 오류 메시지가 표시될 수 있습니다.
```
11s Normal NotTriggerScaleUp pod/tpu-workload-65b69f6c95-ccxwz pod didn't
trigger scale-up: 1 node(s) didn't match Pod's node affinity/selector, 1 max
cluster cpu, memory limit reached
```
또한 이 시나리오에서는 Google Cloud 콘솔에서 다음과 비슷한 경고 메시지가 표시될 수 있습니다.
```
"Your cluster has one or more unschedulable Pods"
```
GKE가 리소스 한도를 초과하는 TPU 슬라이스 노드 풀을 자동 프로비저닝하려고 시도하면 클러스터 자동 확장 처리 가시성 로그에 다음 오류 메시지가 표시됩니다.
```
messageId: "no.scale.up.nap.pod.zonal.resources.exceeded"
```
또한 이 시나리오에서는 Google Cloud 콘솔에서 다음과 비슷한 경고 메시지가 표시될 수 있습니다.
```
"Can't scale up because node auto-provisioning can't provision a node pool for
the Pod if it would exceed resource limits"
```

이 문제를 해결하려면 클러스터에서 TPU 칩, CPU 코어, 메모리의 최대 한도를 늘립니다.

이러한 단계를 완료하려면 다음 안내를 따르세요.

제공된 TPU 머신 유형 및 개수의 리소스 요구사항을 계산합니다. 시스템 워크로드와 같이 TPU 슬라이스 이외의 노드 풀에 대해 리소스를 추가해야 합니다.
특정 머신 유형 및 영역에 대해 사용 가능한 TPU, CPU, 메모리에 대한 설명을 확인합니다. gcloud CLI를 사용합니다.
```
gcloud compute machine-types describe MACHINE_TYPE \
    --zone COMPUTE_ZONE
```
다음을 바꿉니다.
- MACHINE_TYPE: 검색할 머신 유형입니다.
- COMPUTE_ZONE: 컴퓨팅 영역의 이름입니다.
출력에 다음과 비슷한 설명 줄이 포함됩니다.
```
  description: 240 vCPUs, 407 GB RAM, 4 Google TPUs
  ```
```
이러한 양에 필요한 노드 수를 곱하여 총 CPU 및 메모리 수를 계산합니다. 예를 들어 ct4p-hightpu-4t 머신 유형에는 TPU 칩 4개와 함께 240개 CPU 코어와 407GB RAM이 사용됩니다. 5개 노드에 해당하는 20개의 TPU 칩이 필요하다고 가정하면 다음 값을 정의해야 합니다.
- --max-accelerator=type=tpu-v4-podslice,count=20.
- CPU = 1200(240 곱하기 5)
- memory = 2035(407 곱하기 5)
시스템 워크로드와 같은 TPU 이외의 슬라이스 노드를 수용할 수 있도록 약간의 여유를 두고 한도를 정의해야 합니다.
클러스터 한도를 업데이트합니다.
```
gcloud container clusters update CLUSTER_NAME \
    --max-accelerator type=TPU_ACCELERATOR \
    count=MAXIMUM_ACCELERATOR \
    --max-cpu=MAXIMUM_CPU \
    --max-memory=MAXIMUM_MEMORY
```
다음을 바꿉니다.
- CLUSTER_NAME: 클러스터의 이름입니다.
- TPU_ACCELERATOR: TPU 가속기의 이름입니다.
- MAXIMUM_ACCELERATOR: 클러스터의 최대 TPU 칩 수입니다.
- MAXIMUM_CPU: 클러스터의 최대 코어 수입니다.
- MAXIMUM_MEMORY: 클러스터의 최대 메모리 용량(GB)입니다.

일부 인스턴스가 실행되지 않음

ERROR: nodes cannot be created due to lack of capacity. The missing nodes
will be created asynchronously once capacity is available. You can either
wait for the nodes to be up, or delete the node pool and try re-creating it
again later.

GKE 작업의 시간이 초과되었거나 단일 호스트 또는 멀티 호스트 TPU 노드 풀 프로비저닝을 위해 요청을 처리하고 대기열에 추가할 수 없는 경우에 이 오류가 표시될 수 있습니다. 용량 문제를 완화하려면 예약을 사용하거나 스팟 VM을 고려해 보세요.

워크로드 구성 오류

이 오류는 워크로드 구성 오류로 인해 발생합니다. 이 오류의 가장 일반적인 원인은 다음과 같습니다.

포드 사양에서 cloud.google.com/gke-tpu-accelerator 및 cloud.google.com/gke-tpu-topology 라벨이 잘못되었거나 누락되었습니다. GKE는 TPU 슬라이스 노드 풀을 프로비저닝하지 않으며 노드 자동 프로비전으로 클러스터를 수직 확장할 수 없습니다.
포드 사양의 해당 요구사항에 google.com/tpu가 지정되지 않았습니다.

이 문제를 해결하려면 다음 중 한 가지를 따르세요.

워크로드 노드 선택기에 지원되지 않는 라벨이 없는지 확인합니다. 예를 들어 cloud.google.com/gke-nodepool 라벨의 노드 선택기는 GKE가 포드에 대해 추가 노드 풀을 만들지 못하도록 방지합니다.
TPU 워크로드가 실행되는 포드 템플릿 사양에 다음 값이 포함되는지 확인합니다.
- nodeSelector에 있는 cloud.google.com/gke-tpu-accelerator 및 cloud.google.com/gke-tpu-topology 라벨
- 요청에 있는 google.com/tpu

GKE에서 TPU 워크로드를 배포하는 방법은 TPU 슬라이스 노드 풀에서 사용 가능한 TPU 칩 수를 표시하는 워크로드 실행을 참조하세요.

GKE에서 TPU를 사용하는 포드를 배포할 때 발생하는 예약 오류

다음 문제는 GKE가 TPU 슬라이스 노드에서 포드 요청 TPU를 예약할 수 없을 때 발생합니다. 예를 들어 이 문제는 일부 TPU 이외의 슬라이스가 TPU 포드에 이미 예약된 경우에 발생할 수 있습니다.

포드에서 FailedScheduling 이벤트로 발생하는 오류 메시지는 다음과 비슷합니다.

Cannot schedule pods: Preemption is not helpful for scheduling.

Error message: 0/2 nodes are available: 2 node(s) had untolerated taint
{google.com/tpu: present}. preemption: 0/2 nodes are available: 2 Preemption is
not helpful for scheduling

이 문제를 해결하려면 다음 단계를 따르세요.

시스템에 중요한 포드가 비 TPU 노드에서 실행될 수 있도록 클러스터에 CPU 노드 풀이 하나 이상 있는지 확인합니다. 자세한 내용은 특정 노드 풀에 노드 배포를 참조하세요.

GKE에서 JobSet의 일반적인 문제 해결

JobSet의 일반적인 문제 및 권장되는 해결 방법은 JobSet 문제 해결 페이지를 참조하세요. 이 페이지에서는 '웹훅을 사용할 수 없음' 오류, 하위 작업 또는 포드가 생성되지 않는 경우, JobSet 및 Kueue를 사용하는 선점된 워크로드의 재개 문제와 같은 일반적인 문제를 다룹니다.

TPU 초기화 실패

다음 문제는 TPU 기기 액세스 권한 부족으로 인해 GKE가 새 TPU 워크로드를 프로비저닝할 수 없을 때 발생합니다.

오류 메시지는 다음과 비슷합니다.

TPU platform initialization failed: FAILED_PRECONDITION: Couldn't mmap: Resource
temporarily unavailable.; Unable to create Node RegisterInterface for node 0,
config: device_path: "/dev/accel0" mode: KERNEL debug_data_directory: ""
dump_anomalies_only: true crash_in_debug_dump: false allow_core_dump: true;
could not create driver instance

이 문제를 해결하려면 권한이 있는 모드에서 TPU 컨테이너를 실행하거나 컨테이너 내 ulimit을 늘려야 합니다.

예약 교착 상태

두 개 이상의 작업 예약이 교착 상태로 인해 실패할 수 있습니다. 다음 상황이 모두 발생하는 시나리오를 예시로 들겠습니다.

포드 어피니티 규칙이 있는 두 개의 작업(작업 A 및 작업 B)이 있습니다. GKE는 v4-32의 TPU 토폴로지를 사용하여 두 작업에 대해 TPU 슬라이스를 예약합니다.
클러스터에 v4-32 TPU 슬라이스가 2개 있습니다.
클러스터에는 두 작업을 예약할 수 있는 충분한 용량이 있으며 이론적으로는 각 작업을 각 TPU 슬라이스에 빠르게 예약할 수 있습니다.
Kubernetes 스케줄러는 한 슬라이스에서 작업 A의 포드 한 개를 예약한 후 동일한 슬라이스에서 작업 B의 포드 한 개를 예약합니다.

이 경우 작업 A에 대한 포드 어피니티 규칙을 고려해 스케줄러가 각 단일 TPU 슬라이스에 작업 A와 작업 B의 나머지 모든 포드를 예약하려고 시도합니다. 그 결과, GKE에서 작업 A나 작업 B를 완전히 예약할 수 없게 됩니다. 따라서 두 작업의 상태는 대기 중으로 유지됩니다.

이 문제를 해결하려면 다음 예시와 같이 cloud.google.com/gke-nodepool을 topologyKey로 사용한 포드 안티-어피니티를 사용합니다.

apiVersion: batch/v1
kind: Job
metadata:
 name: pi
spec:
 parallelism: 2
 template:
   metadata:
     labels:
       job: pi
   spec:
     affinity:
       podAffinity:
         requiredDuringSchedulingIgnoredDuringExecution:
         - labelSelector:
             matchExpressions:
             - key: job
               operator: In
               values:
               - pi
           topologyKey: cloud.google.com/gke-nodepool
       podAntiAffinity:
         requiredDuringSchedulingIgnoredDuringExecution:
         - labelSelector:
             matchExpressions:
             - key: job
               operator: NotIn
               values:
               - pi
           topologyKey: cloud.google.com/gke-nodepool
           namespaceSelector:
             matchExpressions:
             - key: kubernetes.io/metadata.name
               operator: NotIn
               values:
               - kube-system
     containers:
     - name: pi
       image: perl:5.34.0
       command: ["sleep",  "60"]
     restartPolicy: Never
 backoffLimit: 4

us-central2에서 클러스터 생성 중에 권한이 거부됨

us-central2(TPU v4를 사용할 수 있는 유일한 리전)에서 클러스터를 만들려고 시도하면 다음과 비슷한 오류 메시지가 표시될 수 있습니다.

ERROR: (gcloud.container.clusters.create) ResponseError: code=403,
message=Permission denied on 'locations/us-central2' (or it may not exist).

이 오류는 us-central2 리전이 비공개 리전이기 때문에 발생합니다.

이 문제를 해결하려면 지원 케이스를 제출하거나 계정팀에Google Cloud 프로젝트 내에서 us-central2를 볼 수 있게 해달라고 요청하세요.

us-central2에서 TPU 노드 풀 만들기 중 할당량 부족

us-central2(TPU v4를 사용할 수 있는 유일한 리전)에서 TPU 슬라이스 노드 풀을 만들려고 시도하면 처음 TPU v4노드 풀을 만들 때 다음 GKE 관련 할당량을 늘려야 할 수 있습니다.

us-central2의 영구 디스크 SSD(GB) 할당량: 각 Kubernetes 노드의 부팅 디스크에는 기본적으로 100GB가 필요합니다. 따라서 이 할당량은 us-central2 및 100GB(maximum_nodes X 100 GB)에서 생성될 것으로 예상되는 최대 GKE 노드 수의 곱 이상으로 설정해야 합니다.
us-central2의 사용 중인 IP 주소 할당량: 각 Kubernetes 노드는 하나의 IP 주소를 사용합니다. 따라서 이 할당량은 us-central2에서 생성될 것으로 예상되는 최대 GKE 노드 수 이상으로 설정해야 합니다.

GKE 클러스터 만들기 중 서브넷 누락

us-central2(TPU v4를 사용할 수 있는 유일한 리전)에서 클러스터를 만들려고 시도하면 다음과 비슷한 오류 메시지가 표시될 수 있습니다.

ERROR: (gcloud.container.clusters.create) ResponseError: code=404,
message=Not found: project <PROJECT> does not have an auto-mode subnetwork
for network "default" in region <REGION>.

GKE 노드에 연결을 제공하려면 VPC 네트워크에 서브넷이 필요합니다. 하지만 us-central2와 같은 특정 리전에서는 서브넷 만들기를 위해 자동 모드로 기본 VPC 네트워크를 사용하더라도 기본 서브넷이 생성되지 않을 수 있습니다.

이 문제를 해결하려면 GKE 클러스터를 만들기 전에 리전에 커스텀 서브넷이 생성되었는지 확인합니다. 이 서브넷은 동일 VPC 네트워크의 다른 리전에 생성된 다른 서브넷과 겹치지 않아야 합니다.

읽기 전용 kubelet 포트 사용 설정

1.32 이전의 GKE 클러스터 버전을 사용하는 경우 insecureKubeletReadonlyPortEnabled 필드가 true로 설정되어 있는지 확인합니다.

노드 풀을 설명하여 insecureKubeletReadonlyPortEnabled 필드의 값을 확인할 수 있습니다.

gcloud container node-pools describe NODEPOOL_NAME --cluster=CLUSTER_NAME

출력에 insecureKubeletReadonlyPortEnabled: false가 포함된 경우 다음 명령어를 실행하여 포트를 사용 설정합니다.

gcloud container node-pools update NODEPOOL_NAME --cluster CLUSTER_NAME --enable-insecure-kubelet-readonly-port

다음 샘플 오류는 포트 10255에 대한 TCP 연결 오류를 언급하며, 이는 포트를 사용 설정해야 할 수도 있음을 나타냅니다.

error sending request: Get "http://gke-tpu-d32e5ca6-f4gp:10255/pods": GET http://gke-tpu-d32e5ca6-f4gp:10255/pods giving up after 5 attempt(s): Get "http://gke-tpu-d32e5ca6-f4gp:10255/pods": dial tcp [2600:1901:8130:662:0:19c::]:10255: connect: connection refused

failed to get TPU container Info: failed to call kubelet: Get "http://gke-tpu-d32e5ca6-f4gp:10255/pods": GET http://gke-tpu-d32e5ca6-f4gp:10255/pods giving up after 5 attempt(s): Get "http://gke-tpu-d32e5ca6-f4gp:10255/pods": dial tcp [2600:1901:8130:662:0:19c::]:10255: connect: connection refused

JAX로 학습 워크로드를 실행할 때 연결 오류

TPU 머신에서 학습 워크로드를 실행하도록 JAX 프레임워크를 초기화하려고 하면 다음과 유사한 오류 메시지가 표시될 수 있습니다.

E0115 19:06:10.727412 340 master.cc:246] Initialization of slice failed with
error status: INVALID_ARGUMENT: When linking node TPU_ID:pe0:0
to TPU_ID:pe0:3</code> with link TPU_ID:pe0:0:p5:x couldn't find opposite link in destination node.; Failed to create the mesh (xW, xW, xW); Please make sure the topology is correct.;
Failed to discover ICI network topology

이 오류는 GKE가 대규모 TPU 슬라이스에서 고속 칩 간 상호 연결(ICI) 네트워크 토폴로지를 설정하지 못할 때 발생합니다.

이 문제를 완화하려면 다음 단계를 완료합니다.

연결 오류가 발생한 TPU 슬라이스를 식별합니다. 이벤트 로그를 보려면 다음 쿼리를 사용하세요.
```
resource.type="k8s_container"
resource.labels.project_id=PROJECT_ID
severity>=DEFAULT
SEARCH("`[/dev/vfio/0` `TPU_ID` Driver `opened.`")
```
다음을 바꿉니다.
- PROJECT_ID: 프로젝트 ID입니다.
- TPU_ID: 오류가 발생한 TPU의 ID입니다. 오류 메시지에서 TPU ID를 확인할 수 있습니다.
노드 풀 또는 오류 메시지에 포함된 노드 중 하나를 taint합니다. 자세한 내용은 워크로드의 노드 풀 taint 및 라벨 지정을 참고하세요.
다른 노드 풀에서 작업을 다시 실행합니다.

문제가 지속되면 지원 케이스를 제출하거나 계정팀에 문의하세요.

GKE TPU 로그 보기

GKE 시스템 및 워크로드 로깅이 사용 설정된 경우 Cloud Logging은 특정 워크로드의 모든 TPU 관련 로그를 볼 수 있도록 해당 로그를 쿼리할 수 있는 중앙 위치를 제공합니다. Cloud Logging에서 로그는 로그 항목으로 구성되며 개별 로그 항목은 구조화된 형식을 갖습니다. 다음은 TPU 학습 작업 로그 항목의 예시입니다.

{
  insertId: "gvqk7r5qc5hvogif"
  labels: {
  compute.googleapis.com/resource_name: "gke-tpu-9243ec28-wwf5"
  k8s-pod/batch_kubernetes_io/controller-uid: "443a3128-64f3-4f48-a4d3-69199f82b090"
  k8s-pod/batch_kubernetes_io/job-name: "mnist-training-job"
  k8s-pod/controller-uid: "443a3128-64f3-4f48-a4d3-69199f82b090"
  k8s-pod/job-name: "mnist-training-job"
}
logName: "projects/gke-tpu-demo-project/logs/stdout"
receiveTimestamp: "2024-06-26T05:52:39.652122589Z"
resource: {
  labels: {
    cluster_name: "tpu-test"
    container_name: "tensorflow"
    location: "us-central2-b"
    namespace_name: "default"
    pod_name: "mnist-training-job-l74l8"
    project_id: "gke-tpu-demo-project"
}
  type: "k8s_container"
}
severity: "INFO"
textPayload: "
  1/938 [..............................] - ETA: 13:36 - loss: 2.3238 - accuracy: 0.0469
  6/938 [..............................] - ETA: 9s - loss: 2.1227 - accuracy: 0.2995
 13/938 [..............................] - ETA: 8s - loss: 1.7952 - accuracy: 0.4760
 20/938 [..............................] - ETA: 7s - loss: 1.5536 - accuracy: 0.5539
 27/938 [..............................] - ETA: 7s - loss: 1.3590 - accuracy: 0.6071
 36/938 [>.............................] - ETA: 6s - loss: 1.1622 - accuracy: 0.6606
 44/938 [>.............................] - ETA: 6s - loss: 1.0395 - accuracy: 0.6935
 51/938 [>.............................] - ETA: 6s - loss: 0.9590 - accuracy: 0.7160
……
937/938 [============================>.] - ETA: 0s - loss: 0.2184 - accuracy: 0.9349"
timestamp: "2024-06-26T05:52:38.962950115Z"
}

TPU 슬라이스 노드의 각 로그 항목에는 값이 노드 이름으로 설정된 compute.googleapis.com/resource_name 라벨이 있습니다. 특정 노드의 로그를 보려는 경우 노드 이름을 알고 있다면 쿼리에서 해당 노드로 로그를 필터링할 수 있습니다. 예를 들어 다음 쿼리는 TPU 노드 gke-tpu-9243ec28-wwf5의 로그를 보여줍니다.

resource.type="k8s_container"
labels."compute.googleapis.com/resource_name" = "gke-tpu-9243ec28-wwf5"

GKE는 TPU가 포함된 모든 노드에 cloud.google.com/gke-tpu-accelerator 및 cloud.google.com/gke-tpu-topology 라벨을 연결합니다. 따라서 노드 이름을 모르거나 모든 TPU 슬라이스 노드를 나열하려면 다음 명령어를 실행하면 됩니다.

kubectl get nodes -l cloud.google.com/gke-tpu-accelerator

샘플 출력:

NAME                    STATUS   ROLES    AGE     VERSION
gke-tpu-9243ec28-f2f1   Ready    <none>   25m     v1.30.1-gke.1156000
gke-tpu-9243ec28-wwf5   Ready    <none>   7d22h   v1.30.1-gke.1156000

노드 라벨과 값을 기준으로 추가 필터링을 수행할 수 있습니다. 예를 들어 다음 명령어는 특정 유형과 토폴로지를 갖는 TPU 노드를 나열합니다.

kubectl get nodes -l cloud.google.com/gke-tpu-accelerator=tpu-v5-lite-podslice,cloud.google.com/gke-tpu-topology=1x1

여러 TPU 슬라이스 노드의 모든 로그를 보려면 라벨을 TPU 슬라이스 노드 서픽스와 일치시키는 쿼리를 사용하면 됩니다. 예를 들어 다음 쿼리를 사용합니다.

resource.type="k8s_container"
labels."compute.googleapis.com/resource_name" =~ "gke-tpu-9243ec28.*"
log_id("stdout")

Kubernetes 작업을 사용하는 특정 TPU 워크로드와 연결된 로그를 보려면 batch.kubernetes.io/job-name 라벨을 사용하여 로그를 필터링하면 됩니다. 예를 들어 mnist-training-job 작업의 경우 STDOUT 로그에 대해 다음 쿼리를 실행할 수 있습니다.

resource.type="k8s_container"
labels."k8s-pod/batch_kubernetes_io/job-name" = "mnist-training-job"
log_id("stdout")

Kubernetes JobSet을 사용하는 TPU 워크로드의 로그를 보려면 k8s-pod/jobset_sigs_k8s_io/jobset-name 라벨을 사용하여 로그를 필터링하면 됩니다. 예를 들면 다음과 같습니다.

resource.type="k8s_container"
labels."k8s-pod/jobset_sigs_k8s_io/jobset-name"="multislice-job"

더 자세히 살펴보려면 다른 워크로드 라벨을 기준으로 필터링하면 됩니다. 예를 들어 작업자 0 및 슬라이스 1의 멀티슬라이스 워크로드 로그를 보려면 job-complete-index 및 job-index 라벨을 기준으로 필터링하면 됩니다.

resource.type="k8s_container"
labels."k8s-pod/jobset_sigs_k8s_io/jobset-name"="multislice-job"
labels."k8s-pod/batch_kubernetes_io/job-completion-index"="0"
labels."k8s-pod/jobset_sigs_k8s_io/job-index"="1"

포드 이름 패턴을 사용하여 필터링할 수도 있습니다.

resource.labels.pod_name:<jobSetName>-<replicateJobName>-<job-index>-<worker-index>

예를 들어 다음 쿼리에서 jobSetName은 multislice-job이고 replicateJobName은 slice입니다. job-index 및 worker-index 모두 0입니다.

resource.type="k8s_container"
labels."k8s-pod/jobset_sigs_k8s_io/jobset-name"="multislice-job"
resource.labels.pod_name:"multislice-job-slice-0-0"

단일 GKE 포드 워크로드 등 여타 TPU 워크로드에 대해서는 포드 이름으로 로그를 필터링할 수 있습니다. 예를 들면 다음과 같습니다.

resource.type="k8s_container"
resource.labels.pod_name="tpu-job-jax-demo"

TPU 기기 플러그인이 올바르게 실행 중인지 확인하려면 다음 쿼리를 사용하여 컨테이너 로그를 확인하면 됩니다.

resource.type="k8s_container"
labels.k8s-pod/k8s-app="tpu-device-plugin"
resource.labels.namespace_name="kube-system"

다음 쿼리를 실행하여 관련 이벤트를 확인합니다.

jsonPayload.involvedObject.name=~"tpu-device-plugin.*"
log_id("events")

모든 쿼리에 클러스터 이름, 위치, 프로젝트 ID와 같은 필터를 추가할 수 있습니다. 여러 조건을 결합하여 결과 범위를 좁힐 수도 있습니다. 예를 들면 다음과 같습니다.

resource.type="k8s_container" AND
resource.labels.project_id="gke-tpu-demo-project" AND
resource.labels.location="us-west1" AND
resource.labels.cluster_name="tpu-demo" AND
resource.labels.namespace_name="default" AND
labels."compute.googleapis.com/resource_name" =~ "gke-tpu-9243ec28.*" AND
labels."k8s-pod/batch_kubernetes_io/job-name" = "mnist-training-job" AND
log_id("stdout")

비교 간에 AND 연산자는 선택사항이며 생략할 수 있습니다. 쿼리 언어에 관한 자세한 내용은 Logging 쿼리 언어 사양을 참조하세요. Kubernetes 관련 로그 쿼리에서도 더 많은 쿼리 예시를 확인할 수 있습니다.

로그 애널리틱스를 사용하는 SQL을 선호하는 경우 로그 애널리틱스를 사용한 SQL 쿼리에서 쿼리 예시를 확인할 수 있습니다. 로그 탐색기 대신 Google Cloud CLI를 사용하여 쿼리를 실행할 수도 있습니다. 예를 들면 다음과 같습니다.

gcloud logging read 'resource.type="k8s_container" labels."compute.googleapis.com/resource_name" =~ "gke-tpu-9243ec28.*" log_id("stdout")' --limit 10 --format json

다음 단계

문서에서 문제의 해결 방법을 찾을 수 없는 경우 지원 받기에서 다음 주제에 관한 조언을 포함한 추가 도움을 받으세요.
- Cloud Customer Care에 문의하여 지원 케이스를 엽니다.
- StackOverflow에서 질문하고 google-kubernetes-engine 태그를 사용하여 유사한 문제를 검색하여 커뮤니티의 지원을 받습니다. #kubernetes-engine Slack 채널에 가입하여 더 많은 커뮤니티 지원을 받을 수도 있습니다.
- 공개 Issue Tracker를 사용하여 버그 또는 기능 요청을 엽니다.

GKE의 TPU 문제 해결 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.