TPU

이 페이지에서는 Cloud TPU를 소개하고 Google Kubernetes Engine과 함께 Cloud TPU를 사용하는 방법에 대한 정보를 어디서 찾을 수 있는지 알아봅니다. TPU(텐서 처리 장치)는 Google에서 커스텀식으로 개발한 ASIC(Application-Specific Integrated Circuits)로서 TensorFlow 머신러닝 작업 부하를 빠르게 처리하는 데 사용됩니다.

개요

GKE를 사용하여 Cloud TPU를 관리하면 다음과 같은 장점이 있습니다.

  • 손쉬운 설정과 관리: Cloud TPU를 사용할 때는 워크로드를 실행할 Compute Engine VM과 Cloud TPU를 위한 CIDR(Classless Inter-Domain Routing) 블록이 필요합니다. GKE는 VM와 CIDR 블록을 설정하고 관리합니다.

  • 최적화된 비용: GKE는 워크로드와 트래픽에 따라 VM과 Cloud TPU 노드를 자동으로 확장합니다. 작업 부하를 실행하는 Cloud TPU와 VM 비용만 지불하면 됩니다.

  • 유연한 사용: 다른 하드웨어 가속기(CPU, GPU 또는 TPU)를 요청하려면 Pod 사양에서 한 줄만 변경하면 됩니다.

    kind: Pod
      spec:
        containers:
        - name: example-container
          resources:
            limits:
              cloud-tpus.google.com/v2: 8
              # See the line above for TPU, or below for CPU / GPU.
              # cpu: 2
              # nvidia.com/gpu: 1
    
  • 확장성: GKE는 수백 개의 Pod와 Cloud TPU 노드로 쉽게 확장할 수 있는 API(JobDeployment)를 제공합니다.

  • 내결함성: GKE의 Job API는 TensorFlow 체크포인트 메커니즘과 함께 실행 완료(run-to-completion) 시맨틱을 제공합니다. VM 인스턴스나 Cloud TPU 노드에서 오류가 발생하면 체크포인트의 최신 상태 읽기를 사용하여 학습 작업이 자동으로 다시 실행됩니다.

다음 단계

  • Cloud TPU와 GKE를 사용하여 TensorFlow ResNet-50 모델을 학습시키는 방법을 보여주는 Cloud TPU ResNet 가이드 따르기
  • 또는 빠른 가이드를 따라 GKE로 Cloud TPU 설정
  • Cloud TPU를 사용하여 머신러닝 작업 수행 시 권장사항 알아보기
이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

Kubernetes Engine 문서