TPU

이 페이지에서는 Cloud TPU를 소개하고 Google Kubernetes Engine에서의 Cloud TPU 사용에 대한 정보를 어디서 찾을 수 있는지 알아봅니다. TPU(텐서 처리 장치)는 Google에서 커스텀식으로 개발한 ASIC(Application-Specific Integrated Circuits)로서 TensorFlow 머신러닝 작업 부하를 빠르게 처리하는 데 사용됩니다.

개요

GKE를 사용하여 Cloud TPU를 관리하면 다음과 같은 장점이 있습니다.

  • 손쉬운 설정과 관리: Cloud TPU를 사용할 때는 작업 부하를 실행할 Compute Engine VM과 Cloud TPU를 위한 CIDR(Classless Inter-Domain Routing) 블록이 필요합니다. GKE는 VM와 CIDR 블록을 설정하고 관리합니다.

  • 최적화된 비용: GKE는 작업 부하와 트래픽에 따라 VM과 Cloud TPU 노드를 자동으로 확장합니다. 작업 부하를 실행하는 Cloud TPU와 VM 비용만 지불하면 됩니다.

  • 유연한 사용: 다른 하드웨어 가속기(CPU, GPU 또는 TPU)를 요청하려면 포드 사양에서 한 줄만 변경하면 됩니다.

    kind: Pod
    spec:
      containers:

    • name: example-container resources: limits: cloud-tpus.google.com/v2: 8 # See the line above for TPU, or below for CPU / GPU. # cpu: 2 # nvidia.com/gpu: 1
  • 확장성: GKE는 수백 개의 포드와 Cloud TPU 노드로 쉽게 확장할 수 있는 API(JobDeployment)를 제공합니다.

  • 내결함성: GKE의 Job API는 TensorFlow 체크포인트 메커니즘과 함께 run-to-completion 시맨틱을 제공합니다. VM 인스턴스나 Cloud TPU 노드에서 오류가 발생하면 체크포인트의 최신 상태 읽기를 사용하여 학습 작업이 자동으로 다시 실행됩니다.

  • 다음 단계

    • Cloud TPU와 GKE를 사용하여 TensorFlow ResNet-50 모델을 학습시키는 방법을 보여주는 Cloud TPU ResNet 가이드 따르기
    • 또는 빠른 가이드를 따라 GKE로 Cloud TPU 설정
    • 머신러닝 작업을 위한 Cloud TPU 사용의 권장사항 알아보기
    이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

    다음에 대한 의견 보내기...

    Kubernetes Engine