TPU v3 구성의 늘어난 TensorCore당 FLOPS와 메모리 용량은 다음과 같은 방식으로 모델의 성능을 개선할 수 있습니다.
TPU v3 구성은 연산 제약 모델의 TensorCore당 성능 측면에서 상당한 이점을 제공합니다. TPU v2 구성의 메모리 제약 모델이 TPU v3 구성에서도 메모리의 제약을 받는 경우 이와 같은 수준의 성능 개선을 달성하지 못할 수 있습니다.
TPU v2 구성에서 데이터가 메모리에 들어가지 않는 경우 TPU v3으로 성능을 높이고 중간 값 재계산(재구체화)을 줄일 수 있습니다.
TPU v3 구성에서는 TPU v2 구성에서 맞지 않았던 배치 크기로 새 모델을 실행할 수 있습니다. 예를 들어 TPU v3은 더 깊은 ResNet 모델 및 RetinaNet에서 더 큰 이미지를 허용할 수 있습니다.
학습 단계에서 입력을 기다리는 이유로 TPU v2에서 거의 입력에 제약을 받은('인피드') 모델은 Cloud TPU v3에서도 입력에 제약을 받을 수 있습니다. 파이프라인 성능 가이드가 인피드 문제를 해결하는 데 도움이 될 수 있습니다.
구성
TPU v3 Pod는 고속 링크로 상호 연결된 1,024개의 칩으로 구성되어 있습니다. TPU v3 기기 또는 슬라이스를 만들려면 TPU 만들기 명령어(gcloud compute tpus tpu-vm)에 --accelerator-type 플래그를 사용합니다. TPU 버전과 TPU 코어 수를 지정하여 가속기 유형을 지정합니다. 예를 들어 단일 v3 TPU의 경우 --accelerator-type=v3-8을 사용합니다. TensorCore 128개가 포함된 v3 슬라이스의 경우 --accelerator-type=v3-128을 사용합니다.
다음 표에는 지원되는 v3 TPU 유형이 나열되어 있습니다.
TPU 버전
지원 종료
v3-8
(종료일 미정)
v3-32
(종료일 미정)
v3-128
(종료일 미정)
v3-256
(종료일 미정)
v3-512
(종료일 미정)
v3-1024
(종료일 미정)
v3-2048
(종료일 미정)
다음 명령어는 TensorCore 128개가 포함된 v3 TPU 슬라이스를 만드는 방법을 보여줍니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# TPU v3\n======\n\nThis document describes the architecture and supported configurations of\nCloud TPU v3.\n\nSystem architecture\n-------------------\n\nEach v3 TPU chip contains two TensorCores. Each TensorCore has two matrix-multiply units (MXUs), a\nvector unit, and a scalar unit. The following table shows the key specifications\nand their values for a v3 TPU Pod.\n\nThe following diagram illustrates a TPU v3 chip.\n\nArchitectural details and performance characteristics of TPU v3 are available in\n[A Domain Specific Supercomputer for Training Deep Neural Networks](https://dl.acm.org/doi/pdf/10.1145/3360307).\n\n### Performance benefits of TPU v3 over v2\n\nThe increased FLOPS per TensorCore and memory capacity in TPU v3 configurations\ncan improve the performance of your models in the following ways:\n\n- TPU v3 configurations provide significant performance benefits per\n TensorCore for compute-bound models. Memory-bound models on TPU v2\n configurations might not achieve this same performance improvement if they\n are also memory-bound on TPU v3 configurations.\n\n- In cases where data does not fit into memory on TPU v2 configurations, TPU\n v3 can provide improved performance and reduced recomputation of\n intermediate values (rematerialization).\n\n- TPU v3 configurations can run new models with batch sizes that did not fit\n on TPU v2 configurations. For example, TPU v3 might allow deeper ResNet models and\n larger images with RetinaNet.\n\nModels that are nearly input-bound (\"infeed\") on TPU v2 because training steps\nare waiting for input might also be input-bound with Cloud TPU v3. The\npipeline performance guide can help you resolve infeed issues.\n\nConfigurations\n--------------\n\nA TPU v3 Pod is composed of 1024 chips interconnected with high-speed links. To\ncreate a TPU v3 device or slice, use the `--accelerator-type`\nflag in the TPU creation command (`gcloud compute tpus tpu-vm`). You specify the accelerator type by specifying the\nTPU version and the number of TPU cores. For example, for a single v3 TPU, use\n`--accelerator-type=v3-8`. For a v3 slice with 128 TensorCores, use\n`--accelerator-type=v3-128`.\n\nThe following table lists the supported v3 TPU types:\n\nThe following command shows how to create a v3 TPU slice with 128 TensorCores: \n\n```bash\n $ gcloud compute tpus tpu-vm create tpu-name \\\n --zone=europe-west4-a \\\n --accelerator-type=v3-128 \\\n --version=tpu-ubuntu2204-base\n```\n\nFor more information about managing TPUs, see [Manage TPUs](/tpu/docs/managing-tpus-tpu-vm).\nFor more information about the system architecture of Cloud TPU, see\n[System architecture](/tpu/docs/system-architecture)."]]