TPU 리소스 관리
이 페이지에서는 Create Node API를 사용하여 Cloud TPU를 만들고, 나열하고, 중지하고, 시작하고, 삭제하고, 연결하는 방법을 설명합니다. Create Node API는 Google Cloud CLI를 사용하여 gcloud compute tpus tpu-vm create
명령어를 실행할 때와 Google Cloud 콘솔을 사용하여 TPU를 만들 때 호출됩니다. Create Node API를 사용하면 요청이 즉시 처리됩니다. 요청을 처리할 수 있는 용량이 충분하지 않으면 요청이 실패합니다.
Create Node API 대신 큐에 추가된 리소스를 사용하여 TPU를 만드는 것이 좋습니다. 큐에 추가된 리소스를 요청하면 요청이 Cloud TPU 서비스에서 유지보수하는 큐에 추가됩니다. 요청된 리소스를 사용할 수 있게 되면 즉시 독점으로 사용 가능하도록 Google Cloud 프로젝트에 할당됩니다. 자세한 내용은 큐에 추가된 리소스 관리를 참조하세요.
멀티슬라이스를 사용할 때는 큐에 추가된 리소스를 사용해야 합니다. 자세한 내용은 멀티슬라이스 소개를 을 참조하세요.
Google Kubernetes Engine(GKE)을 사용하여 TPU 리소스를 관리하려면 먼저 GKE 클러스터를 만들어야 합니다. 그런 다음 클러스터에 TPU 슬라이스가 포함된 노드 풀을 추가합니다. 자세한 내용은 GKE의 TPU 정보를 참조하세요.
기본 요건
이 절차를 실행하기 전에 Google Cloud CLI를 설치하고, Google Cloud 프로젝트를 만들고, Cloud TPU API를 사용 설정해야 합니다. 자세한 내용은 Cloud TPU 환경 설정을 참조하세요.
Google Cloud CLI를 사용하는 경우 Cloud Shell, Compute Engine VM 또는 로컬 머신을 사용하여 명령어를 실행할 수 있습니다. Google Cloud Shell을 사용하면 소프트웨어를 설치하지 않고도 Cloud TPU와 상호작용할 수 있습니다. 일정 기간 활동이 없으면 Cloud Shell 연결이 해제됩니다. 장기 실행 명령어를 실행하는 경우 로컬 머신에 Google Cloud CLI를 설치하는 것이 좋습니다. Google Cloud CLI에 대한 자세한 내용은 gcloud
참조를 확인하세요.
Create Node API를 사용하여 Cloud TPU 만들기
gcloud
, Google Cloud 콘솔 또는 Cloud TPU API를 사용하여 Cloud TPU를 만들 수 있습니다.
Cloud TPU를 만들 때 TPU VM 이미지(TPU 소프트웨어 버전이라고도 함)를 지정해야 합니다. 사용해야 하는 VM 이미지를 확인하려면 TPU VM 이미지를 참조하세요.
TensorCore 또는 TPU 칩을 기준으로 TPU 구성을 지정해야 합니다. 자세한 내용은 시스템 아키텍처에서 사용 중인 TPU 버전 섹션을 참조하세요.
gcloud
Create Node API를 사용하여 TPU를 만들려면 gcloud compute tpus tpu-vm create
명령어를 사용합니다.
특정 내부 또는 외부 IP 주소를 구성하려면 외부 및 내부 IP 주소의 안내를 참조하세요.
다음 명령어는 v4-8 TPU 구성을 사용합니다.
$ gcloud compute tpus tpu-vm create tpu-name \ --zone=us-central2-b \ --accelerator-type=v4-8 \ --version=tpu-software-version
명령어 플래그 설명
zone
- Cloud TPU를 만들려는 영역입니다.
accelerator-type
- 가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.
version
- TPU 소프트웨어 버전입니다.
shielded-secure-boot
(선택사항)- 보안 부팅이 사용 설정된 상태로 TPU 인스턴스가 생성되도록 지정합니다. 그러면 보안 VM 인스턴스가 암시적으로 생성됩니다. 보안 VM이란 무엇인가요? 를 참조하세요.
다음 명령어는 특정 토폴로지로 TPU를 만듭니다.
$ gcloud compute tpus tpu-vm create tpu-name \ --zone=us-central2-b \ --type=v4 \ --topology=2x2x1 \ --version=tpu-software-version
필수 플래그
tpu-name
- 만들려는 TPU VM의 이름입니다.
zone
- Cloud TPU를 만들려는 영역입니다.
type
- 사용할 TPU 버전입니다. 자세한 내용은 TPU 버전을 참조하세요.
topology
- TPU 칩의 물리적 배열로, 각 측정기준의 칩 수를 지정합니다. 각 TPU 버전에서 지원되는 토폴로지에 관한 자세한 내용은 TPU 버전을 참조하세요.
version
- 사용할 TPU 소프트웨어 버전입니다. 자세한 내용은 TPU 소프트웨어 버전을 참조하세요.
콘솔
Google Cloud 콘솔에서 TPU 페이지로 이동합니다.
TPU 만들기를 클릭합니다.
이름 필드에 TPU의 이름을 입력합니다.
영역 상자에서 TPU를 만들 영역을 선택합니다.
TPU 유형 상자에서 가속기 유형을 선택합니다. 가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.
TPU 소프트웨어 버전 상자에서 소프트웨어 버전을 선택합니다. Cloud TPU VM을 만들 때 TPU 소프트웨어 버전은 설치할 TPU 런타임 버전을 지정합니다. 자세한 내용은 TPU VM 이미지를 참조하세요.
만들기를 클릭하여 리소스를 만듭니다.
curl
다음 명령어는 curl
을 사용하여 TPU를 만듭니다.
$ curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" -d "{accelerator_type: 'v4-8', \ runtime_version:'tpu-vm-tf-2.17.0-pjrt', \ network_config: {enable_external_ips: true}, \ shielded_instance_config: { enable_secure_boot: true }}" \ https://tpu.googleapis.com/v2/projects/project-id/locations/us-central2-b/nodes?node_id=node_name
필수 입력란
runtime_version
- 사용할 Cloud TPU 런타임 버전입니다.
project
- : 등록된 Google Cloud 프로젝트 이름입니다.
zone
- Cloud TPU를 만들려는 영역입니다.
node_name
- 만들려는 TPU VM의 이름입니다.
시작 스크립트 실행
TPU VM을 만들 때 --metadata startup-script
플래그를 지정하여 각 TPU VM에서 시작 스크립트를 실행할 수 있습니다. 다음 명령어는 시작 스크립트를 사용하여 TPU VM을 만듭니다.
$ gcloud compute tpus tpu-vm create tpu-name \ --zone=us-central2-b \ --accelerator-type=tpu-type \ --version=tpu-vm-tf-2.17.0-pjrt \ --metadata startup-script='#! /bin/bash pip3 install numpy EOF'
Cloud TPU에 연결
gcloud
SSH를 사용하여 Cloud TPU에 연결합니다.
$ gcloud compute tpus tpu-vm ssh tpu-name --zone=zone
단일 호스트보다 큰 슬라이스를 요청하면 Cloud TPU는 각 호스트에 대해 TPU VM을 만듭니다. 호스트당 TPU 칩 수는 TPU 버전에 따라 다릅니다.
바이너리를 설치하거나 코드를 실행하려면 tpu-vm ssh command
를 사용하여 각 TPU VM에 연결합니다.
$ gcloud compute tpus tpu-vm ssh tpu-name
SSH를 사용하여 특정 TPU VM에 연결하려면 0부터 시작하는 색인을 따르는 --worker
플래그를 사용합니다.
$ gcloud compute tpus tpu-vm ssh tpu-name --worker=1
단일 명령어로 모든 TPU VM에서 명령어를 실행하려면 --worker=all
및 --command
플래그를 사용합니다.
$ gcloud compute tpus tpu-vm ssh tpu-name \ --project=your_project_ID \ --zone=zone \ --worker=all \ --command='pip install "jax[tpu]==0.4.20" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
멀티슬라이스의 경우 각 슬라이스 프리픽스와 숫자가 추가된 열거형 TPU 이름을 사용하여 단일 VM에서 명령어를 실행할 수 있습니다. 모든 슬라이스의 모든 TPU VM에서 명령어를 실행하려면 --node=all
, --worker=all
, --command
플래그와 선택사항인 --batch-size
플래그를 사용합니다.
$ gcloud compute tpus queued-resources ssh ${QUEUED_RESOURCE_ID} \ --project=project_ID \ --zone=zone \ --node=all \ --worker=all \ --command='pip install "jax[tpu]==0.4.20" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html' \ --batch-size=4
콘솔
Google Cloud 콘솔에서 TPU에 연결하려면 브라우저에서 SSH를 통해 연결합니다.
Google Cloud 콘솔에서 TPU 페이지로 이동합니다.
TPU VM 목록에서 연결할 TPU VM 행의 SSH를 클릭합니다.
Cloud TPU 리소스 나열
지정된 영역에서 모든 Cloud TPU를 나열할 수 있습니다.
gcloud
$ gcloud compute tpus tpu-vm list --zone=zone
콘솔
Google Cloud 콘솔에서 TPU 페이지로 이동합니다.
Cloud TPU에 대한 정보 검색
지정된 Cloud TPU에 대한 정보를 검색할 수 있습니다.
gcloud
$ gcloud compute tpus tpu-vm describe tpu-name \ --zone=zone
콘솔
Google Cloud 콘솔에서 TPU 페이지로 이동합니다.
Cloud TPU 이름을 클릭합니다. 콘솔에 Cloud TPU 세부정보 페이지가 표시됩니다.
Cloud TPU 리소스 중지
VM 구성과 소프트웨어의 손실 없이 단일 Cloud TPU를 중지하여 요금 청구를 중지할 수 있습니다.
gcloud
$ gcloud compute tpus tpu-vm stop tpu-name \ --zone=zone
콘솔
Google Cloud 콘솔에서 TPU 페이지로 이동합니다.
Cloud TPU 옆에 있는 체크박스를 선택합니다.
중지를 클릭합니다.
Cloud TPU 리소스 시작
중지된 Cloud TPU를 시작할 수 있습니다.
gcloud
$ gcloud compute tpus tpu-vm start tpu-name \ --zone=zone
콘솔
Google Cloud 콘솔에서 TPU 페이지로 이동합니다.
Cloud TPU 옆에 있는 체크박스를 선택합니다.
시작을 클릭합니다.
Cloud TPU 삭제
세션이 끝나면 TPU VM 슬라이스를 삭제합니다.
gcloud
$ gcloud compute tpus tpu-vm delete tpu-name \ --project=project-id \ --zone=zone \ --quiet
명령어 플래그 설명
zone
- Cloud TPU를 삭제하려는 영역입니다.
콘솔
Google Cloud 콘솔에서 TPU 페이지로 이동합니다.
Cloud TPU 옆에 있는 체크박스를 선택합니다.
삭제를 클릭합니다.