TensorFlow Deep Learning VM 인스턴스 만들기

이 페이지에서는 TensorFlow 및 기타 사전 설치된 도구를 사용하여 TensorFlow Deep Learning VM Image 인스턴스를 만드는 방법을 보여줍니다. Google Cloud Console 내에서 또는 명령줄을 사용하여 Cloud Marketplace에서 TensorFlow 인스턴스를 만들 수 있습니다.

시작하기 전에

Deep Learning VM에 GPU를 사용하는 경우 할당량 페이지에서 프로젝트에 사용 가능한 GPU가 충분히 있는지 확인하세요. GPU가 할당량 페이지에 나와 있지 않거나 추가 GPU 할당량이 필요한 경우 할당량 상향 조정을 요청하세요.

Google Cloud Marketplace에서 TensorFlow Deep Learning VM 인스턴스 만들기

Cloud Marketplace에서 TensorFlow Deep Learning VM 인스턴스를 만들려면 다음 단계를 완료하세요.

Google Cloud Console에서 딥 러닝 VM Cloud Marketplace 페이지로 이동합니다.

Deep Learning VM Cloud Marketplace 페이지로 이동
시작하기를 클릭합니다.
VM 이름의 루트가 될 배포 이름을 입력합니다. Compute Engine은 인스턴스 이름을 지정할 때 이 이름 끝에 -vm을 추가합니다.
영역을 선택합니다.
머신 유형에서 VM에 사용할 사양을 선택합니다. 머신 유형 자세히 알아보기
GPU에서 GPU 유형 및 GPU 수를 선택합니다. GPU를 사용하지 않으려면 GPU 삭제 버튼을 클릭하고 7단계로 건너뜁니다. GPU 자세히 알아보기
1. GPU 유형을 선택합니다. 영역에 따라 일부 GPU 유형이 지원되지 않을 수 있습니다. 지원되는 조합 찾기
2. GPU 수를 선택합니다. 각 GPU는 서로 다른 수의 GPU를 지원합니다. 지원되는 조합 찾기
프레임워크에서 TensorFlow 프레임워크 버전 중 하나를 선택합니다.
GPU를 사용하는 경우 NVIDIA 드라이버가 필요합니다. 드라이버는 직접 설치하거나 시작 시 NVIDIA GPU 드라이버가 자동으로 설치되도록 선택할 수 있습니다.
SSH 대신 URL을 통해 JupyterLab에 액세스 사용 설정(베타)을 선택할 수 있습니다. 이 베타 기능을 사용 설정하면 URL을 사용하여 JupyterLab 인스턴스에 액세스할 수 있습니다. Google Cloud 프로젝트의 편집자 또는 소유자 역할이 있는 사용자 누구나 이 URL에 액세스할 수 있습니다. 현재 이 기능은 미국, 유럽연합, 아시아에서만 작동합니다.
부팅 디스크 유형과 부팅 디스크 크기를 선택합니다.
원하는 네트워크 설정을 선택합니다.
배포를 클릭합니다.

NVIDIA 드라이버 설치를 선택한 경우 설치가 완료될 때까지 3~5분 정도 기다려 주세요.

VM 배포가 완료되면 페이지는 인스턴스 액세스에 관한 안내가 업데이트됩니다.

명령줄에서 TensorFlow 딥 러닝 VM 인스턴스 만들기

Google Cloud CLI를 사용하여 새로운 Deep Learning VM 인스턴스를 만들려면 먼저 Google Cloud CLI를 설치하고 초기화해야 합니다.

Google Cloud CLI 설치의 안내에 따라 Google Cloud CLI를 다운로드하고 설치합니다.
Cloud SDK 초기화의 안내에 따라 SDK를 초기화합니다.

Cloud Shell에서 gcloud를 사용하려면 먼저 Cloud Shell 시작의 안내에 따라 Cloud Shell을 활성화하세요.

GPU를 사용하지 않아도 TensorFlow 인스턴스를 만들 수 있습니다.

GPU 제외

GPU 없이 Deep Learning VM 인스턴스를 프로비저닝하려면 다음 안내를 따르세요.

export IMAGE_FAMILY="tf-ent-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release

옵션:

--image-family는 다음 중 하나여야 합니다.
- 최신 TensorFlow Enterprise 2 이미지를 가져오려면 tf-ent-latest-cpu
- 이전 TensorFlow 또는 TensorFlow Enterprise 이미지 계열 이름(이미지 선택 참조)
--image-project는 deeplearning-platform-release여야 합니다.

1개 이상의 GPU 사용

Compute Engine은 가상 머신 인스턴스에 1개 이상의 GPU를 추가할 수 있는 옵션을 제공합니다. GPU는 다수의 복잡한 데이터 및 머신러닝 태스크를 보다 빠르게 처리합니다. GPU에 대한 자세한 내용은 Compute Engine의 GPU를 참조하세요.

GPU를 1개 이상 포함한 Deep Learning VM 인스턴스를 프로비저닝하려면 다음 안내를 따르세요.

export IMAGE_FAMILY="tf-ent-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release \
  --maintenance-policy=TERMINATE \
  --accelerator="type=nvidia-tesla-v100,count=1" \
  --metadata="install-nvidia-driver=True"

옵션:

--image-family는 다음 중 하나여야 합니다.
- 최신 TensorFlow Enterprise 2 이미지를 가져오려면 tf-ent-latest-gpu
- 이전 TensorFlow 또는 TensorFlow Enterprise 이미지 계열 이름(이미지 선택 참조)
--image-project는 deeplearning-platform-release여야 합니다.
--maintenance-policy TERMINATE여야 합니다. 자세한 내용은 GPU 제한을 참조하세요.
--accelerator는 사용할 GPU 유형을 지정하며 --accelerator="type=TYPE,count=COUNT" 형식이어야 합니다. 예를 들면 --accelerator="type=nvidia-tesla-p100,count=2"입니다. 사용할 수 있는 GPU 유형 및 개수 목록은 GPU 모델 표를 참조하세요.

리전에 따라 일부 GPU 유형이 지원되지 않을 수 있습니다. 자세한 내용은 GPU 리전 및 영역 가용성을 참조하세요.
--metadata는 NVIDIA 드라이버를 대신 설치하도록 지정하는 데 사용합니다. 값은 install-nvidia-driver=True입니다. 값을 지정하면 Compute Engine은 처음 부팅할 때 안정적인 최신 드라이버를 로드한 다음 드라이버 활성화에 필요한 마지막 재부팅을 포함하여 필요한 단계를 수행합니다.

NVIDIA 드라이버 설치를 선택한 경우 설치가 완료될 때까지 3~5분 정도 기다려 주세요.

VM이 완전히 프로비저닝되는 데 최대 5분이 걸릴 수 있습니다. 이 시간 동안에는 SSH를 통해 머신에 연결할 수 없습니다. 설치가 완료되면 SSH 연결 후 nvidia-smi를 실행하여 드라이버 설치를 성공했는지 확인할 수 있습니다.

이미지를 구성한 후 이미지의 스냅샷을 저장하면 드라이버가 설치될 때까지 기다릴 필요 없이 파생 인스턴스를 시작할 수 있습니다.

TensorFlow Enterprise 소개

TensorFlow Enterprise는 Google Cloud에서 실행하도록 최적화되었으며 장기 버전 지원이 포함된 TensorFlow의 배포판입니다.

선점형 인스턴스 만들기

선점형 딥 러닝 VM 인스턴스를 만들 수 있습니다. 선점형 인스턴스는 일반 인스턴스보다 훨씬 더 낮은 가격으로 만들고 실행할 수 있는 인스턴스입니다. 하지만 Compute Engine이 다른 작업 때문에 리소스에 액세스해야 하는 경우 이러한 인스턴스를 중지(선점)할 수 있습니다. 선점형 인스턴스는 항상 24시간 후에 중지됩니다. 선점형 인스턴스에 대한 자세한 내용은 선점형 VM 인스턴스를 참조하세요.

선점형 딥 러닝 VM 인스턴스를 만들려면 다음 안내를 따르세요.

위에 설명된 안내에 따라 명령줄을 사용하여 새 인스턴스를 만듭니다. gcloud compute instances create 명령어 끝에 다음을 추가합니다.
```
  --preemptible
```

다음 단계

Google Cloud Console 또는 명령줄을 통해 새로운 딥 러닝 VM 인스턴스에 연결하는 방법에 대한 안내는 인스턴스에 연결을 참조하세요. 인스턴스 이름은 지정된 배포 이름 뒤에 -vm이 붙습니다.

TensorFlow Deep Learning VM 인스턴스 만들기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.