서비스의 GPU 영역 중복

이 페이지에서는 Cloud Run 서비스의 GPU에 대한 영역 중복 옵션 설정을 설명합니다. 기본적으로 GPU에는 영역 중복성이 사용 설정되어 있으므로 데이터와 트래픽이 리전 내의 영역 간에 자동으로 분산됩니다. 특정 영역 내에서 장애가 발생하면 트래픽이 자동으로 다른 영역으로 라우팅됩니다.

대신 더 낮은 GPU 초당 비용으로 최선의 노력 신뢰성을 사용하려면 GPU의 지역 중복을 사용 중지합니다.

지원되는 리전

  • us-central1(아이오와) 잎 아이콘 낮은 CO2
  • asia-southeast1(싱가포르)
  • europe-west1(벨기에) 잎 아이콘 낮은 CO2
  • europe-west4(네덜란드) 잎 아이콘 낮은 CO2
  • asia-south1 (뭄바이)
    • 참고: 이 지역은 초대를 받아야만 이용할 수 있습니다. 이 지역에 관심이 있는 경우 Google 계정팀에 문의하세요.

가격 책정 영향

리전 중복의 비용에 대한 GPU 가격 책정 세부정보는 Cloud Run 가격 책정을 참고하세요.

요청 할당량

기본적으로 영역 중복 또는 영역 중복에 대한 할당량은 없습니다. 할당량을 요청해야 합니다. 다음 버튼에 제공된 링크를 사용하여 필요한 할당량을 요청하세요.

할당량 필요 할당량 링크
영역 중복이 사용 설정된 GPU 영역 중복이 있는 GPU 할당량 요청
지역 중복이 사용 중지된 GPU 영역 중복이 없는 GPU 할당량 요청
GPU 할당량 페이지 (영역 중복 및 비영역 중복 모두) GPU 할당량 요청

시작하기 전에

다음 목록에서는 Cloud Run에서 GPU를 사용할 때의 요구사항과 제한사항을 설명합니다.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Run API.

    Enable the API

필요한 역할

Cloud Run 서비스를 구성하고 배포하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

Cloud Run과 연결된 IAM 역할 및 권한 목록은 Cloud Run IAM 역할Cloud Run IAM 권한을 참조하세요. Cloud Run 서비스가 Cloud 클라이언트 라이브러리와 같은Google Cloud API와 상호작용하는 경우에는 서비스 ID 구성 가이드를 참조하세요. 역할 부여에 대한 자세한 내용은 배포 권한액세스 관리를 참조하세요.

GPU가 있는 Cloud Run 서비스에 스토리지 리전 중복 구성

구성을 변경하면 새 버전이 생성됩니다. 이를 변경하는 명시적 업데이트가 없으면 이후 버전에도 이 구성 설정이 자동으로 적용됩니다.

Google Cloud 콘솔, Google Cloud CLI 또는 YAML을 사용하여 GPU를 구성할 수 있습니다.

콘솔

  1. Google Cloud 콘솔에서 Cloud Run으로 이동합니다.

    Cloud Run으로 이동

  2. 컨테이너 배포를 클릭하고 서비스를 선택하여 새 서비스를 구성합니다. 기존 서비스를 구성하는 경우 서비스를 클릭한 후 새 버전 수정 및 배포를 클릭합니다.

  3. 새 서비스를 구성하는 경우 초기 서비스 설정 페이지를 작성한 후 컨테이너, 볼륨, 네트워킹, 보안을 클릭하여 서비스 구성 페이지를 펼칩니다.

  4. 컨테이너 탭을 클릭합니다.

    이미지

    • GPU 체크박스를 선택하여 GPU 중복 옵션을 표시합니다.
      • 영역 중복 없음을 선택하여 영역 중복을 사용 중지합니다.
      • 영역 중복을 선택하여 영역 중복을 사용 설정합니다.
  5. 만들기 또는 배포를 클릭합니다.

gcloud

기본적으로 GPU 영역 중복은 사용 설정되어 있습니다. 서비스의 GPU 리전 중복 구성을 사용 중지하거나 이전에 리전 중복을 사용 중지한 경우 다시 사용 설정하려면 gcloud beta run services update 명령어를 사용하세요.

  gcloud beta run services update SERVICE \
    --image IMAGE_URL \
    --cpu CPU \
    --memory MEMORY \
    --no-cpu-throttling \
    --gpu GPU_NUMBER \
    --gpu-type GPU_TYPE \
    --max-instances MAX_INSTANCE
    --GPU_ZONAL_REDUNDANCY
    

다음과 같이 바꿉니다.

  • SERVICE: Cloud Run 서비스 이름
  • IMAGE_URL: 컨테이너 이미지에 대한 참조(예: us-docker.pkg.dev/cloudrun/container/hello:latest). Artifact Registry를 사용하는 경우 저장소 REPO_NAME이 이미 생성되어 있어야 합니다. URL의 형식은 LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG입니다.
  • CPU: CPU 수 4 CPU 이상을 지정해야 합니다.
  • MEMORY: 메모리 양. 16Gi(16GiB) 이상을 지정해야 합니다.
  • GPU_NUMBER: 값 1(1)로 바꿉니다. 지정하지 않았지만 GPU_TYPE이 있으면 기본값은 1입니다.
  • GPU_TYPE: GPU 유형. 지정되지 않았지만 GPU_NUMBER가 있으면 기본값은 nvidia-l4(숫자 값 14가 아닌 nvidia L4 소문자 L)입니다.
  • MAX_INSTANCE: 최대 인스턴스 수. 이 숫자는 프로젝트에 할당된 GPU 할당량을 초과할 수 없습니다.
  • GPU_ZONAL_REDUNDANCYno-gpu-zonal-redundancy로 바꾸면 지역 중복이 사용 중지되고 gpu-zonal-redundancy로 바꾸면 지역 중복이 사용 설정됩니다.

YAML

  1. 새 서비스를 만드는 경우에는 이 단계를 건너뜁니다. 기존 서비스를 업데이트하는 경우 YAML 구성을 다운로드합니다.

    gcloud run services describe SERVICE --format export > service.yaml
  2. run.googleapis.com/gpu-zonal-redundancy-disabled 주석을 업데이트합니다.

    apiVersion: serving.knative.dev/v1
    kind: Service
    metadata:
      name: SERVICE
      annotations:
        run.googleapis.com/launch-stage: BETA
    spec:
      template:
        metadata:
          annotations:
            run.googleapis.com/gpu-zonal-redundancy-disabled: GPU_ZONAL_REDUNDANCY
            

    다음과 같이 바꿉니다.

    • SERVICE를 Cloud Run 서비스 이름으로 바꿉니다.
    • GPU_ZONAL_REDUNDANCY를 GPU 영역 중복을 사용 설정하려면 false로, 사용 중지하려면 true로 바꿉니다.
  3. 다음 명령어를 사용하여 서비스를 만들거나 업데이트합니다.

    gcloud run services replace service.yaml