이 페이지는 Cloud Translation API를 통해 번역되었습니다.

추론과 함께 flex-start VM 사용

이 가이드에서는 Vertex AI 추론과 함께 플렉스 시작 VM을 사용할 때의 이점과 제한사항을 설명합니다. 이 가이드에서는 Flex-start VM을 사용하는 모델을 배포하는 방법도 설명합니다.

개요

동적 워크로드 스케줄러를 기반으로 하는 flex-start VM을 사용하면 추론 작업 실행 비용을 줄일 수 있습니다. flex-start VM은 상당한 할인을 제공하며 단기 워크로드에 적합합니다.

최대 7일까지 원하는 기간 동안 Flex-start VM이 필요한 시간을 지정할 수 있습니다. 요청한 시간이 지나면 배포된 모델이 자동으로 배포 해제됩니다. 시간이 만료되기 전에 모델을 수동으로 배포 취소할 수도 있습니다.

자동 배포 해제

특정 기간 동안 Flex-start VM을 요청하면 해당 기간이 지난 후 모델이 자동으로 배포 해제됩니다. 예를 들어 5시간 동안 Flex-start VM을 요청하면 제출 후 5시간이 지나면 모델이 자동으로 배포 해제됩니다. 워크로드가 실행되는 시간에 대해서만 비용이 청구됩니다.

제한사항 및 요구사항

유연한 시작 VM을 사용할 때는 다음 제한사항과 요구사항을 고려하세요.

최대 기간: flex-start VM의 최대 사용 기간은 7일입니다. 더 긴 기간의 배포 요청은 거부됩니다.
TPU 지원: TPU 포드에서 Flex-start VM을 사용하는 것은 지원되지 않습니다.
Quota: 작업을 시작하기 전에 Vertex AI 선점형 할당량이 충분한지 확인합니다. 자세한 내용은 비율 할당량을 참고하세요.
큐에 추가된 프로비저닝: 큐에 추가된 프로비저닝과 함께 flex-start VM을 사용하는 것은 지원되지 않습니다.
노드 재활용: 노드 재활용은 지원되지 않습니다.

결제

워크로드가 7일 미만으로 실행되는 경우 Flex-start VM을 사용하면 비용을 절감할 수 있습니다.

Flex-start VM을 사용하면 작업 기간과 선택한 머신 유형에 따라 요금이 청구됩니다. 워크로드가 활성 상태로 실행되는 시간에 대해서만 요금이 청구됩니다. 작업이 대기열에 있는 시간이나 요청된 기간이 만료된 후의 시간에 대해서는 요금이 청구되지 않습니다.

결제는 다음 두 SKU에 분산됩니다.

라벨이 vertex-ai-online-prediction인 Compute Engine SKU입니다. 동적 워크로드 스케줄러 가격 책정을 참고하세요.
Vertex AI 관리 수수료 SKU입니다. Vertex AI 가격 책정을 참고하세요.

Flex-start VM을 사용하여 추론 가져오기

모델을 배포하여 추론을 가져올 때 플렉스 시작 VM을 사용하려면 REST API를 사용하면 됩니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION_ID: Vertex AI를 사용하는 리전입니다.
PROJECT_ID: 프로젝트 ID입니다.
ENDPOINT_ID: 엔드포인트의 ID입니다.
MODEL_ID: 배포할 모델의 ID입니다.
DEPLOYED_MODEL_NAME: DeployedModel의 이름입니다. DeployedModel의 Model 표시 이름도 사용할 수 있습니다.
MACHINE_TYPE: (선택사항) 이 배포의 각 노드에 사용되는 머신 리소스. 기본 설정은 n1-standard-2입니다. 머신 유형에 대해 자세히 알아보세요.
ACCELERATOR_TYPE: 선택사항. 머신에 연결할 가속기 유형입니다. 자세히 알아보기
ACCELERATOR_COUNT: 선택사항. 사용할 각 복제본의 가속기 수입니다.
MAX_RUNTIME_DURATION: 유연한 시작 배포의 최대 기간입니다. 이 기간이 지나면 배포된 모델이 자동으로 배포 취소됩니다. s로 끝나는 초 단위로 기간을 지정합니다. 예를 들어 1시간은 3600s입니다. 최댓값은 604800s (7일)입니다.
PROJECT_NUMBER: 프로젝트의 자동으로 생성된 프로젝트 번호

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel

JSON 요청 본문:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "enableContainerLogging": true,
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT
      },
      "flexStart": {
        "maxRuntimeDuration": "MAX_RUNTIME_DURATION"
      },
      "minReplicaCount": 2,
      "maxReplicaCount": 2
    },
  },
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel"

PowerShell(Windows)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

추론과 함께 flex-start VM 사용

개요

자동 배포 해제

제한사항 및 요구사항

결제

Flex-start VM을 사용하여 추론 가져오기

cURL(Linux, macOS, Cloud Shell)

PowerShell(Windows)

다음 단계