온라인 예측에 전용 공개 엔드포인트 사용

전용 공개 엔드포인트는 온라인 예측을 위한 공개 엔드포인트입니다. 여기에는 다음과 같은 이점이 있습니다.

  • 전용 네트워킹: 예측 요청을 전용 공개 엔드포인트로 보낼 때 다른 사용자의 트래픽과 격리됩니다.
  • 최적화된 네트워크 지연 시간
  • 더 큰 페이로드 지원: 최대 10MB를 지원합니다.
  • 더 긴 요청 제한 시간: 최대 1시간까지 구성할 수 있습니다.
  • 생성형 AI 지원: 스트리밍 및 gRPC가 지원됩니다. 추론 제한 시간은 최대 1시간까지 구성할 수 있습니다.

이러한 이유로 Vertex AI 온라인 예측을 서빙하기 위해서는 전용 공개 엔드포인트가 권장됩니다.

자세한 내용은 엔드포인트 유형 선택을 참조하세요.

전용 공개 엔드포인트를 만들고 여기에 모델 배포

전용 엔드포인트를 만들고 Google Cloud 콘솔을 사용해서 여기에 모델을 배포할 수 있습니다. 자세한 내용은 Google Cloud 콘솔을 사용하여 모델 배포를 참조하세요.

또한 다음과 같이 전용 공개 엔드포인트를 만들고 Vertex AI API를 사용하여 여기에 모델을 배포할 수 있습니다.

  1. 전용 공개 엔드포인트를 만듭니다. 엔드포인트를 만들 때 전용 DNS 사용 설정 체크박스를 선택합니다.
  2. Vertex AI API를 사용하여 모델을 배포합니다.

전용 공개 엔드포인트에서 온라인 예측 가져오기

Vertex AI SDK for Python을 사용하여 온라인 예측 요청을 전용 공개 엔드포인트로 보낼 수 있습니다. 자세한 내용은 온라인 예측 요청을 전용 공개 엔드포인트로 보내기를 참조하세요.

튜토리얼

제한사항

  • 조정된 Gemini 모델 배포는 지원되지 않습니다.
  • VPC 서비스 제어는 지원되지 않습니다. 대신 Private Service Connect 엔드포인트를 사용하세요.

다음 단계