Vertex AI 기반 생성형 AI 추론 API 오류

이 가이드에서는 생성형 AI용 모델 API 참조를 사용할 때 발생할 수 있는 오류 목록을 제공합니다. 오류는 Google Cloud API의 오류 모델을 따르므로 생성형 AI 모델과 관련된 원인과 해결책에 대한 안내를 참고하는 것이 좋습니다.

API 오류

이 표에는 API 오류 코드와 설명이 나와 있습니다.

HTTP 오류 코드	표준 오류 코드	원인	예	솔루션
400	`INVALID_ARGUMENT / FAILED_PRECONDITION`	요청이 API 검증에 실패했거나 허용 목록에 추가해야 하거나 조직 정책에서 허용하지 않는 모델에 액세스하려고 했습니다.	요청이 모델의 입력 토큰 한도를 초과합니다.	요청 매개변수, 토큰 수, 기타 매개변수는 생성형 AI용 모델 API 참조를 확인하세요.
403	`PERMISSION_DENIED`	클라이언트에게 API를 호출할 수 있는 충분한 권한이 없습니다.	서비스 계정에 이미지 또는 동영상 리소스를 호스팅하는 Cloud Storage 버킷에 액세스할 수 있는 권한이 없습니다.	1. 필요한 모든 API가 사용 설정되어 있고 서비스 계정에 선택한 Vertex AI 서비스에 액세스할 수 있는 올바른 권한이 있는지 확인합니다. 2. Vertex AI 제품별, 프로젝트별 서비스 계정(P4SA)에는 입력에서 참조되는 리소스에 액세스하는 데 필요한 권한이 부여됩니다.
404	`NOT_FOUND`	지정된 URL에서 유효한 객체를 찾을 수 없습니다.	스토리지 URL에서 이미지 파일을 찾을 수 없습니다.	파일 위치를 확인하고 수정합니다.
429	`RESOURCE_EXHAUSTED`	오류 메시지에 따라 오류 원인은 다음과 같을 수 있습니다. 1. API 할당량이 한도를 초과했습니다. 2. 공유 서버 용량으로 인한 서버 과부하입니다. 3. `logprobs`를 사용한 요청의 일일 한도에 도달했습니다.	Gemini API가 분당 요청 한도를 초과했습니다.	1. Vertex AI 생성형 AI 할당량 한도를 확인합니다. 필요한 경우 더 높은 할당량을 신청합니다. 2. 몇 초 후에 다시 시도합니다. 몇 시간 후에도 오류가 지속되면 Vertex AI 지원팀에 문의하세요. 3. 프로비저닝된 처리량을 구매하는 것이 좋습니다.
499	`CANCELLED`	클라이언트에서 요청을 취소했습니다.
500	`UNKNOWN / INTERNAL`	과부하 또는 종속 항목 실패로 인한 서버 오류입니다.	서비스가 일시적으로 과부하되어 요청이 제한되었습니다.	몇 초 후에 다시 시도합니다. 몇 시간 후에도 오류가 지속되면 Vertex AI 지원팀에 문의하세요.
503	`UNAVAILABLE`	서비스를 일시적으로 사용할 수 없습니다.	서버가 수신 요청에 응답하지 않습니다.	사용할 수 없음 상태는 일시적일 수 있습니다. 하지만 오류가 계속되면 Vertex AI 지원팀에 문의하세요.
504	`DEADLINE_EXCEEDED`	클라이언트가 서버의 기본 기한(10분)보다 짧게 기한을 설정했지만 클라이언트가 제공한 기한 내에 요청이 완료되지 않았습니다.	클라이언트에서 제공한 기한을 늘리는 것이 좋습니다.

오류 처리

트래픽 급증을 방지합니다. 급증은 아주 짧은 기간 동안 요청 수가 갑작스럽게 크게 증가하는 것입니다. 경우에 따라 트래픽이 급증하면 할당량 적용에 문제가 발생하고 서버 과부하가 발생할 가능성이 높아질 수 있습니다.

이벤트를 다시 시도할 때 주의하세요. 두 번 이하로 다시 시도하는 것이 좋습니다. 최소 지연 시간은 1초이며 후속 요청은 기하급수적으로 백업됩니다.

다음 단계

Vertex AI의 생성형 AI에는 다음과 같은 제한이 있습니다. 자세한 내용은 PaLM API 제한사항을 참조하세요.
Vertex AI Studio 또는 Vertex AI API를 사용하여 빠른 시작 튜토리얼 사용해 보기
Model Garden의 미리 학습된 모델 살펴보기
할당량 및 한도 알아보기
가격 책정 알아보기