Vertex AI에서 OpenAI 라이브러리 사용

Chat Completions API는 Python 및 REST용 OpenAI 라이브러리를 사용하여 Vertex AI의 Gemini와 더 쉽게 상호작용할 수 있도록 설계된 OpenAI 호환 엔드포인트로 작동합니다. 이미 OpenAI 라이브러리를 사용하고 있으면 기존 코드를 변경하지 않고도 출력, 비용, 확장성을 비교하기 위해 OpenAI 모델 호출이나 Vertex AI 호스팅 모델을 전환하는 저비용 방법으로 이 API를 사용할 수 있습니다. 아직 OpenAI 라이브러리를 사용하고 있지 않으면 Google Gen AI SDK를 사용하는 것이 좋습니다.

지원되는 모델

Chat Completions API는 Gemini 모델과 Model Garden에서 자체 배포한 일부 모델을 모두 지원합니다.

Gemini 모델

다음 모델은 Chat Completions API를 지원합니다.

Model Garden의 자체 배포 모델

Hugging Face 텍스트 생성 인터페이스(HF TGI) 및 Vertex AI Model Garden 사전 빌드된 vLLM 컨테이너는 Chat Completions API를 지원합니다. 그러나 이러한 컨테이너에 배포된 모든 모델이 Chat Completions API를 지원하는 것은 아닙니다. 다음 표에는 컨테이너별로 가장 많이 지원되는 모델이 나와 있습니다.

HF TGI	vLLM
`gemma-2-9b-it` `gemma-2-27b-it` `Meta-Llama-3.1-8B-Instruct` `Meta-Llama-3-8B-Instruct` `Mistral-7B-Instruct-v0.3` `Mistral-Nemo-Instruct-2407`	Gemma Llama 2 Llama 3 Mistral-7B Mistral Nemo

지원되는 매개변수

Google 모델의 경우 Chat Completions API는 다음 OpenAI 파라미터를 지원합니다. 각 파라미터에 대한 설명은 OpenAI의 채팅 완성 생성 문서를 참고하세요. 서드 파티 모델의 파라미터 지원은 모델마다 다릅니다. 지원되는 매개변수를 확인하려면 모델의 문서를 참조하세요.

`messages`	`System message` `User message`: `text` 및 `image_url` 유형이 지원됩니다. `image_url` 유형은 Cloud Storage URI에 저장된 이미지나 `"data:<MIME-TYPE>;base64,<BASE64-ENCODED-BYTES>"` 형식의 base64 인코딩을 지원합니다. Cloud Storage 버킷을 만들고 여기에 파일을 업로드하는 방법을 알아보려면 객체 스토리지 탐색을 참고하세요. `detail` 옵션은 지원되지 않습니다. `Assistant message` `Tool message` `Function message`: 이 필드는 지원 중단되었지만 이전 버전과의 호환성을 위해 지원됩니다.
`model`
`max_completion_tokens`	`max_tokens` 모델 별칭
`max_tokens`
`n`
`frequency_penalty`
`presence_penalty`
`reasoning_effort`	대답에 사용되는 시간과 토큰 수를 구성합니다. `low`: 1024 `medium`: 8192 `high`: 24576 대답에 사고가 포함되지 않으므로 `reasoning_effort` 또는 `extra_body.google.thinking_config` 중 하나만 지정할 수 있습니다.
`response_format`	`json_object`: Gemini API에 'application/json'을 전달하는 것으로 해석됩니다. `json_schema`. 완전 재귀 스키마는 지원되지 않습니다. `additional_properties`가 지원됩니다. `text`: Gemini API에 'text/plain'을 전달하는 것으로 해석됩니다. 다른 모든 MIME 유형은 'application/json'을 직접 전달하는 것처럼 모델에 그대로 전달됩니다.
`seed`	`GenerationConfig.seed`에 해당합니다.
`stop`
`stream`
`temperature`
`top_p`
`tools`	`type` `function` `name` `description` `parameters`: OpenAPI 사양을 사용하여 파라미터를 지정합니다. 이는 JSON 스키마 객체로 설명되는 OpenAI 파라미터 필드와 다릅니다. OpenAPI와 JSON 스키마 간의 키워드 차이점에 관한 자세한 내용은 OpenAPI 가이드를 참고하세요.
`tool_choice`	`none` `auto` `required`: `FunctionCallingConfig`의 `ANY` 모드에 해당합니다. `validated`: `FunctionCallingConfig`의 `VALIDATED` 모드에 해당합니다. Google 관련 파라미터입니다.
`web_search_options`	`GoogleSearch` 도구에 해당합니다. 하위 옵션은 지원되지 않습니다.
`function_call`	이 필드는 지원 중단되었지만 이전 버전과의 호환성을 위해 지원됩니다.
`functions`	이 필드는 지원 중단되었지만 이전 버전과의 호환성을 위해 지원됩니다.

지원되지 않는 파라미터를 전달하면 무시됩니다.

멀티모달 입력 파라미터

Chat Completions API는 일부 멀티모달 입력을 지원합니다.

input_audio

data: 모든 URI 또는 유효한 blob 형식. 이미지, 오디오, 동영상을 포함한 모든 blob 유형을 지원합니다. GenerateContent에서 지원하는 모든 항목이 지원됩니다(HTTP, Cloud Storage 등).
format: OpenAI는 wav(audio/wav) 및 mp3(audio/mp3) 모두 지원합니다. Gemini를 사용하면 모든 유효한 MIME 유형이 지원됩니다.

image_url

data: input_audio와 마찬가지로 모든 URI 또는 유효한 blob 형식이 지원됩니다.
image_url이 URL인 경우 기본적으로 image/* MIME 유형이 사용되며 image_url이 blob 데이터이면 모든 멀티모달 입력으로 사용될 수 있습니다.
detail: 미디어 해상도와 마찬가지로, 요청의 이미지당 최대 토큰 수를 결정합니다. OpenAI의 필드는 이미지별이지만 Gemini는 요청 전체에 동일한 세부정보를 적용하며 요청 하나에 여러 세부정보 유형을 전달하면 오류가 발생합니다.

일반적으로 data 파라미터는 URI이거나 MIME 유형과 base64로 인코딩된 바이트의 조합("data:<MIME-TYPE>;base64,<BASE64-ENCODED-BYTES>" 형식)일 수 있습니다. MIME 유형 전체 목록은 GenerateContent를 참조하세요. OpenAI의 base64 인코딩에 대한 자세한 내용은 OpenAI 문서를 참조하세요.

사용법은 멀티모달 입력 예시를 참조하세요.

Gemini 관련 파라미터

Gemini에서 지원되지만 OpenAI 모델에서는 사용할 수 없는 몇 가지 기능이 있습니다. 이러한 기능은 파라미터로 전달될 수 있지만 extra_content 또는 extra_body 내에 포함되어야 합니다. 그렇지 않으면 무시됩니다.

기능 `extra_body`개

Gemini 관련 extra_body 기능이 포함된 google 필드를 포함합니다.

{
  ...,
  "extra_body": {
     "google": {
       ...,
       // Add extra_body features here.
     }
   }
}

`safety_settings`	이는 Gemini의 `SafetySetting`에 해당합니다.
`cached_content`	이는 Gemini의 `GenerateContentRequest.cached_content`에 해당합니다.
`thinking_config`	이는 Gemini의 `GenerationConfig.ThinkingConfig`에 해당합니다.
`thought_tag_marker`	사고가 지원되는 모델의 경우 모델의 사고를 대답과 분리하는 데 사용됩니다. 지정하지 않으면 모델 사고에 태그가 반환되지 않습니다. 이 태그가 있으면 후속 쿼리는 사고 태그를 삭제하고 컨텍스트에 맞게 사고를 표시합니다. 이렇게 하면 후속 쿼리에 적절한 컨텍스트를 유지할 수 있습니다.

기능 `extra_part`개

extra_part를 사용하면 Part 수준별로 추가 설정을 지정할 수 있습니다.

Gemini 관련 extra_part 기능이 포함된 google 필드를 포함합니다.

{
  ...,
  "extra_part": {
     "google": {
       ...,
       // Add extra_part features here.
     }
   }
}

`extra_content`	무시해서는 안 되는 Gemini 관련 콘텐츠를 추가하는 필드입니다.
`thought`	필드가 사고인지 명시적으로 표시하고 `thought_tag_marker`보다 우선시 합니다. 도구 호출이 사고에 포함되는지 여부를 지정하는 데 사용되어야 합니다.

다음 단계

OpenAI 호환 구문을 사용한 인증 및 자격 인증 자세히 알아보기
OpenAI 호환 구문으로 Chat Completions API를 호출하는 예시 참조
OpenAI 호환 구문으로 Inference API를 호출하는 예시 참고
OpenAI 호환 구문으로 Function Calling API를 호출하는 예시 참고
Gemini API 자세히 알아보기
Azure OpenAI에서 Gemini API로 마이그레이션에 대해 자세히 알아보기