MaaS용 Vertex AI 개방형 모델

Vertex AI는 선별된 오픈 모델 목록을 관리형 모델로 지원합니다. 이러한 오픈 모델은 Vertex AI를 서비스형 모델 (MaaS)로 함께 사용될 수 있으며 관리형 API로 제공됩니다. 관리형 개방형 모델을 사용하는 경우 요청을 Vertex AI 엔드포인트로 계속 전송합니다. 관리형 오픈 모델은 서버리스이므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

Model Garden을 사용하여 관리형 개방형 모델을 검색할 수 있습니다. Model Garden을 사용하여 모델을 배포할 수도 있습니다. 자세한 내용은 Model Garden의 AI 모델 살펴보기를 참고하세요.

개방형 모델

다음 개방형 모델은 Vertex AI Model Garden (MaaS)에서 관리형 API로 제공됩니다.

모델 이름 형식 설명 빠른 시작
gpt-oss 120B 언어 추론 작업에서 높은 성능을 제공하는 1,200억 개의 파라미터 모델입니다. 모델 카드
gpt-oss 20B 언어 소비자 및 에지 하드웨어의 효율성과 배포에 최적화된 20B 모델입니다. 모델 카드
Qwen3-Next-80B Thinking 언어, 코드 복잡한 문제 해결과 심층적인 추론에 특화된 Qwen3-Next 모델 제품군의 모델입니다. 모델 카드
Qwen3-Next-80B 안내 언어, 코드 특정 명령어를 따르는 데 특화된 Qwen3-Next 모델 계열의 모델입니다. 모델 카드
Qwen3 Coder 언어, 코드 고급 소프트웨어 개발 작업을 위해 개발된 오픈 가중치 모델입니다. 모델 카드
Qwen3 235B 언어 체계적인 추론과 빠른 대화 사이를 전환할 수 있는 '하이브리드 사고' 기능이 있는 오픈 웨이트 모델입니다. 모델 카드
DeepSeek-V3.1 언어 사고 모드와 비사고 모드를 모두 지원하는 DeepSeek의 하이브리드 모델 모델 카드
DeepSeek R1 (0528) 언어 DeepSeek의 최신 버전인 DeepSeek R1 모델입니다. 모델 카드
Llama 4 Maverick 17B-128E 언어, 비전 코딩, 추론, 이미지 기능을 갖춘 가장 크고 기능이 뛰어난 Llama 4 모델입니다. Llama 4 Maverick 17B-128E는 전문가 망 (MoE) 아키텍처와 조기 융합을 사용하는 멀티모달 모델입니다. 모델 카드
Llama 4 Scout 17B-16E 언어, 비전 Llama 4 Scout 17B-16E는 여러 벤치마크에서 이전 Llama 세대 및 기타 오픈 및 독점 모델보다 우수한 성능을 제공하는 최신 크기 클래스 결과를 제공합니다. Llama 4 Scout 17B-16E는 전문가 망 (MoE) 아키텍처와 조기 융합을 사용하는 멀티모달 모델입니다. 모델 카드
Llama 3.3 언어 Llama 3.3은 텍스트 전용 70B 요청 사항 조정 모델로, 텍스트 전용 애플리케이션에 사용될 때 Llama 3.1 70B 및 Llama 3.2 90B에 비해 향상된 성능을 제공합니다. 또한 일부 애플리케이션의 경우 Llama 3.3 70B가 Llama 3.1 405B의 성능에 근접합니다. 모델 카드
Llama 3.2(미리보기) 언어, 비전 차트 및 그래프 분석, 이미지 캡션과 같은 이미지 추론을 지원할 수 있는 중형 90B 멀티모달 모델입니다. 모델 카드
Llama 3.1 언어

다국어 대화 사용 사례에 최적화된 다국어 LLM 모음으로, 일반적인 업계 벤치마크에서 사용할 수 있는 여러 오픈소스와 비공개 채팅 모델보다 우수한 성능을 발휘합니다.

Llama 3.1 405B는 정식 버전 (GA)으로 제공됩니다.

Llama 3.1 8B 및 Llama 3.1 70B는 프리뷰 버전으로 제공됩니다.

모델 카드

다음 공개 임베딩 모델은 Vertex AI Model Garden (MaaS)에서 관리형 API로 제공됩니다.

모델 이름 설명 출력 크기 최대 시퀀스 길이 지원되는 텍스트 언어 빠른 시작
multilingual-e5-small E5 텍스트 임베딩 모델 제품군의 일부입니다. 소형 변형에는 12개의 레이어가 포함되어 있습니다. 최대 384 토큰 512개 지원되는 언어 모델 카드
multilingual-e5-large E5 텍스트 임베딩 모델 제품군의 일부입니다. Large 변형에는 24개의 레이어가 포함되어 있습니다. 최대 1,024개 토큰 512개 지원되는 언어 모델 카드

리전 및 전역 엔드포인트

리전 엔드포인트의 경우 요청은 지정된 리전에서 처리됩니다. 데이터 상주 요구사항이 있거나 모델이 전역 엔드포인트를 지원하지 않는 경우 리전 엔드포인트를 사용하세요.

전역 엔드포인트를 사용하면 Google에서 사용 중인 모델이 지원하는 모든 리전에서 요청을 처리하고 제공할 수 있습니다. 이로 인해 경우에 따라 지연 시간이 길어질 수 있습니다. 전역 엔드포인트는 전반적인 가용성을 개선하고 오류를 줄이는 데 도움이 됩니다.

전역 엔드포인트를 사용하는 경우 리전 엔드포인트와 가격 차이가 없습니다. 하지만 전역 엔드포인트 할당량과 지원되는 모델 기능은 리전 엔드포인트와 다를 수 있습니다. 자세한 내용은 관련 서드 파티 모델 페이지를 참고하세요.

전역 엔드포인트 지정

전역 엔드포인트를 사용하려면 리전을 global로 설정합니다.

예를 들어 curl 명령어의 요청 URL은 다음 형식을 사용합니다. https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Vertex AI SDK의 경우 리전 엔드포인트가 기본값입니다. 전역 엔드포인트를 사용하려면 리전을 GLOBAL로 설정합니다.

전역 API 엔드포인트 사용 제한

리전 엔드포인트 사용을 강제하려면 constraints/gcp.restrictEndpointUsage 조직 정책 제약조건을 사용하여 전역 API 엔드포인트에 대한 요청을 차단하세요. 자세한 내용은 엔드포인트 사용 제한을 참고하세요.

개방형 모델에 대한 사용자 액세스 권한 부여

공개 모델을 사용 설정하고 프롬프트 요청을 보내려면 Google Cloud관리자가 필요한 권한을 설정하고 조직 정책에서 필요한 API 사용을 허용하는지 확인해야 합니다.

개방형 모델을 사용하는 데 필요한 권한 설정

개방형 모델을 사용하려면 다음 역할과 권한이 필요합니다.

  • 소비자 조달 자격 관리자 Identity and Access Management(IAM) 역할이 있어야 합니다. 이 역할이 부여된 모든 사용자는 Model Garden에서 오픈 모델을 사용 설정할 수 있습니다.

  • aiplatform.endpoints.predict 권한이 있어야 합니다. 이 권한은 Vertex AI 사용자 IAM 역할에 포함되어 있습니다. 자세한 내용은 Vertex AI 사용자액세스 제어를 참고하세요.

콘솔

  1. 사용자에게 소비자 조달 자격 관리자 IAM 역할을 부여하려면 IAM 페이지로 이동합니다.

    IAM으로 이동

  2. 주 구성원 열에서 공개 모델에 대한 액세스를 사용 설정하려는 사용자 주 구성원을 찾은 후 해당 행에서 주 구성원 수정을 클릭합니다.

  3. 액세스 수정 창에서 다른 역할 추가를 클릭합니다.

  4. 역할 선택에서 소비자 조달 자격 관리자를 선택합니다.

  5. 액세스 수정 창에서 다른 역할 추가를 클릭합니다.

  6. 역할 선택에서 Vertex AI 사용자를 선택합니다.

  7. 저장을 클릭합니다.

gcloud

  1. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

  2. Model Garden에서 오픈 모델을 사용 설정하는 데 필요한 소비자 조달 자격 관리자 역할을 부여합니다.

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. 프롬프트 요청을 수행하는 데 필요한 aiplatform.endpoints.predict 권한이 포함된 Vertex AI 사용자 역할을 부여합니다.

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    PRINCIPAL을 주 구성원 식별자로 바꿉니다. 식별자는 user|group|serviceAccount:email 또는domain:domain 형식을 취합니다(예:user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com 또는 domain:example.domain.com).

    다음을 포함하는 정책 바인딩 목록이 출력됩니다.

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    자세한 내용은 단일 역할 부여gcloud projects add-iam-policy-binding을 참조하세요.

개방형 모델 액세스에 대한 조직 정책 설정

개방형 모델을 사용 설정하려면 조직 정책에서 Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com을 허용해야 합니다.

조직에서 서비스 사용량을 제한하도록 조직 정책을 설정하면 조직 관리자는 조직 정책을 설정하여 cloudcommerceconsumerprocurement.googleapis.com이 허용되는지 확인해야 합니다.

또한 Model Garden에서 모델 사용을 제한하는 조직 정책이 있으면 정책에서 개방형 모델에 대한 액세스를 허용해야 합니다. 자세한 내용은 모델 액세스 제어를 참조하세요.

오픈 모델 규정 준수

개방형 모델이 Vertex AI를 사용하는 관리형 API로 사용되는 경우 Vertex AI의 생성형 AI에 대한 인증이 계속 적용됩니다. 모델 자체에 관한 세부정보가 필요한 경우 각 모델 카드에서 추가 정보를 확인하거나 각 모델 게시자에게 문의하면 됩니다.

데이터는 Vertex AI의 오픈 모델에 선택한 리전이나 멀티 리전 내에 저장되지만 데이터 처리 리전화는 다를 수 있습니다. 개방형 모델의 데이터 처리 약정에 대한 자세한 목록은 개방형 모델의 데이터 상주를 참고하세요.

개방형 모델을 비롯하여 Vertex AI API를 사용하면 고객 프롬프트와 모델 응답이 서드 파티와 공유되지 않습니다. Google은 고객 데이터를 고객 지시에 따라 처리하며 이는 Cloud 데이터 처리 추가 조항에 자세히 설명되어 있습니다.