AI21 Labs 모델

Vertex AI 기반 AI21 Labs 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 AI21 Labs 모델을 사용하려면 요청을 Vertex AI API 엔드포인트로 직접 보냅니다. AI21 Labs 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 대답을 점진적으로 스트리밍합니다.

AI21 Labs 모델은 사용한 만큼만 비용을 지불합니다(사용한 만큼만 지불). 사용한 만큼만 지불 가격 책정은 Vertex AI 가격 책정 페이지의 AI21 Labs 모델 가격 책정을 참고하세요.

사용 가능한 AI21 Labs 모델

다음 모델은 AI21 Labs에서 Vertex AI에 사용할 수 있습니다. AI21 Labs 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.

Jamba 1.5 Mini

AI21 Labs의 Jamba 1.5 Mini는 Mamba 아키텍처와 Transformer 아키텍처를 활용하여 경쟁력 있는 가격으로 최고의 품질을 확보하기 위해 하이브리드 아키텍처에서 빌드된 소규모 파운데이션 모델입니다.

SSM-Transformer 하이브리드 아키텍처와 256,000 컨텍스트 윈도우를 갖춘 Jamba 1.5 Mini는 다양한 텍스트 생성 및 텍스트 이해 엔터프라이즈 사용 사례를 효율적으로 해결합니다.

Jamba 1.5 Mini는 긴 문서 요약이나 광범위한 조직 지식 기반 전반에서 질의 응답을 사용하는 등 정확하고 상세한 응답을 생성하기 위해 대량의 정보를 처리할 수 있는 모델이 필요한 데이터 집약적인 작업을 처리하는 엔터프라이즈 워크플로에 적합합니다. Jamba 1.5 Mini는 품질, 처리량, 저렴한 비용 전반에 걸쳐 균형이 잘 잡혀 있습니다.

Jamba 1.5 Mini 모델 카드로 이동

Jamba 1.5 Large

AI21 Labs의 Jamba 1.5 Large는 Mamba 아키텍처와 Transformer 아키텍처를 활용하여 경쟁력 있는 가격으로 우수한 품질을 확보하는 하이브리드 아키텍처에서 빌드된 파운데이션 모델입니다.

SSM-Transformer 하이브리드 아키텍처와 256,000 컨텍스트 윈도우를 갖춘 Jamba 1.5 Large는 다양한 텍스트 생성 및 텍스트 이해 엔터프라이즈 사용 사례를 효율적으로 해결합니다. Jamba 1.5 Large는 940억 개의 활성 매개변수와 총 3,980억 개의 매개변수를 사용하여 응답의 정확성을 높입니다.

Jamba 1.5 Large는 긴 문서 요약이나 광범위한 조직 지식 기반 전반에서 질의 응답을 사용하는 등 정확하고 상세한 응답을 생성하기 위해 대량의 정보를 처리할 수 있는 모델이 필요한 데이터 집약적인 작업을 처리하는 엔터프라이즈 워크플로에 적합합니다. Jamba 1.5 Large는 우수한 품질의 응답, 높은 처리량, 동급 다른 모델에 비해 경쟁력 있는 가격을 제공하도록 설계되었습니다.

Jamba 1.5 Large 모델 카드로 이동

AI21 Labs 모델 사용

AI21 Labs 모델을 사용하도록 요청을 보낼 때는 다음 모델 이름을 사용하세요.

Jamba 1.5 Mini의 경우 jamba-1.5-mini@001을 사용합니다.
Jamba 1.5 Large의 경우 jamba-1.5-large@001을 사용합니다.

모델 버전 간의 차이로 인해 @ 기호로 시작하는 서픽스가 포함된 모델 버전을 사용하는 것이 좋습니다. 모델 버전을 지정하지 않으면 항상 최신 버전이 사용되어 모델 버전이 변경될 때 실수로 워크플로에 의도치 않은 영향을 미칠 수 있습니다.

시작하기 전에

Vertex AI에서 AI21 Labs 모델을 사용하려면 다음 단계를 실행해야 합니다. Vertex AI를 사용하려면 Vertex AI API(aiplatform.googleapis.com)를 사용 설정해야 합니다. Vertex AI API가 사용 설정된 기존 프로젝트가 이미 있는 경우 새 프로젝트를 만드는 대신 해당 프로젝트를 사용할 수 있습니다.

파트너 모델을 사용 설정하고 사용하는 데 필요한 권한이 있는지 확인합니다. 자세한 내용은 필수 권한 부여를 참고하세요.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

다음 Model Garden 모델 카드 중 하나로 이동한 다음 사용 설정을 클릭합니다.
- Jamba 1.5 Large 모델 카드로 이동
- Jamba 1.5 Mini 모델 카드로 이동

AI21 Labs 모델에 스트리밍 호출 수행

다음 샘플은 AI21 Labs 모델에 스트리밍 호출을 수행합니다.

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: AI21 Labs 모델을 지원하는 리전입니다.
MODEL: 사용할 모델 이름. 요청 본문에서 @ 모델 버전 번호를 제외합니다.
ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. 모델이 user와 assistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 대답 콘텐츠가 계속됩니다. 이를 사용하여 모델 대답의 일부를 제한할 수 있습니다.
STREAM: 대답 스트리밍 여부를 지정하는 불리언. 대답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 대답을 스트리밍하려면 true로 설정하고 대답을 한 번에 반환하려면 false로 설정합니다.
CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트).
MAX_OUTPUT_TOKENS: 대답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 3.5자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.
응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict

JSON 요청 본문:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"

PowerShell

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

AI21 Labs 모델에 스트리밍이 아닌 호출 수행

다음 샘플은 AI21 Labs 모델을 스트리밍 방식이 아닌 방식으로 호출합니다.

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: AI21 Labs 모델을 지원하는 리전입니다.
MODEL: 사용할 모델 이름. 요청 본문에서 @ 모델 버전 번호를 제외합니다.
ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. 모델이 user와 assistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 대답 콘텐츠가 계속됩니다. 이를 사용하여 모델 대답의 일부를 제한할 수 있습니다.
STREAM: 대답 스트리밍 여부를 지정하는 불리언. 대답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 대답을 스트리밍하려면 true로 설정하고 대답을 한 번에 반환하려면 false로 설정합니다.
CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트).
MAX_OUTPUT_TOKENS: 대답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 3.5자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.
응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

JSON 요청 본문:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

AI21 Labs 모델 리전 가용성 및 할당량

AI21 Labs 모델의 경우 모델을 사용할 수 있는 각 리전에 할당량이 적용됩니다. 할당량은 분당 쿼리 수(QPM) 및 분당 토큰 수(TPM)로 지정됩니다. TPM에는 입력 및 출력 토큰이 모두 포함됩니다.

다음 표에는 각 AI21 Labs 모델에 지원되는 리전, 기본 할당량, 최대 컨텍스트 길이가 나와 있습니다.

Jamba 1.5 Mini

지역	할당량 시스템	지원되는 컨텍스트 길이
`us-central1`	50QPM, 60,000TPM	256,000 토큰
`europe-west4`	50QPM, 60,000TPM	256,000 토큰

Jamba 1.5 Large

지역	할당량 시스템	지원되는 컨텍스트 길이
`us-central1`	20QPM, 20,000TPM	256,000 토큰
`europe-west4`	20QPM, 20,000TPM	256,000 토큰

Vertex AI의 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용해 할당량 상향을 요청하면 됩니다. 할당량에 대한 자세한 내용은 할당량 작업을 참조하세요.