Vertex AI는 AI 기반 애플리케이션에서 사용하기 위해 테스트, 배포, 맞춤설정할 수 있는 점점 더 많은 기반 모델 목록을 제공합니다. 기반 모델은 특정 사용 사례에 맞게 조정되며 여러 가격대로 제공됩니다. 이 페이지에서는 다양한 API에서 제공하는 모델을 요약하고 사용 사례별로 선택할 수 있는 모델을 안내합니다.
Vertex AI의 모든 AI 모델과 API에 대한 자세한 내용은 Model Garden의 AI 모델 살펴보기를 참조하세요.
Gemini 모델
다음 표에는 Gemini API에서 사용할 수 있는 모델이 요약되어 있습니다. API 세부정보에 대한 자세한 내용은 Gemini API 참조를 확인하세요.
Google Cloud 콘솔에서 모델을 살펴보려면 Model Garden에서 모델 카드를 선택합니다.
모델 | 입력 | 결과 | 사용 사례 | 모델 사용해 보기 |
---|---|---|---|---|
Gemini 1.5 Flash |
텍스트, 코드, 이미지, 오디오, 동영상, 오디오가 포함된 동영상, PDF | 텍스트 | 비용 효율적인 고품질 대용량 앱을 위한 속도와 효율성을 제공합니다. | Gemini 1.5 Flash 모델 사용해 보기 |
Gemini 1.5 Pro |
텍스트, 코드, 이미지, 오디오, 동영상, 오디오가 포함된 동영상, PDF | 텍스트 | 텍스트 또는 코드 응답에 텍스트 또는 채팅 프롬프트를 지원합니다. 최대 입력 토큰 한도까지 긴 컨텍스트 이해를 지원합니다. |
Gemini 1.5 Pro 모델 사용해 보기 |
Gemini 1.0 Pro |
텍스트 | 텍스트 | 다양한 텍스트 전용 태스크에 가장 적합한 모델입니다. | Gemini 1.0 Pro 모델 카드로 이동 |
Gemini 1.0 Pro Vision |
텍스트, 이미지, 오디오, 동영상, 오디오가 포함된 동영상, PDF | 텍스트 | 다양한 애플리케이션을 처리할 수 있는 성능이 가장 우수한 이미지 및 동영상 이해 모델입니다. | Gemini 1.0 Pro Vision 모델 사용해 보기 |
Gemini 1.0 Ultra |
텍스트 | 텍스트 | 안내, 코드, 추론을 비롯한 복잡한 태스크에 최적화된 가장 뛰어난 텍스트 모델입니다. | Gemini 1.0 Ultra 모델 카드로 이동 |
Gemini 1.0 Ultra Vision |
텍스트, 코드, 이미지, 오디오, 동영상, 오디오가 포함된 동영상, PDF | 텍스트 | 가장 강력한 멀티모달 비전 모델입니다. 공동 텍스트, 이미지, 동영상 입력을 지원하도록 최적화되었습니다. | Gemini 1.0 Ultra Vision 모델 카드로 이동 |
다음 정보는 각 Gemini 모델에 대한 세부정보를 제공합니다.
Gemini 1.5 Flash
설명
비용 효율적인 대용량 애플리케이션을 위해 설계되었으며 품질을 저하시키지 않는 빠르고 저렴한 애플리케이션을 빌드할 수 있는 속도와 효율성을 제공하는 멀티모달 모델입니다.
기능
기능 | 사용 가능 여부 |
---|---|
그라운딩 | 예(텍스트 입력만 해당) |
조정 | 아니요 |
시스템 안내 | 예. 시스템 안내 사용을 참고하세요. |
JSON 지원 | 예 |
사양
사양 |
---|
최대 입력 토큰: 1,048,576 |
최대 출력 토큰: 8,192 |
최대 원시 이미지 크기: 20MB |
base64로 인코딩된 최대 이미지 크기: 7MB |
프롬프트당 최대 이미지 수: 3,000개 |
최대 동영상 길이: 1시간 |
프롬프트당 최대 동영상 수: 10개 |
최대 오디오 길이: 약 8.4시간 |
프롬프트당 최대 오디오: 1 |
최대 PDF 크기: 30MB |
학습 데이터: 2024년 5월까지 |
모델 버전
모델 버전에 대한 자세한 내용은 모델 버전을 참조하세요.
안정화 버전
Gemini 1.5 Flash 모델 | 출시일 | 지원 중단 날짜 |
---|---|---|
gemini-1.5-flash-001 | 2024년 5월 24일 | 2025년 5월 24일 |
미리보기 버전
모델 이름 | 미리보기 이름 | 지원 중단 날짜 |
---|---|---|
Gemini 1.5 Flash(미리보기) | gemini-1.5-flash-preview-0514 |
2024년 6월 24일 |
Gemini 1.5 Pro
설명
텍스트 또는 코드 응답에 대한 텍스트 또는 채팅 프롬프트에서 이미지, 오디오, 동영상, PDF 파일 추가를 지원하는 멀티모달 모델입니다. 이 모델은 최대 입력 토큰 한도까지 긴 컨텍스트 이해를 지원합니다.
기능
기능 | 사용 가능 여부 |
---|---|
그라운딩 | 예(텍스트 입력만 해당) |
조정 | 아니요 |
시스템 안내 | 예. 시스템 안내 사용을 참고하세요. |
JSON 지원 | 예 |
사양
사양 |
---|
최대 입력 토큰: 2,097,152 |
최대 출력 토큰: 8,192 |
프롬프트당 최대 이미지 수: 3,000개 |
최대 동영상 길이(프레임만 해당): 약 1시간 |
최대 동영상 길이(프레임 및 오디오): 약 45분 |
프롬프트당 최대 동영상 수: 10개 |
최대 오디오 길이: 약 8.4시간 |
프롬프트당 최대 오디오: 1 |
최대 PDF 크기: 30MB |
학습 데이터: 2024년 5월까지 |
모델 버전
모델 버전에 대한 자세한 내용은 모델 버전을 참조하세요.
안정화 버전
Gemini 1.5 Pro 모델 | 출시일 | 지원 중단 날짜 |
---|---|---|
gemini-1.5-pro-001 | 2024년 5월 24일 | 2025년 5월 24일 |
미리보기 버전
모델 이름 | 모델 ID | 지원 중단 날짜 |
---|---|---|
Gemini 1.5 Pro(미리보기) | gemini-1.5-pro-preview-0514 |
2024년 6월 24일 |
Gemini 1.5 Pro(미리보기) | gemini-1.5-pro-preview-0409 (gemini-1.5-pro-preview-0514 를 가리키고 사용) |
2024년 6월 14일 |
Gemini 1.0 Pro
설명
다양한 텍스트 전용 태스크를 지원하는 기능이 있는 최고 성능 모델입니다. 이 모델은 텍스트만 입력으로 지원합니다.
기능
기능 | 사용 가능 여부 |
---|---|
그라운딩 | 예(텍스트 입력만 해당) |
조정 | 예. 지도 조정은 gemini-1.0-pro-002에서 지원됩니다. |
시스템 안내 | 예. gemini-1.0-pro-002에서 지원됩니다. 시스템 안내 사용을 참고하세요. |
JSON 지원 | 예 |
사양
사양 |
---|
최대 입력 토큰: 32,760 |
최대 출력 토큰: 8,192 |
학습 데이터: 2023년 2월까지 |
모델 버전
모델 버전에 대한 자세한 내용은 모델 버전을 참조하세요.
안정화 버전
Gemini 1.0 Pro 모델 | 출시일 | 지원 중단 날짜 |
---|---|---|
gemini-1.0-pro-001 | 2024년 2월 15일 | 2025년 2월 15일 |
gemini-1.0-pro-002 | 2024년 4월 9일 | 2025년 4월 9일 |
자동 업데이트된 버전
모델 이름 | 자동 업데이트 이름 | 참조 안정화 버전 |
---|---|---|
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision
설명
다양한 애플리케이션을 처리할 수 있는 성능이 가장 우수한 이미지 및 동영상 이해 모델입니다. Gemini 1.0 Pro Vision은 텍스트, 이미지, 동영상을 입력으로 지원합니다.
기능
기능 | 사용 가능 여부 |
---|---|
그라운딩 | 아니요 |
조정 | 아니요 |
시스템 안내 | 아니요 |
JSON 지원 | 아니요 |
사양
사양 |
---|
최대 입력 토큰: 16,384 |
최대 출력 토큰: 2,048 |
프롬프트당 최대 이미지: 16개 |
최대 동영상 길이: 2분 |
프롬프트당 최대 동영상 수: 1개 |
학습 데이터: 2023년 2월까지 |
모델 버전
모델 버전에 대한 자세한 내용은 모델 버전을 참조하세요.
안정화 버전
Gemini 1.0 Pro Vision 모델 | 출시일 | 지원 중단 날짜 |
---|---|---|
gemini-1.0-pro-vision-001 | 2024년 2월 15일 | 2025년 2월 15일 |
자동 업데이트된 별칭
모델 이름 | 자동 업데이트 이름 | 참조 안정화 버전 |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Gemini 1.0 Ultra
설명
안내, 코드, 추론을 포함한 복잡한 태스크에 최적화되어 있는 Google에서 가장 뛰어난 텍스트 모델입니다. Gemini 1.0 Ultra는 텍스트만 입력으로 지원합니다.
기능
기능 | 사용 가능 여부 |
---|---|
그라운딩 | 아니요 |
조정 | 아니요 |
시스템 안내 | 아니요 |
JSON 지원 | 아니요 |
사양
사양 |
---|
최대 토큰 입력: 8,192 |
최대 토큰 출력: 2,048 |
모델 버전
모델 버전에 대한 자세한 내용은 모델 버전을 참조하세요.
Gemini 1.0 Ultra Vision
설명
Google에서 가장 뛰어난 멀티모달 비전 모델로, 공동 텍스트, 이미지 및 비디오 입력을 지원하도록 최적화되어 있습니다.
기능
기능 | 사용 가능 여부 |
---|---|
그라운딩 | 아니요 |
조정 | 아니요 |
시스템 안내 | 아니요 |
JSON 지원 | 아니요 |
사양
사양 |
---|
최대 토큰 입력: 8,192 |
최대 토큰 출력: 2,048 |
모델 버전
모델 버전에 대한 자세한 내용은 모델 버전을 참조하세요.
Gemini 언어 지원
모든 Gemini 모델은 다음 언어를 이해하고 응답할 수 있습니다.
한국어(ko), 아랍어(ar), 벵골어(bn), 불가리아어(bg), 중국어 간체 및 번체(zh), 크로아티아어(hr), 체코어(cs), 덴마크어(da), 네덜란드어(nl), 영어(en), 에스토니아(et), 핀란드어(fi), 프랑스어(fr), 독일어(de), 그리스어(el), 히브리어(iw), 힌디어(hi), 헝가리어(hu), 인도네시아어(id), 이탈리아어(it), 일본어(ja), 라트비아어(lv), 리투아니아어(lt), 노르웨이어(no), 폴란드어(pl), 포르투갈어(pt), 루마니아어(ro), 러시아어(ru), 세르비아어(sr), 슬로바키아어(sk), 슬로베니아어(sl), 스페인어(es), 스와힐리어(sw), 스웨덴어(sv), 태국어(th), 튀르키예어(tr), 우크라이나어(uk), 베트남어(vi)
Gemini 1.5 Pro 및 Gemini 1.5 Flash 모델은 다음 추가 언어를 이해하고 응답할 수 있습니다.
아프리칸스어(af), 암하라어(am), 아삼어(as), 아제르바이잔어(az), 벨라루스어(be), 보스니아어(bs), 카탈루냐어(ca), 세부아노(ceb), 코르시카어(co), 웨일즈어(cy), 디베히어(dv), 에스페란토(eo), 바스크어(eu), 페르시아어(fa), 필리핀어(타갈로그어)(fil), 프리지아어(fy), 아일랜드(ga), 스코틀랜드 게일어(gd), 갈리시아어(gl), 구자라트어(gu), 하우사(ha), 하와이어(haw), 몽어(hmn), 하이티어(ht), 아르메니아(hy), 이그보어(ig), 아이슬란드어(is), 자바어(jv), 조지아어(ka), 카자흐어(kk), 크메르(km), 칸나다어(kn), 크리오(kri), 쿠르드어(ku), 키르기스어(ky) 라틴어(la), 룩셈부르크어(lb), 라오어(lo), 말라가시어(mg), 마오리어(mi), 마케도니아어(mk), 말라얄람어(ml), 몽골어(mn), 메이테이어(마니푸르어)(mni-Mtei), 마라티어(mr), 말레이어(ms), 몰타어(mt), 미얀마(버마어)(my), 네팔어(ne), 니안자(치셰와)(ny), 오리디아(오리야어)(or), 펀자브어(pa), 파슈토(ps), 신디어(sd), 싱할라어(싱할라어)(si), 사모아어(sm), 쇼나(sn), 소말리어(so), 알바니아어(sq), 세소토어(st), 순다어(su), 타밀어(ta), 텔루구(te), 타지크(tg), 위구르(ug), 우르두어(ur), 우즈베크(uz), 코사어(xh), 이디시어(yi), 요루바어(yo), 줄루어(zu)
Gemma 모델
다음 표에는 Gemma 모델이 요약되어 있습니다.
모델 | 입력 | 결과 | 사용 사례 | 모델 사용해 보기 |
---|---|---|---|---|
Gemma 모델 세부정보 |
텍스트 | 텍스트 | 텍스트 생성, 요약, 추출을 지원하는 소규모의 경량 개방형 텍스트 모델입니다. 리소스가 제한된 환경에 배포할 수 있습니다. | Gemma 사용해 보기 |
CodeGemma 모델 세부정보 |
텍스트, 코드, PDF | 텍스트 | Gemma를 기반으로 빌드된 경량형 오픈 코드 모델 모음입니다. 코드 생성 및 완성에 가장 적합합니다. | CodeGemma 사용해 보기 |
PaliGemma 모델 세부정보 |
텍스트, 이미지 | 텍스트 | 경량 비전 언어 모델(VLM) 이미지 캡션 태스크와 시각적 질문 및 답변 태스크에 가장 적합합니다. | PaliGemma 사용해 보기 |
Gemma 언어 지원
Gemma는 영어만 지원합니다.
임베딩 모델
다음 표에는 Embeddings API에서 사용할 수 있는 모델이 요약되어 있습니다.
모델 이름 | 설명 | 사양 | 모델 사용해 보기 |
---|---|---|---|
텍스트용 임베딩 ( textembedding-gecko@001, )모델 세부정보 |
영어 텍스트 입력의 임베딩을 반환합니다.
텍스트 모델에 대한 임베딩 지도 조정을 지원하고 영어로만 제공됩니다. |
최대 토큰 입력 수: 3,072개(textembedding-gecko@001 )기타: 2,048개 임베딩 측정기준: text-embedding-004 : 768개 이하. 기타: 768개 |
텍스트용 임베딩 사용해 보기 |
다국어 텍스트용 임베딩 ( textembedding-gecko-multilingual@001 ,
text-multilingual-embedding-002 )모델 세부정보 |
100개가 넘는 언어의 텍스트 입력에 대한 임베딩을 반환합니다.
text-multilingual-embedding-002 모델의 지도 조정을 지원합니다. 언어 100개 지원 |
최대 토큰 입력 수: 2,048개 임베딩 측정기준: text-multilingual-embedding-002 : 768개 이하 기타: 768개 |
다국어 텍스트용 임베딩 사용해 보기 |
멀티모달용 임베딩(multimodalembedding) 모델 세부정보 |
텍스트, 이미지, 동영상 입력에 대한 임베딩을 반환하여 서로 다른 모델에서 콘텐츠를 비교합니다. 텍스트, 이미지, 동영상을 동일한 벡터 공간으로 변환합니다. 동영상은 측정기준 1,408개만 지원합니다. 영어로만 제공됩니다. |
최대 토큰 입력 수: 32 최대 이미지 크기: 20MB 최대 동영상 길이: 2분 임베딩 측정기준: 텍스트+이미지 입력의 경우 128, 256, 512 또는 1408개, 비디오 입력의 경우 1,408개 |
멀티모달용 임베딩 사용해 보기 |
임베딩 언어 지원
텍스트 다국어 임베딩 모델은 다음 언어를 지원합니다.
한국어, 아프리칸스어, 알바니아어, 암하릭어, 아랍어, 아르메니아어, 아제르바이잔어, 바스크어, 벨라루스어, 벵골어, 불가리아어, 버마어, 카탈로니아어, 세부어, 말라위어, 중국어, 코르시카어, 체코어, 덴마크어, 네덜란드어, 영어, 에스페란토, 에스토니아어, 필리핀어, 핀란드어, 프랑스어, 갈리시아어, 조지아어, 독일어, 그리스어, 구자라트어, 아이티 크리올어, 하우사어, 하와이어, 히브리어, 힌디어, 몽어, 헝가리어, 아이슬란드어, 이그보어, 인도네시아어, 아일랜드어, 이탈리아어, 일본어, 자바어, 칸나다어, 카자흐어, 크메르어, 쿠르드어, 키르기스어, 라오어, 라틴어, 라트비아어, 리투아니아어, 룩셈부르크어, 마케도니아어, 말라가시어, 말레이어, 말라얄람어, 몰타어, 마오리어 마라타어, 몽골어, 네팔어, 노르웨이어, 파슈토어, 페르시아어, 폴란드어, 포르투갈어, 펀자브어, 루마니아어, 러시아어, 사모아어, 스코틀랜드 게일어, 세르비아어, 쇼나어, 신디어, 싱할라어, 슬로바키아어, 슬로베니아어, 소말리어, 소토어, 스페인어, 순다어, 스와힐리어, 스웨덴어, 타지크, 타밀어, 텔루구어, 태국어, 튀르키예어, 우크라이나어, 우르두어, 우즈베크어, 베트남어, 웨일즈어, 서프리지아어, 코사어, 이디시어, 요루바어, 줄루어
Imagen 모델
다음 표에는 Imagen API에서 사용할 수 있는 모델이 요약되어 있습니다.
모델 | 입력 | 결과 | 사용 사례 | 모델 사용해 보기 |
---|---|---|---|---|
Imagen 2 ( imagegeneration@006 )모델 세부정보 |
텍스트(생성), 이미지(수정) | 이미지 | 이 모델은 이미지 생성 및 편집을 지원하므로 고품질 이미지를 몇 초 만에 만들 수 있습니다.
편집 기능은 객체 삭제 및 삽입, 그림 확장, 제품 편집을 지원합니다. |
Imagen 2 사용해 보기 |
Imagen 2 언어 지원
Imagen 2가 지원하는 언어:
한국어, 영어, 중국어, 힌디어, 일본어, 포르투갈어, 스페인어
코드 완성 모델
다음 표에는 Codey API에서 사용할 수 있는 모델이 요약되어 있습니다.
모델 | 입력 | 결과 | 사용 사례 | 모델 사용해 보기 |
---|---|---|---|---|
코드 완성용 Codey ( code-gecko ) 모델 세부정보 |
지원되는 언어로 된 코드 | 지원되는 언어로 된 코드 | 작성된 코드의 컨텍스트를 기반으로 코드 완성을 추천하도록 미세 조정된 모델입니다. | 코드 완성용 Codey 사용해 보기 |
코드 완성 모델 언어 지원
코드 완성 모델은 영어를 지원합니다.
MedLM 모델
다음 표에는 MedLM API에서 사용할 수 있는 모델이 요약되어 있습니다.
모델 이름 | 설명 | 사양 | 모델 사용해 보기 |
---|---|---|---|
MedLM-medium(medlm-medium )모델 세부정보 |
Google 연구팀에서 제공하는 의료 업계에 맞춰 조정한 모델 및 API의 HIPAA 규정 준수 제품군입니다. 이 모델은 의료 종사자가 의료 질문 및 답변 태스크와 헬스케어 및 의약품 문서 요약 태스크를 수행하는 데 도움이 됩니다. 더 나은 처리량을 제공하며 medlm-large 모델 보다 최신 데이터를 포함합니다. |
최대 토큰 수(입력 + 출력): 32,768 최대 출력 토큰 수: 8,192 |
MedLM-medium 사용해 보기 |
MedLM-large(medlm-large )모델 세부정보 |
Google 연구팀에서 제공하는 의료 업계에 맞춰 조정한 모델 및 API의 HIPAA 규정 준수 제품군입니다. 이 모델은 의료 종사자가 의료 질문 및 답변 태스크와 헬스케어 및 의약품 문서 요약 태스크를 수행하는 데 도움이 됩니다. |
최대 입력 토큰: 8,192 최대 출력 토큰: 1,024 |
MedLM-large 사용해 보기 |
MedLM 언어 지원
MedLM 모델은 영어를 지원합니다.
위치
이러한 모델을 사용할 수 있는 위치 목록은 Vertex AI의 생성형 AI 위치를 참조하세요.
모델 버전
모델 버전에 대한 자세한 내용은 모델 버전을 참조하세요.
Model Garden의 모든 모델 살펴보기
Model Garden은 Google 독점 정보를 탐색, 테스트, 맞춤설정 및 배포하고 OSS 모델 및 애셋을 선택할 수 있게 해주는 플랫폼입니다. Vertex AI에서 사용할 수 있는 생성형 AI 모델 및 API를 살펴보려면 Google Cloud 콘솔의 Model Garden으로 이동합니다.
사용 가능한 모델 및 기능을 포함하여 Model Garden에 대해 자세히 알아보려면 Model Garden에서 AI 모델 살펴보기를 참조하세요.
다음 단계
- Vertex AI Studio 또는 Vertex AI API를 사용하여 빠른 시작 튜토리얼 사용해 보기
- 텍스트 프롬프트 테스트 방법 알아보기
- 채팅 프롬프트 테스트 방법 알아보기
- Model Garden의 미리 학습된 모델 살펴보기
- 기반 모델 조정 방법 알아보기
- 책임감 있는 AI 권장사항 및 Vertex AI 안전 필터 알아보기