Vertex AI의 Gemini API 개요



Gemini 멀티모달 모델

멀티모달 모델은 이미지, 동영상, 텍스트 등 여러 형식의 정보를 처리할 수 있는 모델입니다. 예를 들어 모델에 쿠키 사진을 전송하고 해당 쿠키의 레시피를 요청할 수 있습니다.

Gemini 모델

다음 Gemini 모델을 사용할 수 있습니다.

  • Gemini 1.5 Flash: 가장 빠르고 비용 효율적인 Gemini 멀티모달 모델입니다. 저비용, 대용량 태스크, 지연 시간에 민감한 애플리케이션을 위해 설계되었습니다. Gemini 1.5 Flash는 비용이 많이 드는 다른 모델보다 응답성이 높으므로 채팅 어시스턴트 및 주문형 콘텐츠 생성 애플리케이션을 만드는 데 적합합니다.
  • Gemini 1.5 Pro: 멀티모달(텍스트, 이미지, 오디오, PDF, 코드, 동영상)로 생성되며, 최대 100만 개 입력 토큰까지 다양한 태스크 범위로 확장됩니다.
  • Gemini 1.0 Pro: 자연어 태스크, 멀티턴 텍스트 및 코드 채팅, 코드 생성을 처리하도록 설계되었습니다.
  • Gemini 1.0 Pro Vision: 멀티모달 프롬프트를 지원합니다. 프롬프트 요청에 텍스트, 이미지, 동영상을 포함하고 텍스트 또는 코드 응답을 얻을 수 있습니다.

Gemini 1.5 Pro 및 Gemini 1.5 Flash 사용 사례

Gemini 1.5 Pro 및 Gemini 1.5 Flash는 프롬프트에 텍스트, 코드, PDF, 이미지, 오디오, 동영상 중 하나 또는 조합을 포함하는 프롬프트로부터 텍스트 생성을 지원합니다. 사용 사례에는 다음이 포함되며 이에 국한되지 않습니다.

사용 사례 설명
요약 원본 텍스트의 관련 정보가 포함된 더 짧은 문서를 생성합니다. 예를 들어 교과서에서 한 챕터의 내용을 요약해야 할 수 있습니다. 또는 자세한 제품 설명이 포함된 긴 단락으로부터 간결한 제품 설명을 만들 수 있습니다.
시각적 정보 탐색 입력 이미지 또는 동영상에서 추출한 정보로 조합된 외부 지식을 사용하여 질문에 답변합니다.
객체 인식 이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
디지털 콘텐츠 이해 질문에 답변하고 인포그래픽, 차트, 수치, 테이블, 웹 페이지와 같은 시각적 콘텐츠에서 정보를 추출합니다.
정형화된 콘텐츠 생성 HTML 및 JSON과 같은 형식으로 멀티모달 입력을 기반으로 응답을 생성합니다.
자막 생성 및 설명 다양한 수준의 세부정보를 사용해서 이미지 및 동영상에 대한 설명을 생성합니다.
긴 형식의 콘텐츠 텍스트, 코드, 이미지, 동영상, 오디오 등 최대 100만 개의 토큰까지 긴 형식의 콘텐츠를 처리할 수 있습니다.
추론 암기 또는 검색 없이 새 정보를 구성적으로 추론합니다.
오디오 요약, 스크립트 작성, Q&A를 위해 음성 파일을 분석합니다.
오디오 및 동영상 오디오고 포함된 동영상 파일을 요약하고 타임스탬프와 함께 챕터를 반환합니다.
멀티모달 처리 동영상과 오디오 입력과 같이 여러 유형의 입력 미디어를 동시에 처리합니다.

Gemini 1.0 Pro 사용 사례

Gemini 1.0 Pro는 텍스트 프롬프트로부터 텍스트와 코드를 생성합니다. 사용 사례에는 다음이 포함되며 이에 국한되지 않습니다.

사용 사례 설명
요약 원본 텍스트의 관련 정보가 포함된 더 짧은 문서를 생성합니다. 예를 들어 교과서에서 한 챕터의 내용을 요약해야 할 수 있습니다. 또는 자세한 제품 설명이 포함된 긴 단락으로부터 간결한 제품 설명을 만들 수 있습니다.
질의 응답 질문에 대한 답변을 텍스트로 제공합니다. 예를 들어 기술 자료 콘텐츠로부터 자주 묻는 질문(FAQ) 문서 생성을 자동화할 수 있습니다.
디지털 콘텐츠 이해 제공된 텍스트에 라벨을 할당합니다. 예를 들어 텍스트가 문법적으로 올바른지를 기술하는 라벨을 적용할 수 있습니다.
분류 제공된 텍스트를 설명하는 라벨을 할당합니다. 예를 들어 텍스트 블록이 문법적으로 올바른지 여부를 설명하는 라벨을 적용합니다.
정보 탐색 세계 지식을 이미지 및 동영상에서 추출한 정보와 조합합니다.
객체 인식 이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
감정 분석 이것은 텍스트의 감정을 식별하는 분류의 한 형태입니다. 감정은 텍스트에 적용되는 라벨로 전환됩니다. 예를 들어 텍스트 감정은 긍정이나 부정, 분노나 행복과 같은 양극성을 가질 수 있습니다.
항목 추출 요구사항과 배경 집합을 지정하여 텍스트를 생성합니다. 예를 들어 특정 어조를 사용하여 특정 컨텍스트에서 이메일 초안을 작성할 수 있습니다.
코드 생성 설명을 기반으로 코드를 생성합니다. 예를 들어 모델에 어떤 해가 윤년인지 확인하는 함수를 작성하도록 요청할 수 있습니다.

Gemini 1.0 Pro Vision 사용 사례

Gemini 1.0 Pro Vision은 텍스트, 이미지, 동영상을 입력 소스로 사용하는 텍스트 생성을 지원합니다. 사용 사례에는 다음이 포함되며 이에 국한되지 않습니다.

사용 사례 설명
정보 탐색 세계 지식을 이미지 및 동영상에서 추출한 정보와 조합합니다.
객체 인식 이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
디지털 콘텐츠 이해 인포그래픽, 차트, 숫자, 테이블, 웹 페이지와 같은 콘텐츠로부터 정보를 추출하여 질문에 답변합니다.
정형화된 콘텐츠 생성 제공된 프롬프트 지침에 따라 HTML 및 JSON과 같은 형식으로 응답을 생성합니다.
자막 생성/설명 다양한 수준의 세부정보를 사용해서 이미지 및 동영상에 대한 설명을 생성합니다.
외삽 이미지에 표시되지 않은 내용 또는 동영상 이전 또는 이후에 발생한 내용을 추측합니다.
사진 객체 감지 이미지에서 객체를 인식하고 객체의 텍스트 설명을 반환합니다.
이미지에 포함된 상품에 대한 정보 반환 여러 가지 식료품 품목이 포함된 이미지를 사용하면 Gemini 1.0 Pro Vision이 식료품에 대해 지불해야 할 예상 금액을 반환합니다.
화면 및 인터페이스 이해 어플라이언스 화면, 사용자 인터페이스, 레이아웃에서 정보를 추출합니다. 예를 들어 Gemini 1.0 Pro Vision에서 어플라이언스 사진을 사용하여 어플라이언스 사용 방법에 대한 안내를 얻을 수 있습니다.
기술 다이어그램 이해하기 항목 관계(ER) 다이어그램을 해독하고, 테이블 간의 관계를 이해하고, BigQuery와 같은 특정 환경의 최적화 요구사항을 식별합니다.
여러 이미지를 기반으로 추천하기 안경 사진을 사용하여 내 얼굴에 가장 잘 어울리는 안경을 추천 받을 수 있습니다.
동영상 설명 생성 동영상의 내용을 감지합니다. 예를 들어 휴가지에 관한 동영상을 제공하면 휴가지에 대한 설명, 휴가지에서 할 일 상위 5가지, 휴가지로 이동하는 방법을 추천 받을 수 있습니다.

다양한 용도에 맞게 프롬프트를 디자인하는 방법을 알아보려면 다음 페이지를 참조하세요:

추가로 살펴보기: 멀티모달 제한사항

프로그래밍 언어 SDK

Vertex AI Gemini API는 다음 언어로 SDK를 제공합니다.

Python

Python SDK는 vertexai 패키지에서 제공됩니다.

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])

Node.js

Node.js용 Vertex AI SDK를 사용하면 Vertex AI에서 Gemini API를 사용하여 AI 기반 기능과 애플리케이션을 빌드할 수 있습니다.

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

자바

Java용 Vertex AI API는 google-cloud-vertexai 아티팩트에서 제공됩니다.

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
  }
}

Go

Go SDK는 cloud.google.com/go/vertexai 패키지에서 제공됩니다.

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Vertex AI의 Gemini API와 Google AI Studio의 Gemini API의 차이점

Vertex AI의 Gemini API와 Google AI Studio의 Gemini API에서는 둘 다 Gemini 모델 기능을 애플리케이션에 사용할 수 있습니다. 적합한 플랫폼은 목적에 따라 달라집니다.

Vertex AI Gemini API는 개발자 및 기업이 확장된 배포 환경에서 사용할 수 있도록 설계되었습니다. 이 API는 기업 보안, 데이터 상주, 성능, 기술 지원과 같은 기능을 제공합니다. 기존 Google Cloud 고객이거나 중대형 애플리케이션을 배포하는 경우에 적합합니다.

취미 활동가, 학생, Google Cloud를 처음 접하는 개발자인 경우에는 실험, 프로토타입 제작, 소규모 배포에 적합한 Google AI Gemini API를 사용해 보세요. 모바일 및 웹 앱에서 Gemini를 직접 사용할 수 있는 방법을 찾는 경우에는 Android, Swift, 웹을 위한 Google AI SDK를 참조하세요.

Vertex AI Gemini API 참고 리소스

다음 주제 중 하나를 선택하여 Vertex AI Gemini API에 대해 자세히 알아보세요.

Vertex AI Gemini API 시작하기


Vertex AI Gemini API로 마이그레이션


핵심 기능 사용 방법 알아보기

  • 멀티모달 프롬프트 보내기 썸네일
    멀티모달 프롬프트 요청 보내기

    Cloud 콘솔, Python SDK, REST API를 사용해서 멀티모달 프롬프트 요청을 보내는 방법을 알아봅니다.

  • 채팅 프롬프트 보내기 썸네일
    채팅 프롬프트 요청 보내기

    Cloud 콘솔, Python SDK, REST API를 사용하여 싱글턴 및 멀티턴 채팅 프롬프트를 보내는 방법을 알아봅니다.

  • 함수 호출 썸네일
    함수 호출

    외부 함수 호출을 위해 모델이 JSON을 출력하도록 설정하는 방법을 알아봅니다.