멀티모달 모델 개요


  • Gemini 썸네일 사용해 보기
    Gemini API 사용해 보기

    Google Cloud를 설정한 후 Vertex AI Studio 또는 노트북 튜토리얼에서 Python SDK 또는 REST API를 사용해서 일부 멀티모달 프롬프트를 사용해 보세요.

  • Gemini API 참조 썸네일
    Vertex AI Gemini API 참조

    엔드포인트, 매개변수, Vertex AI Gemini API의 반환 값에 대해 알아봅니다.

  • Gemini 멀티모달 프롬프트 썸네일
    멀티모달 프롬프트 설계

    멀티모달 프롬프트 설계에 대한 권장사항을 알아보고 예시 프롬프트를 참조하세요.


멀티모달 모델

프롬프트 응답

이 쿠키의 레시피를 알려주세요.


쿠키
**재료**
- 1컵. (2 스틱) 무염 버터, 실온
- 3/4컵 정제 설탕
- 3/4컵 갈색 설탕, 팩
- 1티스푼 바닐라 추출물
- 큰 계란 2개
- 2와 1/4컵 다목적 밀가루
- 1티스푼 베이킹 소다
- 1티스푼 소금
...

멀티모달 모델은 이미지, 동영상, 텍스트 등 여러 형식의 정보를 처리할 수 있는 모델입니다. 예를 들어 모델에 쿠키 사진을 전송하고 해당 쿠키의 레시피를 요청할 수 있습니다.

Gemini 모델

다음 Gemini 모델을 사용할 수 있습니다.

  • Gemini 1.5 Pro: (미리보기) 멀티모달(텍스트, 이미지, 오디오, PDF, 코드, 동영상)로 생성되며, 최대 100만 개 입력 토큰까지 다양한 태스크 범위로 확장됩니다.
  • Gemini 1.0 Pro: 자연어 태스크, 멀티턴 텍스트 및 코드 채팅, 코드 생성을 처리하도록 설계되었습니다.
  • Gemini 1.0 Pro Vision: 멀티모달 프롬프트를 지원합니다. 프롬프트 요청에 텍스트, 이미지, 동영상을 포함하고 텍스트 또는 코드 응답을 얻을 수 있습니다.

Gemini 1.5 Pro 사용 사례

Gemini 1.5 Pro(미리보기)는 프롬프트에 텍스트, 코드, PDF, 이미지, 오디오, 동영상과 같은 여러 형식 중 하나 또는 이러한 형식의 조합을 포함하는 프롬프트에서 텍스트 생성을 지원합니다. 사용 사례에는 다음이 포함되며 이에 국한되지 않습니다.

사용 사례 설명
요약 원본 텍스트의 관련 정보가 포함된 더 짧은 문서를 생성합니다. 예를 들어 교과서에서 한 챕터의 내용을 요약해야 할 수 있습니다. 또는 자세한 제품 설명이 포함된 긴 단락으로부터 간결한 제품 설명을 만들 수 있습니다.
시각적 정보 탐색 입력 이미지 또는 동영상에서 추출한 정보로 조합된 외부 지식을 사용하여 질문에 답변합니다.
객체 인식 이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
디지털 콘텐츠 이해 질문에 답변하고 인포그래픽, 차트, 수치, 테이블, 웹 페이지와 같은 시각적 콘텐츠에서 정보를 추출합니다.
정형화된 콘텐츠 생성 HTML 및 JSON과 같은 형식으로 멀티모달 입력을 기반으로 응답을 생성합니다.
자막 생성 및 설명 다양한 수준의 세부정보를 사용해서 이미지 및 동영상에 대한 설명을 생성합니다.
긴 형식의 콘텐츠 텍스트, 코드, 이미지, 동영상, 오디오 등 최대 100만 개의 토큰까지 긴 형식의 콘텐츠를 처리할 수 있습니다.
추론 암기 또는 검색 없이 새 정보를 구성적으로 추론합니다.
오디오 요약, 스크립트 작성, Q&A를 위해 음성 파일을 분석합니다.
오디오 및 동영상 오디오고 포함된 동영상 파일을 요약하고 타임스탬프와 함께 챕터를 반환합니다.
멀티모달 처리 동영상과 오디오 입력과 같이 여러 유형의 입력 미디어를 동시에 처리합니다.

Gemini 1.0 Pro 사용 사례

Gemini 1.0 Pro에서는 텍스트 프롬프트에서의 텍스트 및 코드 생성을 지원합니다. 사용 사례는 다음과 같지만 이에 국한되지 않습니다.

사용 사례 설명
요약 원본 텍스트의 관련 정보가 포함된 더 짧은 문서를 생성합니다. 예를 들어 교과서에서 한 챕터의 내용을 요약해야 할 수 있습니다. 또는 자세한 제품 설명이 포함된 긴 단락으로부터 간결한 제품 설명을 만들 수 있습니다.
질의 응답 질문에 대한 답변을 텍스트로 제공합니다. 예를 들어 기술 자료 콘텐츠로부터 자주 묻는 질문(FAQ) 문서 생성을 자동화할 수 있습니다.
디지털 콘텐츠 이해 제공된 텍스트에 라벨을 할당합니다. 예를 들어 텍스트가 문법적으로 올바른지를 기술하는 라벨을 적용할 수 있습니다.
Classification 제공된 프롬프트 지침에 따라 HTML 및 JSON과 같은 형식으로 응답을 생성합니다.
정보 탐색 세계 지식을 이미지 및 동영상에서 추출한 정보와 조합합니다.
객체 인식 이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
감정 분석 이는 텍스트 감정을 식별하는 분류 형식입니다. 감정은 텍스트에 적용되는 라벨로 전환됩니다. 예를 들어 텍스트 감정은 긍정이나 부정, 분노나 행복과 같은 양극성을 가질 수 있습니다.
항목 추출 요구사항과 배경 모음을 지정하여 텍스트를 생성합니다. 예를 들어 특정 어조를 사용하여 특정 컨텍스트에서 이메일 초안을 작성할 수 있습니다.
코드 생성 설명을 기반으로 코드를 생성합니다. 예를 들어 모델에 어떤 해가 윤년인지 확인하는 함수를 작성하도록 요청할 수 있습니다.

Gemini 1.0 Pro Vision 사용 사례

Gemini 1.0 Pro Vision은 텍스트, 이미지, 동영상을 입력으로 사용하는 텍스트 생성을 지원합니다. 사용 사례는 다음과 같지만 이에 국한되지 않습니다.

사용 사례 설명
정보 탐색 세계 지식을 이미지 및 동영상에서 추출한 정보와 조합합니다.
객체 인식 이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
디지털 콘텐츠 이해 인포그래픽, 차트, 숫자, 테이블, 웹 페이지와 같은 콘텐츠로부터 정보를 추출하여 질문에 답변합니다.
정형화된 콘텐츠 생성 제공된 프롬프트 지침에 따라 HTML 및 JSON과 같은 형식으로 응답을 생성합니다.
자막 생성/설명 다양한 수준의 세부정보를 사용해서 이미지 및 동영상에 대한 설명을 생성합니다.
외삽 이미지에 표시되지 않은 내용 또는 동영상 이전 또는 이후에 발생한 내용을 추측합니다.
사진 객체 감지 이미지에서 객체를 감지하고 객체의 텍스트 설명을 반환합니다.
이미지의 상품에 대한 정보 반환하기 여러 식료품이 포함된 이미지를 사용하면 Gemini 1.0 Pro Vision에서 지불해야 하는 예상 비용을 반환할 수 있습니다.
화면 및 인터페이스 이해 어플라이언스 화면, 사용자 인터페이스, 레이아웃에서 정보를 추출합니다. 예를 들어 Gemini 1.0 Pro Vision이 있는 어플라이언스의 사진을 사용하여 어플라이언스 사용 방법에 대한 안내를 얻을 수 있습니다.
기술 다이어그램 이해하기 항목 관계(ER) 다이어그램을 해독하고, 테이블 간의 관계를 이해하고, BigQuery와 같은 특정 환경의 최적화 요구사항을 식별합니다.
여러 이미지를 기반으로 추천하기 안경 사진을 사용하여 내 얼굴에 가장 적합한 추천을 받을 수 있습니다.
동영상 설명 생성 동영상에 표시되는 내용을 감지합니다. 예를 들어 휴가 목적지의 동영상을 제공하면 목적지에 관한 설명, 그곳에서 해야 할 5가지 주요 활동, 목적지로 가는 방법을 제안할 수 있습니다.

다양한 용도에 맞게 프롬프트를 설계하는 방법에 대한 자세한 내용은 다음 페이지를 참조하세요.

참조: 모델 강점 및 한도

프로그래밍 언어 SDK

Vertex AI Gemini API는 다음 SDK를 지원합니다.

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

자바

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Google AI Gemini API와의 차이점

Vertex AI Gemini API와 Google AI Gemini API는 모두 Gemini 모델 기능을 애플리케이션에 사용할 수 있게 해줍니다. 적합한 플랫폼은 목적에 따라 달라집니다.

Vertex AI Gemini API는 개발자 및 기업이 확장된 배포 환경에서 사용할 수 있도록 설계되었습니다. 이 API는 기업 보안, 데이터 상주, 성능, 기술 지원과 같은 기능을 제공합니다. 기존 Google Cloud 고객이거나 중대형 애플리케이션을 배포하는 경우에 적합합니다.

취미 활동가, 학생, Google Cloud를 처음 접하는 개발자인 경우에는 실험, 프로토타입 제작, 소규모 배포에 적합한 Google AI Gemini API를 사용해 보세요. 모바일 및 웹 앱에서 Gemini를 직접 사용할 수 있는 방법을 찾는 경우에는 Android, Swift, 웹을 위한 Google AI SDK를 참조하세요.

Vertex AI Gemini API 참고 리소스

다음 주제 중 하나를 선택하여 Vertex AI Gemini API에 대해 자세히 알아보세요.

Vertex AI Gemini API 시작하기

  • Cloud에서 설정 썸네일
    Google Cloud에서 설정

    Google Cloud를 처음 접하는 경우 이 페이지의 설정 단계에 따라 빠르게 시작할 수 있습니다.

  • Gemini Python SDK 썸네일
    Gemini API를 위한 Python SDK 클래스

    속성, 메서드, 사용 예시를 비롯해서 Vertex AI Gemini API를 위해 Python SDK에서 제공되는 클래스에 대해 자세히 알아보세요.

  • Python SDK 참조 썸네일
    Python SDK 참조

    Python용 Vertex AI SDK에 대한 전체 생성형 AI 참조를 확인하세요.


Vertex AI Gemini API로 마이그레이션


핵심 기능 사용 방법 알아보기

  • 멀티모달 프롬프트 보내기 썸네일
    멀티모달 프롬프트 요청 보내기

    Cloud 콘솔, Python SDK, REST API를 사용해서 멀티모달 프롬프트 요청을 보내는 방법을 알아봅니다.

  • 채팅 프롬프트 보내기 썸네일
    채팅 프롬프트 요청 보내기

    Cloud 콘솔, Python SDK, REST API를 사용하여 싱글턴 및 멀티턴 채팅 프롬프트를 보내는 방법을 알아봅니다.

  • 함수 호출 썸네일
    함수 호출

    외부 함수 호출을 위해 모델이 JSON을 출력하도록 설정하는 방법을 알아봅니다.