多模态模型概览



多模态模型

提示 回答

告诉我这些 Cookie 的配方。


Cookie
**INGREDIENTS**
- 1 c. (2 枚)无盐黄油、软化
- 3/4 c 细粒糖
- 3/4 c 棕色糖,包装
- 1 匙。香草精
- 2 只大鸡蛋
- 2 1/4 c 多用途面粉
- 1 匙小苏打
- 1 匙盐
...

多模态模型是能够处理来自多种模态(包括图片、视频和文本)的信息的模型。例如,您可以向模型发送一张展示一盘曲奇的照片,并要求它给您一份制作这些曲奇的食谱。

Gemini 模型

您可以使用以下 Gemini 模型:

  • Gemini 1.0 Pro:旨在处理自然语言任务、多轮文本和代码聊天以及代码生成。
  • Gemini 1.0 Pro Vision:支持多模态提示。您可以在提示请求中包含文本、图片和视频,并获取文本或代码回答。

Gemini 1.0 Pro 使用场景

Gemini 1.0 Pro 支持通过文本提示生成文本和代码。其使用场景包括但不限于:

使用场景 说明
摘要 创建包含原始文本中相关信息的简短文档版本。例如,您可能想总结一下教科书的章节内容。或者,您可以根据详细描述产品的长篇段落来创建一篇简洁的产品描述。
问答 以文字的形式回答问题。例如,您可以根据知识库内容自动创建常见问题解答 (FAQ) 文档。
数字内容理解 为提供的文本分配标签。例如,标签可以应用于文本,以描述该文本的语法正确程度。
Classification 根据提供的提示说明,以 HTML 和 JSON 等格式生成响应。
信息挖掘 将世界知识与从图片和视频中提取的信息融合。
对象识别 回答与对图片和视频中的对象进行精细识别相关的问题。
情感分析 这是一种识别文本情感的分类形式。情感会转变为应用于文本的标签。例如,文本的情感可以是像积极或消极这样的两极对立,也可以是像愤怒或高兴这样的情绪。
实体提取 通过指定一组要求和背景来生成文本。例如,您可能需要在给定上下文中使用特定基调撰写电子邮件。
代码生成 根据说明生成代码。例如,您可以要求模型编写一个函数来检查年份是否是闰年。

Gemini 1.0 Pro Vision 使用场景

Gemini 1.0 Pro Vision 支持使用文本、图片和视频作为输入进行文本生成。其使用场景包括但不限于:

使用场景 说明
信息挖掘 将世界知识与从图片和视频中提取的信息融合。
对象识别 回答与对图片和视频中的对象进行精细识别相关的问题。
数字内容理解 通过从信息图、图表、图形、表格和网页等内容中提取信息来回答问题。
结构化内容生成 根据提供的提示说明,以 HTML 和 JSON 等格式生成响应。
字幕/说明 生成具有不同细节级别的图片和视频说明。
外推 猜测图片中未显示的内容或视频前后出现的情况。
照片对象检测 检测图片中的对象并返回该对象的文本说明。
返回图片中各项商品的相关信息 使用包含多个杂货商品的图片,Gemini 1.0 Pro Vision 可以返回应支付的商品费用的估算值。
了解屏幕和界面 从设备屏幕、界面和布局中提取信息。 例如,您可以将设备图片与 Gemini 1.0 Pro Vision 结合使用,以获取有关如何使用该设备的说明。
理解技术图表 解读实体关系 (ER) 图表,理解表之间的关系,确定特定环境(例如 BigQuery)中的优化要求。
根据多张图片作出推荐 您可以使用眼镜照片来获得最适合您脸型的眼镜建议。
生成视频说明 检测视频中显示的内容。例如,提供度假目的地的视频,可获取有关目的地的说明、5 项最推荐的活动以及有关如何到达目的地的建议。

如需详细了解如何针对各种用途设计提示,请参阅以下页面:

另请参阅:模型的优势和局限

编程语言 SDK

Vertex AI Gemini API 支持以下 SDK:

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

与 Google AI Gemini API 有何不同

Vertex AI Gemini API 和 Google AI Gemini API 可让您将 Gemini 模型的功能整合到应用中。适合哪个平台取决于您的目标。

Vertex AI Gemini API 专为开发者和企业设计,用于扩缩部署。它提供企业安全性、数据驻留、性能和技术支持等功能。如果您已是 Google Cloud 客户或者要部署大中型应用,那您来对地方了。

如果您是 Google Cloud 的爱好者、学生或开发者,请尝试使用Google AI Gemini API,它适用于实验、原型设计和小型部署。如果您正在寻找一种直接在移动应用和 Web 应用中使用 Gemini 的方法,请查看适用于 Android、Swift 和 Web 的 Google AI SDK。

Vertex AI Gemini API 文档

选择以下主题之一以详细了解 Vertex AI Gemini API。

Vertex AI Gemini API 使用入门


迁移到 Vertex AI Gemini API


了解如何使用核心功能

  • “发送多模态提示”缩略图
    发送多模态提示请求

    了解如何使用 Cloud 控制台、Python SDK 或 REST API 发送多模态提示请求。

  • “发送聊天提示”缩略图
    发送聊天提示请求

    了解如何使用 Cloud 控制台、Python SDK 或 REST API 发送单轮和多轮聊天提示。

  • 函数调用缩略图
    函数调用

    了解如何让模型输出 JSON 以调用外部函数。