-
试用 Gemini API
在 Google Cloud 上设置后,请在 Vertex AI Studio 中或在笔记本教程中使用 Python SDK 或 REST API 尝试一些多模态提示。
-
Vertex AI Gemini API 参考文档
了解 Vertex AI Gemini API 的端点、参数和返回值。
-
多模态提示设计
了解设计多模态提示的最佳实践并查看示例提示。
多模态模型
提示 | 回答 |
告诉我这些 Cookie 的配方。 |
**INGREDIENTS** - 1 c. (2 枚)无盐黄油、软化 - 3/4 c 细粒糖 - 3/4 c 棕色糖,包装 - 1 匙。香草精 - 2 只大鸡蛋 - 2 1/4 c 多用途面粉 - 1 匙小苏打 - 1 匙盐 ... |
多模态模型是能够处理来自多种模态(包括图片、视频和文本)的信息的模型。例如,您可以向模型发送一张展示一盘曲奇的照片,并要求它给您一份制作这些曲奇的食谱。
Gemini 模型
您可以使用以下 Gemini 模型:
- Gemini 1.0 Pro:旨在处理自然语言任务、多轮文本和代码聊天以及代码生成。
- Gemini 1.0 Pro Vision:支持多模态提示。您可以在提示请求中包含文本、图片和视频,并获取文本或代码回答。
Gemini 1.0 Pro 使用场景
Gemini 1.0 Pro 支持通过文本提示生成文本和代码。其使用场景包括但不限于:
使用场景 | 说明 |
---|---|
摘要 | 创建包含原始文本中相关信息的简短文档版本。例如,您可能想总结一下教科书的章节内容。或者,您可以根据详细描述产品的长篇段落来创建一篇简洁的产品描述。 |
问答 | 以文字的形式回答问题。例如,您可以根据知识库内容自动创建常见问题解答 (FAQ) 文档。 |
数字内容理解 | 为提供的文本分配标签。例如,标签可以应用于文本,以描述该文本的语法正确程度。 |
Classification | 根据提供的提示说明,以 HTML 和 JSON 等格式生成响应。 |
信息挖掘 | 将世界知识与从图片和视频中提取的信息融合。 |
对象识别 | 回答与对图片和视频中的对象进行精细识别相关的问题。 |
情感分析 | 这是一种识别文本情感的分类形式。情感会转变为应用于文本的标签。例如,文本的情感可以是像积极或消极这样的两极对立,也可以是像愤怒或高兴这样的情绪。 |
实体提取 | 通过指定一组要求和背景来生成文本。例如,您可能需要在给定上下文中使用特定基调撰写电子邮件。 |
代码生成 | 根据说明生成代码。例如,您可以要求模型编写一个函数来检查年份是否是闰年。 |
Gemini 1.0 Pro Vision 使用场景
Gemini 1.0 Pro Vision 支持使用文本、图片和视频作为输入进行文本生成。其使用场景包括但不限于:
使用场景 | 说明 |
---|---|
信息挖掘 | 将世界知识与从图片和视频中提取的信息融合。 |
对象识别 | 回答与对图片和视频中的对象进行精细识别相关的问题。 |
数字内容理解 | 通过从信息图、图表、图形、表格和网页等内容中提取信息来回答问题。 |
结构化内容生成 | 根据提供的提示说明,以 HTML 和 JSON 等格式生成响应。 |
字幕/说明 | 生成具有不同细节级别的图片和视频说明。 |
外推 | 猜测图片中未显示的内容或视频前后出现的情况。 |
照片对象检测 | 检测图片中的对象并返回该对象的文本说明。 |
返回图片中各项商品的相关信息 | 使用包含多个杂货商品的图片,Gemini 1.0 Pro Vision 可以返回应支付的商品费用的估算值。 |
了解屏幕和界面 | 从设备屏幕、界面和布局中提取信息。 例如,您可以将设备图片与 Gemini 1.0 Pro Vision 结合使用,以获取有关如何使用该设备的说明。 |
理解技术图表 | 解读实体关系 (ER) 图表,理解表之间的关系,确定特定环境(例如 BigQuery)中的优化要求。 |
根据多张图片作出推荐 | 您可以使用眼镜照片来获得最适合您脸型的眼镜建议。 |
生成视频说明 | 检测视频中显示的内容。例如,提供度假目的地的视频,可获取有关目的地的说明、5 项最推荐的活动以及有关如何到达目的地的建议。 |
如需详细了解如何针对各种用途设计提示,请参阅以下页面:
另请参阅:模型的优势和局限。
编程语言 SDK
Vertex AI Gemini API 支持以下 SDK:
Python
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?", img])
Node.js
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
}
Go
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
与 Google AI Gemini API 有何不同
Vertex AI Gemini API 和 Google AI Gemini API 可让您将 Gemini 模型的功能整合到应用中。适合哪个平台取决于您的目标。
Vertex AI Gemini API 专为开发者和企业设计,用于扩缩部署。它提供企业安全性、数据驻留、性能和技术支持等功能。如果您已是 Google Cloud 客户或者要部署大中型应用,那您来对地方了。
如果您是 Google Cloud 的爱好者、学生或开发者,请尝试使用Google AI Gemini API,它适用于实验、原型设计和小型部署。如果您正在寻找一种直接在移动应用和 Web 应用中使用 Gemini 的方法,请查看适用于 Android、Swift 和 Web 的 Google AI SDK。
Vertex AI Gemini API 文档
选择以下主题之一以详细了解 Vertex AI Gemini API。
Vertex AI Gemini API 使用入门
-
在 Google Cloud 中进行设置
如果您刚开始接触 Google Cloud,请按照本页面中的设置步骤快速开始使用。
-
适用于 Gemini API 的 Python SDK 类
了解 Python SDK 为 Vertex AI Gemini API 提供的类,包括属性、方法和用法示例。
-
Python SDK 参考文档
请参阅 Python 版 Vertex AI SDK 的完整生成式 AI 参考文档。
迁移到 Vertex AI Gemini API
-
从 Google AI 迁移到 Vertex AI
了解如何将 Python 代码从 Google AI Gemini API 迁移到 Vertex AI Gemini API。
-
从 PaLM API 迁移到 Gemini API
了解如何将 Python 代码从 Vertex AI PaLM API 迁移到 Vertex AI Gemini API。
了解如何使用核心功能