Gemini 模型的优势
以下是 Gemini 1.0 模型的一些多模态优势:
使用场景 | 说明 |
---|---|
信息挖掘 | 将世界知识与从图片和视频中提取的信息融合。 |
对象识别 | 回答与对图片和视频中的对象进行精细识别相关的问题。 |
数字内容理解 | 回答问题并从信息图、图表、图形、表格和网页等各种内容中提取信息。 |
结构化内容生成 | 根据提供的提示说明,以 HTML 和 JSON 等格式生成响应。 |
字幕/说明 | 生成具有不同细节级别的图片和视频说明。我们建议您从以下图片/视频提示开始,从此处迭代操作以获取更具体的说明。
|
推断结果 | 根据位置推荐其他可看到的内容,在图片或视频之后/之前/之间可能发生的情况,并实现创造性用途,例如根据视觉输入编写故事。 |
Gemini 的限制
Gemini 1.0 模型具有以下限制:
限制 | 说明 |
---|---|
空间推理 | 难以对图片进行精确的对象/文本定位。它对理解旋转图片的准确率可能较低。 |
计数 | 只能提供对象数量的粗略近似值,尤其是对于模糊的对象。 |
理解较长的视频 | 可支持视频作为单独的模态(与仅处理单张图片不同)。但是,模型从一组非连续的图片帧中接收信息,而不是从连续视频本身(不接收音频)接收。Gemini 也不会提取超过视频 2 分钟之外的任何信息。如需提升包含密集内容的视频的性能,请缩短视频,以便模型捕获更多视频内容。 |
按照复杂的说明操作 | 难以处理需要多个推理步骤的任务。可以考虑分解说明或提供镜头较少的示例,以获得更好的指导。 |
医疗用途 | 不适合解读医学图片(例如 X 光片和 CT 扫描),或不适合提供医学建议。 |
多轮(多模态)聊天 | 未经训练,无法使用聊天机器人功能或以聊天语气回答问题,并且在多轮对话中表现不佳。 |
后续步骤
如需开始使用,请参阅测试多模态提示。