Gemini 模型的优势和限制

Gemini 模型的优势

以下是 Gemini 1.0 模型的一些多模态优势:

使用场景 说明
信息挖掘 将世界知识与从图片和视频中提取的信息融合。
对象识别 回答与对图片和视频中的对象进行精细识别相关的问题。
数字内容理解 回答问题并从信息图、图表、图形、表格和网页等各种内容中提取信息。
结构化内容生成 根据提供的提示说明,以 HTML 和 JSON 等格式生成响应。
字幕/说明 生成具有不同细节级别的图片和视频说明。我们建议您从以下图片/视频提示开始,从此处迭代操作以获取更具体的说明。
  • 图片:“您能编写关于图片的说明吗?”
  • 视频:“您能编写这个视频所发生情况的说明吗?”
  • 推断结果 根据位置推荐其他可看到的内容,在图片或视频之后/之前/之间可能发生的情况,并实现创造性用途,例如根据视觉输入编写故事。

    Gemini 的限制

    Gemini 1.0 模型具有以下限制:

    限制 说明
    空间推理 难以对图片进行精确的对象/文本定位。它对理解旋转图片的准确率可能较低。
    计数 只能提供对象数量的粗略近似值,尤其是对于模糊的对象。
    理解较长的视频 可支持视频作为单独的模态(与仅处理单张图片不同)。但是,模型从一组非连续的图片帧中接收信息,而不是从连续视频本身(不接收音频)接收。Gemini 也不会提取超过视频 2 分钟之外的任何信息。如需提升包含密集内容的视频的性能,请缩短视频,以便模型捕获更多视频内容。
    按照复杂的说明操作 难以处理需要多个推理步骤的任务。可以考虑分解说明或提供镜头较少的示例,以获得更好的指导。
    医疗用途 不适合解读医学图片(例如 X 光片和 CT 扫描),或不适合提供医学建议。
    多轮(多模态)聊天 未经训练,无法使用聊天机器人功能或以聊天语气回答问题,并且在多轮对话中表现不佳。

    后续步骤

    如需开始使用,请参阅测试多模态提示