Gemini モデルの長所と制限事項

Gemini モデルの長所

Gemini 1.0 モデルには、次のようなマルチモーダルの強みがあります。

ユースケース 説明
情報探索 世界中の知識を画像や動画から抽出した情報と融合します。
物体認識 画像や動画内の物体の細かい識別に関連する質問に回答します。
デジタル コンテンツについての理解 質問に回答し、インフォグラフィック、グラフ、図、表、ウェブページなどのさまざまなコンテンツから情報を抽出します。
構造化コンテンツの生成 指定されたプロンプトの指示に基づいて、HTML や JSON などの形式でレスポンスを生成します。
字幕 / 説明 さまざまなレベルの画像と動画の説明を生成します。画像や動画に関する次のプロンプトから始めて、そこから具体的な説明を得るためのイテレーションを行うことをおすすめします。
  • 画像: 「画像について説明してください」
  • 動画: 「この動画内で起きていることを説明してください」
  • 推定 場所に基づいて他に見るべきものを提案する、画像または動画の次 / 前 / 間に起きることを示す、視覚的な入力に基づいてストーリーを書くなどのクリエイティブな使用を可能にします。

    Gemini の制限事項

    Gemini 1.0 モデルには次の制限があります。

    制約事項 説明
    空間推論 画像内の正確な物体 / テキストの位置の特定に苦労することがあります。回転した画像を理解する精度は低い可能性があります。
    カウント 特に不明瞭な物体については、物体数の概算しか提供できません。
    長い動画の理解 動画を個別のモダリティとしてサポートできます(単に個々の画像を処理する場合とは異なります)。ただし、モデルは、連続する動画自体ではなく連続していない一連の画像フレームから情報を受け取ります(音声なし)。また、Gemini では 2 分を超える動画の情報も抽出されません。高密度コンテンツを使用した動画のパフォーマンスを改善するには、モデルが動画コンテンツの大部分をキャプチャするように動画を短くします。
    複雑な指示に従う 複数の推論ステップを必要とするタスクに苦労する場合があります。より適切な案内を行えるよう、指示を分けることや例を示すことを検討してください。
    医療用途 医療画像(X 線、CT スキャンなど)の解釈や医学的なアドバイスには適していません。
    マルチターン(マルチモーダル)チャット chatbot 機能のトレーニングや、ささいな声調の質問に対する回答を得られないため、多重的な会話ではパフォーマンスが低下する可能性があります。

    次のステップ

    使用を開始するには、マルチモーダル プロンプトをテストするをご覧ください。