マルチモーダル レスポンス

Gemini 2.0 Flash は、テキスト、音声、画像など、複数のモダリティでのレスポンス生成をサポートしています。

テキスト生成

Gemini 2.0 Flash は、Google Cloud コンソール、REST API、サポートされている SDK を使用したテキスト生成をサポートしています。詳細については、テキスト生成ガイドをご覧ください。

音声生成(早期アクセス/許可リスト)

Gemini 2.0 は、新しいマルチモーダル生成機能であるテキスト読み上げをサポートしています。Text-to-Speech 機能を使用すると、人間の声のように聞こえる高品質な音声出力を生成するようにモデルに指示できます(say "hi everyone")。また、音声をステアリングすることで出力をさらに調整できます。

画像生成(早期アクセス/許可リスト)

Gemini 2.0 は、インライン画像を含むテキストを出力する機能をサポートしています。これにより、Gemini を使用して会話的に画像を編集したり、マルチモーダル出力(1 つのターンでテキストと画像を含むブログ投稿など)を生成したりできます。これまでは、複数のモデルを連結する必要がありました。

画像生成は非公開の試験運用版としてご利用いただけます。次のモダリティと機能をサポートしています。

  • テキストから画像
    • プロンプトの例: 「背景に花火があるエッフェル塔の画像を生成して。」
  • テキストから画像とテキスト(インターリーブ)
    • プロンプトの例: 「パエリアのレシピをイラスト付きで生成してください。レシピの生成時に、テキストと一緒に表示する画像を作成します。」
  • 画像とテキストから画像とテキスト(インターリーブ)
    • プロンプトの例:(家具付きの部屋の画像を使用)「この部屋に合いそうなソファの色は他にどんなものがありますか?画像を更新していただけますか?」
  • 画像編集(テキストと画像から画像)
    • プロンプトの例: 「この画像を編集して漫画のようにしてください」
    • プロンプトの例: [猫の画像] + [枕の画像] + 「この枕に猫のクロスステッチを作成して」
  • マルチターン画像編集(チャット)
    • プロンプトの例: [青い車の画像をアップロードしてください。]「この車をコンバーチブルにしてください。」「色を黄色に変更してください。」
  • 透かし
    • 生成されたすべての画像には SynthID の透かしが含まれています。

制限事項:

  • 人物の生成や、アップロードされた人物の画像の編集は許可されていません。
  • 最適なパフォーマンスを得るには、EN、es-MX、ja-JP、zh-CN、hi-IN のいずれかの言語を使用してください。
  • 画像生成では、音声や動画の入力はサポートされていません。
  • 画像生成がトリガーされない場合があります。
    • モデルはテキストのみを出力する場合があります。画像出力を明示的に要求してみてください(例: 「画像を生成」、「画像を随時提供」、「画像を更新」)。
    • モデルの生成が途中で停止することがあります。もう一度お試しいただくか、別のプロンプトをお試しください。