マルチモーダル レスポンス

Gemini 2.0 Flash では、テキスト、音声、画像など、複数のモダリティでのレスポンス生成がサポートされています。

テキスト生成

Gemini 2.0 Flash では、Google Cloud コンソール、REST API、サポート対象 SDK を使用したテキスト生成がサポートされています。詳細については、テキスト生成ガイドをご覧ください。

音声生成(早期アクセス/許可リスト)

Gemini 2.0 では、新しいマルチモーダル生成機能であるテキスト読み上げがサポートされています。テキスト読み上げ機能を使用すると、人間の声のように聞こえる高品質な音声出力を生成するよう、モデルにプロンプトで指示できます(say "hi everyone")。また、音声をステアリングすることで出力をさらに調整できます。

画像生成(早期アクセス/許可リスト)

Gemini 2.0 では、インライン画像を含むテキストを出力する機能がサポートされています。これにより、Gemini を使用した対話的な画像の編集や、マルチモーダル出力(1 つのターンにテキストと画像を含むブログ投稿など)の生成を行えます。これまでは、これを行うには複数のモデルを連携させる必要がありました。

画像生成は限定公開の試験運用版としてご利用いただけます。次のモダリティと機能がサポートされています。

  • テキスト画像変換
    • プロンプトの例: 「背景に花火があるエッフェル塔の画像を生成してください」。
  • テキスト画像変換とテキスト(インターリーブ)
    • プロンプトの例: 「パエリアのレシピをイラスト付きで生成してください。レシピの生成時に、テキストと一緒に表示する画像を作成します」。
  • 画像とテキスト画像変換とテキスト(インターリーブ)
    • プロンプトの例:(家具付きの部屋の画像を提示して)「この部屋に合いそうなソファの色には他にどんなものがありますか?画像を更新してください」。
  • 画像編集(テキストと画像による画像変換)
    • プロンプトの例: 「この画像を編集してカートゥーンのようにしてください」
    • プロンプトの例: [猫の画像] + [枕の画像] + 「この枕に猫のクロスステッチを作成してください」。
  • マルチターン画像編集(チャット)
    • プロンプトの例: [青い車の画像をアップロードして] 「この車をコンバーチブルにしてください」。「次に、色を黄色に変えてください」。
  • 透かし
    • すべての生成画像には SynthID の透かしが埋め込まれています。

制限事項:

  • 人物の生成や、アップロードされた人物の画像の編集は許可されていません。
  • 最高のパフォーマンスを実現するには、EN、es-MX、ja-JP、zh-CN、hi-IN のいずれかの言語を使用してください。
  • 画像生成では、音声や動画の入力はサポートされていません。
  • 画像生成がトリガーされない場合があります。
    • モデルがテキストのみを出力する場合があります。画像出力を明示的に指示してみてください(例: 「画像を生成してください」、「作業時に画像を提供してください」、「画像を更新してください」)。
    • モデルの生成が途中で停止することがあります。もう一度お試しいただくか、別のプロンプトをお試しください。