このページでは、教師あり学習を使用して音声データで Gemini をファインチューニングするための前提条件と詳細な手順について説明します。
ユースケース
オーディオ モデルのチューニングでは、そのモデルを特定のニーズに合わせて調整することでパフォーマンスの向上を図ることができます。このようなパフォーマンスの向上として、さまざまなアクセントに対する音声認識の改善、音楽ジャンル分類のファインチューニング、音声イベント検知の最適化、音声生成のカスタマイズ、騒音が多い環境への適応、音質の向上、音声エクスペリエンスのパーソナライズなどがあります。一般的な音声チューニングのユースケースを次に示します。
音声アシスタントの機能強化:
- 音声による食事注文: 食事のシームレスな注文と配達を実現する音声起動型システムを開発します。
 
音声コンテンツの分析:
- 自動音声文字変換: 騒音が多い環境でも音声を正確に文字に変換できます。
 - 音声の要約: ポッドキャストやオーディオブックの要点をまとめます。
 - 音楽の分類: ジャンルやムードなどの特徴に基づいて音楽を分類します。
 
ユーザー補助と支援技術:
- リアルタイムの字幕作成: イベントやビデオ通話でリアルタイムの字幕を作成します。
 - 音声操作のアプリ: 全面的に音声のみで操作できるアプリを開発します。
 - 言語学習: 発音に関してパーソナライズしたフィードバックを提供するツールを作成します。
 
制限事項
Gemini 2.5 モデル
| 仕様 | 値 | 
|---|---|
| サンプルあたりの音声の最大長 | 60 分 | 
| サンプルあたりの音声ファイルの最大数 | 1 | 
| 音声ファイルの最大サイズ | 100 MB | 
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
      | 仕様 | 値 | 
|---|---|
| サンプルあたりの音声の最大長 | 60 分 | 
| サンプルあたりの音声ファイルの最大数 | 1 | 
| 音声ファイルの最大サイズ | 100 MB | 
音声サンプルの要件について詳しくは、音声の理解(音声のみ)のページをご覧ください。
データセットのフォーマット
データセットの fileUri は、Cloud Storage バケット内のファイルの URI にすることも、一般公開されている HTTP または HTTPS URL にすることもできます。
汎用形式の例については、Gemini のデータセットの例をご覧ください。
画像データセットの例を次に示します。
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}
次のステップ
- Gemini 音声理解モデルの詳細については、音声の理解(音声のみ)をご覧ください。
 - チューニングを開始するには、教師ありファインチューニングを使用して Gemini モデルをチューニングするをご覧ください。
 - 生成 AI ナレッジベースを構築するソリューションで教師ありファインチューニングを使用する方法について、ジャンプ スタート ソリューション: 生成 AI ナレッジベースを確認してください。