音声のチューニング

このページでは、教師あり学習を使用して音声データで Gemini をファインチューニングするための前提条件と詳細な手順について説明します。

ユースケース

オーディオモデルのチューニングでは、そのモデルを特定のニーズに合わせて調整することでパフォーマンスの向上を図ることができます。このようなパフォーマンスの向上として、さまざまなアクセントに対する音声認識の改善、音楽ジャンル分類のファインチューニング、音声イベント検知の最適化、音声生成のカスタマイズ、騒音が多い環境への適応、音質の向上、音声エクスペリエンスのパーソナライズなどがあります。一般的な音声チューニングのユースケースを次に示します。

音声アシスタントの機能強化:
- 音声による食事注文: 食事のシームレスな注文と配達を実現する音声起動型システムを開発します。
音声コンテンツの分析:
- 自動音声文字変換: 騒音が多い環境でも音声を正確に文字に変換できます。
- 音声の要約: ポッドキャストやオーディオブックの要点をまとめます。
- 音楽の分類: ジャンルやムードなどの特徴に基づいて音楽を分類します。
ユーザー補助と支援技術:
- リアルタイムの字幕作成: イベントやビデオ通話でリアルタイムの字幕を作成します。
- 音声操作のアプリ: 全面的に音声のみで操作できるアプリを開発します。
- 言語学習: 発音に関してパーソナライズしたフィードバックを提供するツールを作成します。

制限事項

Gemini 2.5 モデル

仕様	値
サンプルあたりの音声の最大長	60 分
サンプルあたりの音声ファイルの最大数	1
音声ファイルの最大サイズ	100 MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

仕様	値
サンプルあたりの音声の最大長	60 分
サンプルあたりの音声ファイルの最大数	1
音声ファイルの最大サイズ	100 MB

音声サンプルの要件について詳しくは、音声の理解（音声のみ）のページをご覧ください。

データセットのフォーマット

データセットの fileUri は、Cloud Storage バケット内のファイルの URI にすることも、一般公開されている HTTP または HTTPS URL にすることもできます。

汎用形式の例については、Gemini のデータセットの例をご覧ください。

画像データセットの例を次に示します。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

次のステップ

Gemini 音声理解モデルの詳細については、音声の理解（音声のみ）をご覧ください。
チューニングを開始するには、教師ありファインチューニングを使用して Gemini モデルをチューニングするをご覧ください。
生成 AI ナレッジベースを構築するソリューションで教師ありファインチューニングを使用する方法について、ジャンプスタートソリューション: 生成 AI ナレッジベースを確認してください。