オーディオのチューニング

このページでは、教師あり学習を使用して音声データで Gemini をファインチューニングするための前提条件と詳細な手順について説明します。

ユースケース

オーディオ モデルをチューニングすると、特定のニーズに合わせて調整することでパフォーマンスを向上させることができます。これには、さまざまなアクセントに対する音声認識の改善、音楽ジャンルの分類のファインチューニング、サウンド イベント検知の最適化、音声生成のカスタマイズ、騒がしい環境への適応、音質の向上、音声エクスペリエンスのカスタマイズが含まれます。一般的なオーディオ チューニングのユースケースを次に示します。

  • 音声アシスタントの機能強化:

    • 音声による食事注文: シームレスな食事注文と配達を実現する音声認識システムを開発します。
  • 音声コンテンツの分析:

    • 自動文字起こし: 騒がしい環境でも、非常に正確な文字起こしを生成します。
    • 音声の要約: ポッドキャストやオーディオブックの要点をまとめます。
    • 音楽の分類: ジャンル、ムードなどの特徴に基づいて音楽を分類します。
  • ユーザー補助と支援技術:

    • リアルタイム字幕起こし: イベントやビデオ通話の自動字幕起こしを提供します。
    • 音声操作のアプリ: 音声のみで操作できるアプリを開発します。
    • 言語学習: 発音に関するパーソナライズされたフィードバックを提供するツールを作成します。

制限事項

  • サンプルあたりの音声の最大長: 10 分。
  • 1 つのサンプルあたりの音声ファイルの最大数: 1 つ。
  • 音声ファイルの最大サイズ: 20 MB。

音声サンプルの要件について詳しくは、音声理解(音声のみ)のページをご覧ください。

データセットのフォーマット

音声データセットの例を次に示します。

汎用形式の例については、Gemini 1.5 Pro と Gemini 1.5 Flash のデータセットの例をご覧ください。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

次のステップ