Réglage audio

Cette page fournit les conditions préalables et des instructions détaillées pour affiner les modèles Gemini sur des données audio, à l'aide de l'apprentissage supervisé.

Cas d'utilisation

Le réglage des modèles audio permet d'améliorer leurs performances en les adaptant à des besoins spécifiques. Cela peut impliquer d'améliorer la reconnaissance vocale pour tenir compte de différents accents locaux, d'affiner la classification des genres musicaux, d'optimiser la détection des événements sonores, de personnaliser la génération audio, de s'adapter aux environnements bruyants, d'améliorer la qualité audio et de personnaliser les expériences audio. Voici quelques cas d'utilisation courants du réglage audio :

Assistants vocaux améliorés :
- Commande vocale de repas : développez des systèmes à commande vocale pour commander et livrer des repas facilement.
Analyse de contenu audio :
- Transcription automatique : générez des transcriptions très précises, même dans des environnements bruyants.
- Synthèse audio : résumez les points clés de podcasts ou de livres audio.
- Classification musicale : classez des morceaux musicaux par catégories en fonction de leur genre, de leur humeur ou d'autres caractéristiques.
Accessibilité et technologies d'assistance :
- Sous-titres en temps réel : fournissez des sous-titres en direct pour des événements ou des appels vidéo.
- Applications à commande vocale : développez des applications entièrement pilotées par la voix.
- Apprentissage des langues : créez des outils qui fournissent des commentaires personnalisés sur la prononciation.

Limites

Durée audio maximale par exemple : 10 minutes.
Nombre maximal de fichiers audio par exemple : 1.
Taille maximale du fichier audio : 20 Mo.

Pour en savoir plus sur les exigences concernant les échantillons audio, consultez la page Compréhension audio (parole uniquement).

Format de l'ensemble de données

Voici un exemple d'ensemble de données audio.

Pour consulter un exemple dans un format générique, consultez la section Exemple d'ensemble de données pour Gemini 1.5 Pro et Gemini 1.5 Flash.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Étape suivante

Consultez la section Compréhension audio (parole uniquement) pour en savoir plus sur le modèle Gemini de compréhension audio.
Consultez la section Régler des modèles Gemini à l'aide de l'affinage supervisé pour commencer à régler vos modèles.
Pour savoir comment utiliser le réglage supervisé dans une solution qui crée une base de connaissances d'IA générative, consultez la page Solution de démarrage rapide : base de connaissances d'IA générative.

Réglage audio Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cas d'utilisation

Limites

Format de l'ensemble de données

Étape suivante

Réglage audio