Choisir une fonction de transcription
Ce document compare les fonctions de transcription disponibles dans BigQuery ML, à savoir ML.GENERATE_TEXT
et ML.TRANSCRIBE
.
Vous pouvez utiliser les informations de ce document pour vous aider à choisir la fonction à utiliser lorsque les fonctions se chevauchent.
De manière générale, la différence entre ces fonctions est la suivante :
ML.GENERATE_TEXT
est un bon choix pour la transcription de clips audio de 10 minutes ou moins. Vous pouvez également l'utiliser pour effectuer des tâches de traitement du langage naturel (TLN). La transcription audio avecML.GENERATE_TEXT
est moins coûteuse qu'avecML.TRANSCRIBE
lorsque vous utilisez le modèlegemini-1.5-flash
.ML.TRANSCRIBE
est un bon choix pour effectuer une transcription sur des extraits audio de plus de 10 minutes. Il est également compatible avec un plus grand nombre de langues queML.GENERATE_TEXT
.
Modèles compatibles
Les modèles compatibles sont les suivants :
ML.GENERATE_TEXT
: vous pouvez utiliser un sous-ensemble des modèles Vertex AI Gemini pour générer du texte. Pour en savoir plus sur les modèles compatibles, consultez la page SyntaxeML.GENERATE_TEXT
.ML.TRANSCRIBE
: vous utilisez le modèle par défaut de l'API Speech-to-Text. L'utilisation de l'API Document AI vous permet d'accéder à la transcription avec le modèle de synthèse vocale Chirp.
Tâches disponibles
Les tâches suivantes sont acceptées :
ML.GENERATE_TEXT
: vous pouvez effectuer des tâches de transcription audio et de traitement du langage naturel (TLN).ML.TRANSCRIBE
: vous pouvez effectuer une transcription audio.
Tarifs
Les tarifs sont les suivants :
ML.GENERATE_TEXT
: pour connaître la tarification des modèles Vertex AI que vous utilisez avec cette fonction, consultez la tarification de Vertex AI. Le réglage supervisé des modèles compatibles est facturé en dollars par nœud-heure. Pour en savoir plus, consultez les tarifs de l'entraînement personnalisé Vertex AI.ML.TRANSCRIBE
: pour connaître les tarifs du service Cloud AI que vous utilisez avec cette fonction, consultez les tarifs de l'API Speech-to-Text.
Réglage supervisé
La compatibilité du réglage supervisé est la suivante:
ML.GENERATE_TEXT
: le réglage supervisé est compatible avec certains modèles.ML.TRANSCRIBE
: le réglage supervisé n'est pas compatible.
Limite de requêtes par minute (RPM)
Les limites de RPM sont les suivantes :
ML.GENERATE_TEXT
: 60 RPM dans la régionus-central1
par défaut pour les modèlesgemini-1.5-pro
et 200 RPM dans la régionus-central1
par défaut pour les modèlesgemini-1.5-flash
. Pour en savoir plus, consultez la page Quotas de l'IA générative sur Vertex AI.ML.TRANSCRIBE
: 900 QPM par projet. Pour en savoir plus, consultez la page Quotas et limites.
Pour augmenter votre quota, consultez la section Demander une augmentation de quota.
Limite de jetons
Les limites de jetons sont les suivantes :
ML.GENERATE_TEXT
: 700 jetons d'entrée et 8 196 jetons de sortie. Cette limite de jeton de sortie signifie queML.GENERATE_TEXT
est limité à environ 39 minutes pour un extrait audio individuel.ML.TRANSCRIBE
: aucune limite de jetons. Toutefois, cette fonction est limitée à 480 minutes pour un clip audio individuel.
Langues disponibles
Les langues compatibles sont les suivantes :
ML.GENERATE_TEXT
: compatible avec les mêmes langues que Gemini.ML.TRANSCRIBE
: compatible avec toutes les langues acceptées par Speech-to-Text.
Régions concernées
La disponibilité des régions est la suivante :
ML.GENERATE_TEXT
: disponible dans toutes les régions Generative AI pour Vertex AI.ML.TRANSCRIBE
: disponible dans les emplacements multirégionauxEU
etUS
pour tous les systèmes de reconnaissance vocale.