Présentation des modèles vocaux personnalisés

Les modèles Speech-to-Text personnalisés vous aident à affiner les modèles de reconnaissance vocale selon vos besoins. Ce service est conçu pour améliorer la précision et la pertinence du service de reconnaissance vocale dans divers environnements et cas d'utilisation, au moyen des données audio et textuelles spécifiques à votre domaine.

Accessibles à la fois dans la console Google Cloud et dans l'API, les modèles Speech-to-Text personnalisés permettent d'entraîner, d'évaluer et de déployer un modèle de reconnaissance vocale dédié dans un environnement intégré sans code. Pour l'entraînement, vous ne pouvez fournir que des données audio représentatives de vos conditions audio, sans transcriptions de référence sous la forme d'un ensemble d'entraînement. Cependant, vous devez fournir des données audio et leurs transcriptions de référence dans votre ensemble d'évaluation.

Pour créer et utiliser un modèle Speech-to-Text personnalisé, procédez comme suit :

  1. Préparez et importez des données d'entraînement dans un bucket Cloud Storage.
  2. Entraînez un nouveau modèle personnalisé.
  3. Déployez et gérez votre modèle personnalisé à l'aide de points de terminaison.
  4. Utilisez et évaluez le modèle personnalisé dans votre application.

Fonctionnement

Vous pouvez utiliser des modèles Speech-to-Text personnalisés pour augmenter un modèle de transcription de base afin d'améliorer la reconnaissance de transcription. Certaines conditions audio comme les sirènes, la musique et un bruit de fond excessif peuvent entraîner des difficultés acoustiques. Certains accents ou un vocabulaire inhabituel, comme les noms de produits, le peuvent également.

Chaque modèle Speech-to-Text personnalisé utilise une architecture pré-entraînée basée sur Conformer comme modèle de base, entraîné avec des données propriétaires de langage courant. Au cours du processus d'entraînement, le modèle de base est affiné en adaptant un pourcentage important des pondérations d'origine afin d'améliorer la reconnaissance du vocabulaire spécifique au domaine et des conditions audio propres à votre application.

Pour l'entraînement efficace d'un modèle Speech-to-Text personnalisé, vous devez fournir les éléments suivants :

  • Au moins 100 heures de données audio d'entraînement, audio uniquement ou audio avec la transcription textuelle correspondante en tant que vérité terrain. Ces données sont essentielles pour la phase initiale d'entraînement, afin que le modèle apprenne en détail les nuances des schémas vocaux et du vocabulaire. Pour en savoir plus, consultez la section Créer un ensemble de données de vérité terrain.
  • Un ensemble de données distinct d'au moins 10 heures audio de données de validation, avec la transcription textuelle correspondante comme vérité terrain. Pour en savoir plus sur le format attendu et les conventions de vérité terrain à suivre, consultez nos instructions de préparation des données.

Après un entraînement réussi, vous pouvez déployer un modèle Speech-to-Text personnalisé dans un point de terminaison en un clic et l'utiliser directement via l'API Cloud Speech-to-Text V2 pour l'inférence et l'analyse comparative.

Modèles, langues et régions compatibles

Les modèles Speech-to-Text personnalisés sont compatibles avec les combinaisons de modèles, de langues et de paramètres régionaux suivants pour l'entraînement :

Langage BCP-47 Modèle de base

Allemand (Allemagne)

de-DE

latest_long

Anglais (Australie)

en-AU

latest_long

Anglais (Royaume-Uni)

en-GB

latest_long

Anglais (Inde)

en-IN

latest_long

Français (France)

en-US

latest_long

Espagnol (États-Unis)

es-US

latest_long

Espagnol (Espagne)

es-ES

latest_long

Français (Canada)

fr-CA

latest_long

Français (France)

fr-FR

latest_long

Hindi (Inde)

hi-IN

latest_long

Italien (Italie)

it-IT

latest_long

Japonais (Japon)

ja-JP

latest_long

Coréen (Corée du Sud)

ko-KR

latest_long

Néerlandais (Pays-Bas)

nl-NL

latest_long

Portugais (Brésil)

pt-BR

latest_long

Portugais (Portugal)

pt-PT

latest_long

En outre, pour répondre à vos exigences de résidence des données, nous proposons du matériel de formation et de déploiement dans différentes régions. Le matériel dédié est compatible avec les combinaisons de modèles et de régions suivantes :

Modèle de base Région Google Cloud Tâches disponibles

latest_long

us-east1

Entraînement et déploiement

latest_long

europe-west4

Entraînement et déploiement

Quota

Pour l'entraînement de modèle Speech-to-Text personnalisé, chaque projet Google Cloud doit disposer d'un quota par défaut suffisant pour exécuter plusieurs tâches d'entraînement simultanément et doit répondre aux besoins de la plupart des projets sans ajustements supplémentaires. Toutefois, si vous devez exécuter un plus grand nombre de tâches d'entraînement simultanées ou si vous avez besoin d'étiquettes ou de ressources de calcul plus importantes, demandez un quota supplémentaire.

Pour un modèle Speech-to-Text personnalisé diffusant un déploiement de point de terminaison, chaque point de terminaison a une limite théorique de 20 requêtes par seconde (RPS). Si un débit plus élevé est nécessaire, demandez un quota de diffusion supplémentaire.

Tarification

La création et l'utilisation d'un modèle Speech-to-Text personnalisé impliquent certains coûts, qui sont principalement basés sur les ressources utilisées lors de l'entraînement et du déploiement ultérieur du modèle. Plus précisément, le modèle Speech-to-Text personnalisé entraîne les coûts suivants dans le cycle de vie d'un modèle type :

  • Entraînement : le nombre d'heures d'entraînement de modèle vous est facturé. Cette durée est proportionnelle à la quantité d'heures audio dans l'ensemble de données d'entraînement. En règle générale, l'entraînement prend un dixième du nombre d'heures audio de l'ensemble de données.
  • Déploiement : vous êtes facturé pour chaque heure de déploiement d'un modèle sur un point de terminaison.
  • Inférence : le nombre de secondes de contenu audio diffusé en streaming vous est facturé pour la transcription, conformément aux tarifs généraux de Speech-to-Text.

Il est essentiel de comprendre ces coûts pour une budgétisation et une allocation efficaces des ressources. Pour en savoir plus, consultez la section "Modèles Speech-to-Text personnalisés" de la page Tarifs de Cloud Speech-to-Text.

Étapes suivantes

Suivez les ressources pour tirer parti des modèles de reconnaissance vocale personnalisés dans votre application :