Essayez les modèles Gemini 1.5, nos derniers modèles multimodaux Vertex AI, et découvrez ce que vous pouvez créer avec une fenêtre de contexte d'un million de jetons. Essayez les modèles Gemini 1.5, nos derniers modèles multimodaux Vertex AI, et découvrez ce que vous pouvez créer avec une fenêtre de contexte d'un million de jetons.

Transcrire la voix en texte à l'aide de la console Google Cloud

Ce guide de démarrage rapide présente la console Cloud Speech-to-Text. Dans ce guide de démarrage rapide, vous allez créer et affiner une transcription, et apprendre à utiliser cette configuration avec l'API Speech-to-Text pour vos propres applications.

Pour savoir comment envoyer des requêtes et recevoir des réponses à l'aide de l'API REST au lieu de la console, consultez la page Avant de commencer.

Avant de commencer

Avant de pouvoir utiliser la console Speech-to-Text, vous devez activer l'API dans la console Google Cloud Platform. Les étapes ci-dessous vous guident à travers les actions suivantes :

Activez Speech-to-Text sur un projet.
Assurez-vous que la facturation est activée pour Speech-to-Text.

Configurer un projet Google Cloud

Connectez-vous à la console Google Cloud
Accéder à la page de sélection du projet

Vous pouvez sélectionner un projet existant ou en créer un. Pour en savoir plus sur la création d'un projet, consultez la documentation Google Cloud Platform.
Si vous créez un nouveau projet, vous serez invité à y associer un compte de facturation. Si vous utilisez un projet préexistant, assurez-vous que la facturation est activée.

Découvrez comment vérifier que la facturation est activée pour votre projet.

Remarque : Vous devez activer la facturation pour utiliser l'API Speech-to-Text, mais vous ne serez facturé que si vous dépassez le quota gratuit. Pour en savoir plus, consultez la page des tarifs.
Une fois que vous avez sélectionné un projet et que vous l'avez associé à un compte de facturation, vous pouvez activer l'API Speech-to-Text. Accédez à la barre Rechercher des produits et des ressources en haut de la page et saisissez "parole".
Sélectionnez l'API Cloud Speech-to-Text dans la liste des résultats.
Pour essayer Speech-to-Text sans l'associer à votre projet, sélectionnez l'option ESSAYER CETTE API. Pour activer l'API Speech-to-Text afin de l'utiliser avec votre projet, cliquez sur ACTIVER.

Créer une transcription

Autorisations requises pour cette tâche

Pour effectuer cette tâche, vous devez disposer des autorisations suivantes :

storage.buckets.get
storage.buckets.list
storage.buckets.update

Au niveau du projet ou du bucket :

storage.objects.create
storage.objects.delete
storage.objects.get
storage.objects.list
storage.objects.update

Utilisez la console Google Cloud pour créer une transcription :

Configuration audio

Ouvrez la présentation de Speech-to-Text.
Cliquez sur Créer une transcription.
- Si c'est la première fois que vous utilisez la console, vous serez invité à choisir où stocker vos configurations et vos transcriptions dans Cloud Storage.
Sur la page Créer une transcription, importez un fichier audio source. Vous pouvez choisir un fichier déjà enregistré dans Cloud Storage ou en importer un nouveau à l'emplacement de destination Cloud Storage spécifié.
Sélectionnez le type d'encodage du fichier audio importé.
Spécifiez son taux d'échantillonnage.
Cliquez sur Continuer. Vous êtes redirigé vers les options de transcription.

Options de transcription

Sélectionnez le code de langue de votre source audio. Il s'agit de la langue parlée dans l'enregistrement.
Choisissez le modèle de transcription que vous souhaitez utiliser pour le fichier. L'option par défaut est présélectionnée et, généralement, aucune modification n'est nécessaire, mais la mise en correspondance du modèle avec le type de contenu audio peut offrir une précision plus élevée. Notez que les coûts des modèles varient.
Cliquez sur Continuer. Vous êtes alors redirigé vers la page Adaptation de modèle.

Adaptation de modèle (facultatif)

Si votre fichier audio source contient des mots rares, des noms propres ou des termes propriétaires, et que vous rencontrez des problèmes de reconnaissance, l'adaptation du modèle peut s'avérer utile.

Cochez l'option Activer l'adaptation de modèle.
Sélectionnez Ressource d'adaptation ponctuelle.
Ajoutez des expressions pertinentes et attribuez-leur une valeur d'amélioration.
Dans la colonne de gauche, cliquez sur Envoyer pour créer votre transcription.

Vérifier votre transcription

Selon la taille de votre fichier audio, la transcription peut prendre de quelques minutes à plusieurs heures. Une fois votre transcription créée, elle est prête à être examinée. Le tri de la table par horodatage peut vous aider à localiser facilement vos transcriptions récentes.

Cliquez sur le nom de la transcription que vous souhaitez examiner.
Comparer le texte de transcription au fichier audio
Si vous souhaitez apporter des modifications, cliquez sur Réutiliser la configuration. Vous accédez alors au flux Créer une transcription avec les mêmes options présélectionnées, ce qui vous permet de modifier quelques éléments, de créer une transcription et de comparer les résultats.

Étapes suivantes

Entraînez-vous à transcrire des fichiers audio courts.
Découvrez comment traiter des fichiers audio longs par lot pour la reconnaissance vocale.
Découvrez comment transcrire du contenu audio diffusé en streaming, à partir d'un micro par exemple.
Faites vos premiers pas avec Speech-to-Text dans le langage de votre choix à l'aide de l'une des bibliothèques clientes Speech-to-Text.
Parcourez les exemples d'applications.
Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la précision, consultez la documentation relative aux bonnes pratiques.