Speech-to-Text est une API optimisée par la technologie d'intelligence artificielle (IA) de Google. Vous envoyez vos données audio à Speech-to-Text, puis vous recevez en réponse une transcription de vos données audio.
Pour en savoir plus sur la construction d'une requête Speech-to-Text, consultez la page Requêtes.
Présentation
Avant de pouvoir envoyer des requêtes à Speech-to-Text, vous devez activer l'API dans Google Cloud Console. Les étapes décrites sur cette page vous guident à travers les actions suivantes :
- Activez Speech-to-Text sur un projet.
- Assurez-vous que la facturation est activée pour Speech-to-Text.
- Assurez-vous que votre projet dispose d'au moins un compte de service.
- Téléchargez une clé d'identifiants de compte de service.
- Définissez la variable d'environnement d'authentification.
- (Facultatif) Créez un bucket Google Cloud Storage pour stocker vos données audio.
Avant de commencer
Il existe deux façons d'accéder au service : en utilisant l'API REST ou la console Speech-to-text. Nous vous fournissons des exemples de code qui vous montrent comment envoyer une requête à l'API REST et recevoir une réponse. Vous pouvez apprendre à utiliser ces exemples en suivant les guides de démarrage rapide et les guides d'utilisation de Speech-to-Text. Si vous préférez utiliser Speech-to-Text avec un minimum de codage, servez-vous de la console Cloud Speech-to-Text.
Ce guide vous explique les étapes nécessaires pour commencer à envoyer des requêtes à l'API REST. Si vous débutez avec le codage, nous vous recommandons de commencer par les tutoriels détaillés dans Google Cloud Platform avant de commencer.
Configurer votre projet Google Cloud pour Speech-to-Text
Accéder à la page de sélection du projet
Vous pouvez sélectionner un projet existant ou en créer un. Pour en savoir plus sur la création d'un projet, consultez la page Créer et gérer des projets.
Si vous créez un nouveau projet, vous serez invité à y associer un compte de facturation. Si vous utilisez un projet préexistant, assurez-vous que la facturation est activée.
Découvrez comment vérifier que la facturation est activée pour votre projet.
Une fois que vous avez sélectionné un projet et que vous l'avez associé à un compte de facturation, vous pouvez activer l'API Speech-to-Text. Accédez à la barre Rechercher des produits et des ressources en haut de la page et saisissez "parole". Sélectionnez l'API Cloud Speech-to-Text dans la liste des résultats.
Pour essayer Speech-to-Text sans l'associer à votre projet, sélectionnez l'option ESSAYER CETTE API. Pour activer l'API Speech-to-Text afin de l'utiliser avec votre projet, cliquez sur ACTIVER.
(Facultatif) Activez la journalisation des données. En activant la journalisation des données, vous autorisez Google à enregistrer les données audio que vous envoyez à Speech-to-Text. Ces données sont utilisées pour améliorer les modèles Speech-to-Text. Les utilisateurs qui activent la journalisation des données bénéficient d'un tarif plus avantageux. Pour en savoir plus, consultez les Conditions d'utilisation des tarifs et de la journalisation des données.
Vous devez maintenant associer un ou plusieurs comptes de service à l'API Speech-to-Text. Cliquez sur l'élément de menu Credentials (Identifiants) à gauche de la page principale de l'API Speech-to-Text. Si vous n'avez pas de compte de service associé à ce projet, créez-en un en suivant les instructions de la section Créer un compte de service.
Si vous avez déjà créé des comptes de service associés à ce projet, ils apparaîtront sur cette page. Assurez-vous d'avoir accès à une clé JSON téléchargée associée au compte de service que vous souhaitez utiliser pour vous authentifier avec Speech-to-Text. Les clés de compte de service ne peuvent être téléchargées qu'une seule fois, au moment de leur création. Si votre compte de service possède une clé existante, mais que vous ne trouvez pas le fichier
.json
téléchargé, vous devez créer une autre clé pour ce compte de service et télécharger son fichier.json
. Pour savoir comment créer une clé sur un compte de service existant, suivez les instructions de la section Créer une clé JSON.Si vous possédez déjà un compte de service et sa clé JSON, vous pouvez désormais définir votre variable d'environnement d'authentification.
Créer un compte de service
Créez un compte de service si votre projet n'en possède pas déjà un. Vous devez créer un compte de service pour utiliser Speech-to-Text.
Accéder à la page "Créer un compte de service"
Dans la zone Nom du compte de service, saisissez un nom unique pour le nouveau compte de service. Votre saisie est automatiquement renseignée dans la zone Service account ID (ID de compte de service). La zone Description du compte de service est facultative mais recommandée si vous prévoyez d'associer plusieurs comptes de service à votre projet. Saisissez une brève description du compte de service dans cette zone, puis cliquez sur CRÉER ET CONTINUER.
Nous vous recommandons d'attribuer l'un des rôles IAM de base à votre compte de service. Vous pouvez également attribuer plusieurs rôles à un seul compte de service si nécessaire. Consultez la section Rôles IAM pour en savoir plus sur les rôles disponibles et les autorisations accordées à chacun d'entre eux. Cliquez sur le menu déroulant Sélectionner un rôle et faites défiler la page jusqu'à la section Basic. Sélectionnez un rôle pour ce compte de service parmi les options qui figurent dans la colonne de droite. Cliquez sur CONTINUER.
La dernière étape vous permet d'autoriser éventuellement d'autres entités (individus, groupes Google, etc.) à accéder à votre compte de service. Si vous n'avez pas besoin d'accorder un accès supplémentaire, vous pouvez cliquer sur OK sans saisir d'informations.
Le compte de service est désormais répertorié sur la page Comptes de service. Vous pouvez modifier les autorisations du compte de service, ajouter ou générer des clés et accorder l'accès à tout moment.
Créer une clé JSON pour votre compte de service
Le nouveau compte de service s'affiche sur la page "Comptes de service". Créez une clé privée qui sera associée au compte. Vous devez utiliser cette clé privée lors du processus d'authentification lorsque vous envoyez une requête à Speech-to-Text. Si vous choisissez de ne pas créer de clé maintenant, vous pouvez générer une clé et/ou modifier les informations de chaque utilisateur à tout moment en accédant au compte de service via l'option IAM et administration -> Comptes de service dans le menu de navigation principal.
Pour créer une clé, cliquez sur le compte de service et sélectionnez l'onglet CLÉS. Cliquez sur AJOUTER UNE CLÉ -> Créer une clé. Nous vous recommandons de créer une clé au format JSON.
Une nouvelle clé au format de votre choix est automatiquement téléchargée. Stockez ce fichier dans un endroit sûr et notez le chemin d'accès au fichier. Vous devez faire pointer la variable d'environnement GOOGLE_APPLICATION_CREDENTIALS vers ce fichier lorsque vous effectuez le processus d'authentification au début de chaque nouvelle session Speech-to-Text. Il s'agit d'une étape essentielle pour authentifier les requêtes envoyées à Speech-to-Text. L'ID unique de la clé apparaît à côté du nom du compte de service.
Définir la variable d'environnement d'authentification
Pour définir votre GOOGLE_APPLICATION_CREDENTIALS, vous devez disposer d'un compte de service associé à votre projet et avoir accès à la clé JSON du compte de service.
Fournissez des identifiants d'authentification au code de votre application en définissant la variable d'environnement GOOGLE_APPLICATION_CREDENTIALS
. Cette variable ne s'applique qu'à la session d'interface système actuelle. Si vous souhaitez que la variable s'applique aux sessions d'interface système futures, définissez-la dans votre fichier de démarrage de l'interface système, par exemple dans le fichier ~/.bashrc
ou ~/.profile
.
Linux ou macOS
export GOOGLE_APPLICATION_CREDENTIALS="KEY_PATH
"
Remplacez KEY_PATH
par le chemin du fichier JSON contenant la clé de votre compte de service.
Exemple :
export GOOGLE_APPLICATION_CREDENTIALS="/home/user/Downloads/service-account-file.json"
Windows
Pour PowerShell :
$env:GOOGLE_APPLICATION_CREDENTIALS="KEY_PATH
"
Remplacez KEY_PATH
par le chemin du fichier JSON contenant la clé de votre compte de service.
Exemple :
$env:GOOGLE_APPLICATION_CREDENTIALS="C:\Users\username\Downloads\service-account-file.json"
Pour l'invite de commande :
set GOOGLE_APPLICATION_CREDENTIALS=KEY_PATH
Remplacez KEY_PATH
par le chemin du fichier JSON contenant la clé de votre compte de service.
Pour en savoir plus, consultez la documentation sur l'authentification dans Google Cloud Platform.
Facultatif : créer un bucket Cloud Storage
Si vous avez l'intention de transcrire des fichiers audio d'une durée supérieure à 60 secondes ou d'une taille supérieure à 10 Mo, vous devez stocker les données audio dans un bucket Cloud Storage avant de pouvoir les transcrire à l'aide de Speech-to-Text. Les étapes suivantes vous guident tout au long du processus de création d'un bucket.
- Pour nommer votre bucket, saisissez un nom unique. N'incluez aucune information sensible dans le nom des buckets, car leur espace de noms est global et visible par tous.
-
Pour Choisir l'emplacement de stockage des données, procédez comme suit :
- Sélectionnez une option de type d'emplacement.
- Sélectionnez une option Location (Emplacement).
- Pour Choisir une classe de stockage par défaut pour vos données, sélectionnez une classe de stockage.
- Pour le champ Choisir comment contrôler l'accès aux objets, sélectionnez une option de Contrôle des accès.
- Sous Paramètres avancés (facultatif), choisissez une méthode de chiffrement, une règle de conservation ou des libellés de bucket.
Désactiver l'API Speech-to-Text
Suivez la procédure ci-dessous si vous n'avez plus besoin d'utiliser l'API Speech-to-Text à l'avenir.
- Accédez à votre tableau de bord Google Cloud, puis cliquez sur le lien Accéder à la présentation des API dans la zone API.
- Sélectionnez API Cloud Speech-to-Text.
- Cliquez sur le bouton DÉSACTIVER L'API en haut de la page de l'API Cloud Speech-to-Text.
Étape suivante
Découvrez comment envoyer une requête de transcription à l'API Speech-to-Text à l'aide de bibliothèques clientes, de gcloud, de la ligne de commande ou de l'UI de Speech-to-Text.