Découvrez les dernières annonces de la conférence Google Cloud Next. Regarder la vidéo
Accéder à

Speech-to-Text

Convertissez la voix en texte avec précision à l'aide d'une API s'appuyant sur les meilleures technologies et recherches en IA de Google.

Les nouveaux clients bénéficient de 300 $ de crédits gratuits à dépenser sur Speech-to-Text. Tous les clients disposent de 60 minutes gratuites par mois pour la transcription et l'analyse de contenu audio, non déduites de leurs crédits.

  • Transcrivez vos contenus avec des sous-titres fidèles.

  • Exploitez le pouvoir de la voix pour créer une meilleure expérience utilisateur.

  • Améliorez votre service grâce aux insights obtenus à partir des interactions client.

  • Lancez-vous rapidement grâce à notre tutoriel dans la console.

Avantages

Précision inégalée

Appliquez les algorithmes de deep learning les plus avancés de Google, basés sur les réseaux de neurones, à des fins de reconnaissance vocale automatique.

Modèles faciles à personnaliser

Testez, créez et gérez des ressources personnalisées avec l'interface utilisateur de Speech-to-Text.

Déploiement flexible de modèles

Déployez la reconnaissance vocale automatique là où vous en avez besoin : dans le cloud avec l'API ou sur site avec la Reconnaissance vocale sur site.

Démonstration

Essayez Speech-to-Text

Tout comme dans cette démonstration, vous pouvez facilement intégrer la transcription vocale dans vos applications avec l'API Speech-to-Text.

Principales fonctionnalités

Principales fonctionnalités

Adaptation vocale

Fournissez des indications pour améliorer la précision de la transcription de mots ou d'expressions rares et spécifiques à votre domaine. Utilisez des classes pour convertir automatiquement les nombres prononcés en adresses, années, devises et autres.

Modèles propres à un domaine

Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales, les appels téléphoniques et la transcription de vidéos, optimisés de façon à répondre aux exigences de qualité du domaine.

Comparaison simple de la qualité

Testez vos données audio vocales à l'aide de notre interface utilisateur conviviale. Essayez différentes configurations pour optimiser la qualité et la précision.

Reconnaissance vocale sur l'appareil

Exécutez les algorithmes de reconnaissance vocale de Google Cloud localement sur n'importe quel appareil et indépendamment de la connectivité Internet. Garantissez aux utilisateurs que leurs données vocales ne quitteront jamais leur appareil.

Modèle de base pour Speech-to-Text

Créez des applications à commande vocale à destination des audiences internationales grâce aux modèles vocaux basés sur Chirp, le modèle de base de Google Cloud pour la reconnaissance vocale entraîné sur des millions d'heures de données audio et des milliards de phrases. 

Découvrir toutes les fonctionnalités

Documentation

Tutoriels et ressources pour bien démarrer

Tutoriel
Tutoriels Speech-to-Text sur la console

Découvrez comment ajouter Speech-to-Text à vos applications existantes. Lancez-vous rapidement grâce à notre tutoriel dans la console.

Principes de base de Google Cloud
Principes de base de Speech-to-Text

Découvrez les concepts fondamentaux de Speech-to-Text.

Guide de démarrage rapide
Guide de démarrage rapide : Utiliser l'UI de Speech-to-Text

Apprenez à configurer un projet et des autorisations, à créer et affiner une transcription, ainsi qu'à utiliser cette configuration dans la console.

Guide de démarrage rapide
Guide de démarrage rapide : Utiliser l'outil gcloud

Envoyez une requête de transcription audio à Speech-to-Text avec l'outil gcloud depuis la ligne de commande.

Bonne pratique
Bonnes pratiques

Consultez les bonnes pratiques de transcription audio avec Speech-to-Text.

Tutoriel
Tremplin vers le ML

Explorez les tutoriels et ateliers de programmation de Speech-to-Text ainsi que d'autres ressources.

Principes de base de Google Cloud
Langues prises en charge

Découvrez les langues proposées dans Speech-to-Text, ainsi que les fonctionnalités et modèles de reconnaissance disponibles pour chacune.

Principes de base de Google Cloud
Reconnaissance vocale sur site

Découvrez la reconnaissance vocale sur site, qui permet d'intégrer facilement les technologies de reconnaissance vocale de Google à vos solutions sur site.

Cas d'utilisation

Cas d'utilisation

Cas d'utilisation
Améliorer le service client

Perfectionnez votre système de service client en dotant vos centres d'appels de la fonction de réponse vocale interactive et d'agents de conversation. Effectuez des analyses sur vos données de conversation pour dégager des insights sur les appels et les clients. Speech-to-Text et ses modèles d'appels téléphoniques améliorés sont déjà inclus dans la solution hautes performances de Google Cloud, Contact Center AI.

Workflow : les données audio de Contact Center sont traitées par les produits Google Cloud : d'abord stockées dans Cloud Storage, elles sont ensuite transmises à l'API Speech-to-Text pour (1) la transcription, puis à l'API Natural Language pour (2) l'analyse, puis à Cloud Data Loss Prevention qui a pour fonction de (3) masquer les informations personnelles, puis elles sont transmises à BigQuery. La circulation des données est ensuite bidirectionnelle entre (4) l'emplacement de stockage géré par BigQuery et (5) le dispositif d'interrogation et de visualisation grâce auquel les utilisateurs peuvent visualiser les données des appels.
Cas d'utilisation
Proposer des fonctionnalités de contrôle vocal

Mettez en place des commandes vocales comme "Monter le son" et des recherches vocales telles que "Combien fait-il à Paris ?". Associez-les à l'API Text-to-Speech pour bénéficier des atouts de la reconnaissance vocale dans les applications IoT (Internet des objets).

Workflow des commandes vocales à l'aide de l'API Speech-to-Text. Workflow : l'utilisateur se sert de son appareil pour (1) émettre une commande vocale qui génère deux flux bidirectionnels, le premier permettant (0) d'établir une identité unique sécurisée avec Cloud IoT Core et le second d'échanger des données avec Cloud Functions pour que l'API Speech-to-Text puisse (2) effectuer la transcription et transmettre les données à AutoML Natural Language qui (3) extrait les intents et les entités, et une boucle permet de revenir vers Cloud Functions et l'appareil de l'utilisateur.
Cas d'utilisation
Transcrire des contenus multimédias

Transcrivez vos contenus audio et vidéo afin d'inclure des sous-titres : vous pourrez ainsi toucher un plus large public et améliorer l'expérience de votre audience. Ajoutez des sous-titres à vos contenus diffusés en temps réel. Notre modèle de transcription vidéo est idéal pour indexer ou sous-titrer des contenus vidéo et/ou comportant plusieurs locuteurs. Il emploie une technologie de machine learning comparable à celle utilisée pour créer des sous-titres dans YouTube.

Workflow de transcription de contenu multimédia : l'entrée du flux audio s'effectue via (1) la fonction de génération de sous-titres en temps réel qui transmet les données à Google Kubernetes Engine pour qu'elles puissent ensuite être envoyées à l'API Speech-to-Text au niveau de laquelle intervient (2) l'évaluation de la transcription et sa transmission à Deep Learning VM, puis à Firestore, pour que le résultat puisse enfin être communiqué à l'équipe de modération de contenu ou (3) envoyé à un dispositif de stockage et d'exploitation des données qui le transmet au système de diffusion des sous-titres.

Toutes les fonctionnalités

Toutes les fonctionnalités

Vocabulaire international Adaptez-vous à votre base d'utilisateurs internationale grâce aux plus de 125 langues et variantes disponibles avec Speech-to-Text.
Reconnaissance vocale en continu Obtenez en temps réel les résultats de la reconnaissance vocale à mesure que l'API traite l'entrée audio capturée par le micro de l'application ou provenant d'un fichier audio préenregistré (intégré ou depuis Cloud Storage).
Adaptation vocale Personnalisez la fonction de reconnaissance vocale pour transcrire des mots rares et des termes propres à un domaine à l'aide de suggestions, et améliorer la précision de transcription de mots ou expressions spécifiques. Convertissez automatiquement les nombres prononcés en adresses, années, devises, etc. au moyen de classes.
Reconnaissance vocale sur site Contrôlez entièrement votre infrastructure et vos données vocales protégées tout en exploitant la technologie de reconnaissance vocale de Google sur site, dans vos propres centres de données. Contactez un représentant pour découvrir cette solution.
Reconnaissance multicanal Speech-to-Text peut reconnaître les différents canaux présents (par exemple, lors d'une visioconférence) et annoter les transcriptions de façon à conserver l'ordre d'intervention.
Filtrage du bruit Speech-to-Text filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.
Modèles propres à un domaine Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine. Par exemple, notre modèle d'appel téléphonique amélioré est spécialement adapté au son provenant de sources téléphoniques, comme les appels enregistrés avec un taux d'échantillonnage de 8 kHz.
Filtrage du contenu Le filtre contre les grossièretés vous aide à détecter les contenus inappropriés ou peu professionnels dans vos données audio et à supprimer les termes grossiers dans le texte généré.
Évaluation des transcriptions Importez vos propres données vocales et transcrivez-les sans code. Évaluez la qualité en effectuant une itération de votre configuration.
Ponctuation automatique (bêta) Speech-to-Text ponctue les transcriptions avec précision (virgules, points d'interrogation, points, etc.).
Identification du locuteur (bêta) Identifiez l'auteur d'un propos en recevant des prédictions automatiques sur le locuteur de chaque énoncé au sein d'une conversation.

Tarification

Tarification

L'utilisation de Speech-to-Text est facturée mensuellement en fonction du volume de données audio traitées par le service, calculé par tranches d'une seconde.