Convertissez des contenus audio en transcriptions de texte et intégrez la reconnaissance vocale à des applications à l'aide d'API faciles à utiliser.
Obtenez jusqu'à 60 minutes par mois pour la transcription et l'analyse de contenu audio*. Les nouveaux clients bénéficient également d'un maximum de 300 $ de crédits pour essayer Speech-to-Text et d'autres produits Google Cloud.
*Ne s'applique qu'au traitement audio avec l'API Speech-to-Text V1.
Fonctionnalités
Speech-to-Text peut utiliser Chirp, le modèle de fondation de Google Cloud pour la reconnaissance vocale entraîné sur des millions d'heures de données audio et des milliards de phrases.Cela contraste avec les techniques de reconnaissance vocale traditionnelles qui se concentrent sur de grandes quantités de données supervisées spécifiques à une langue. Ces techniques permettent aux utilisateurs d'améliorer la reconnaissance et la transcription d'un plus grand nombre de langues parlées et d'accents.
Touchez une base d'utilisateurs mondiale grâce à un grand nombre de langues. Transcrivez des données audio courtes ou longues, et même en streaming. Speech-to-Text offre également aux utilisateurs une traduction et une reconnaissance plus précises et à l'échelle mondiale grâce à Chirp, la nouvelle génération de modèles de reconnaissance vocale universels. Chirp a été conçu à l'aide d'un entraînement auto-supervisé sur des millions d'heures d'audio et 28 milliards de phrases dans plus de 100 langues.
Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine.Personnalisez, testez, créez et gérez facilement des ressources personnalisées grâce à l'interface utilisateur de Speech-to-Text.
L'API Speech-to-Text v2 offre aux entreprises et aux clients professionnels des exigences réglementaires et de sécurité supplémentaires prêtes à l'emploi. La résidence des données permet d'appeler des modèles de transcription via un service entièrement régionalisé qui exploite des régions Google Cloud comme Singapour et la Belgique. Grâce à l'ingéniosité du programme de reconnaissance, vous n'avez plus besoin de comptes de service dédiés pour l'authentification et l'autorisation. Les journaux pour la génération et la transcription des ressources sont facilement accessibles dans la console Google Cloud. Enfin, l'API Speech-to-Text v2 offre un chiffrement professionnel avec des clés de chiffrement gérées par le client pour toutes les ressources, ainsi qu'une transcription par lot.
Speech-to-Text a recours à l'adaptation de modèle pour améliorer la précision des mots fréquemment utilisés, élargir le vocabulaire disponible pour la transcription et améliorer la transcription de contenus audio bruyants. L'adaptation de modèle permet aux utilisateurs de personnaliser Speech-to-Text pour reconnaître des mots ou des expressions spécifiques plus fréquemment que d'autres options qui pourraient être suggérées. Par exemple, vous pouvez orienter Speech-to-Text vers la transcription de « verre » plutôt que de « vert ».
Obtenez en temps réel les résultats de la reconnaissance vocale à mesure que l'API traite l'entrée audio capturée par le micro de l'application ou provenant d'un fichier audio préenregistré (intégré ou depuis Cloud Storage).
Personnalisez la fonction de reconnaissance vocale pour transcrire des mots rares et des termes propres à un domaine à l'aide de suggestions, et améliorer la précision de transcription de mots ou expressions spécifiques. Convertissez automatiquement les nombres prononcés en adresses, années, devises, etc. au moyen de classes.
Contrôlez entièrement votre infrastructure et vos données vocales protégées tout en exploitant la technologie de reconnaissance vocale de Google sur site, dans vos propres centres de données.Contactez un représentant pour découvrir cette solution.
Speech-to-Text peut reconnaître les différents canaux présents (par exemple, lors d'une visioconférence) et annoter les transcriptions de façon à conserver l'ordre d'intervention.
Speech-to-Text filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.
Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine. Par exemple, notre modèle d'appel téléphonique amélioré est spécialement adapté au son provenant de sources téléphoniques, comme les appels enregistrés avec un taux d'échantillonnage de 8 kHz.
Le filtre contre les grossièretés vous aide à détecter les contenus inappropriés ou peu professionnels dans vos données audio et à supprimer les termes grossiers dans le texte généré.
Importez vos propres données vocales et transcrivez-les sans code. Évaluez la qualité en effectuant une itération de votre configuration.
Speech-to-Text ponctue les transcriptions avec précision, en fournissant par exemple des virgules, des points d'interrogation et des points.
Identifiez l'auteur d'un propos en recevant des prédictions automatiques sur le locuteur de chaque énoncé au sein d'une conversation.
Fonctionnement
Speech-to-Text a recours à trois grandes méthodes de reconnaissance vocale : synchrone, asynchrone et par flux. Chaque méthode renvoie des résultats au format texte selon que la transcription est nécessaire en post-traitement, de façon régulière ou en temps réel. Pour faire simple, vous saisissez des données audio et recevez une réponse textuelle.
Démonstration
Créez rapidement une transcription audio à partir d'un fichier importé ou en parlant directement dans un micro.
Utilisations courantes
Créer une transcription audio
Apprenez à utiliser l'API Speech-to-Text depuis la console Cloud en créant une transcription audio en quelques étapes. Vous pouvez également transcrire des contenus audio courts, longs et en streaming.
Créer une transcription audio
Apprenez à utiliser l'API Speech-to-Text depuis la console Cloud en créant une transcription audio en quelques étapes. Vous pouvez également transcrire des contenus audio courts, longs et en streaming.
Ajouter Speech-to-Text aux applications
Découvrez comment activer rapidement et facilement Speech-to-Text pour votre application avec Google Cloud. Cette vidéo explique comment intégrer l'IA à votre application sans expérience approfondie des modèles de machine learning. L'API Speech-to-Text pré-entraînée vous permet d'activer rapidement et facilement l'IA pour votre application.
Ajouter Speech-to-Text aux applications
Découvrez comment activer rapidement et facilement Speech-to-Text pour votre application avec Google Cloud. Cette vidéo explique comment intégrer l'IA à votre application sans expérience approfondie des modèles de machine learning. L'API Speech-to-Text pré-entraînée vous permet d'activer rapidement et facilement l'IA pour votre application.
Langue, parole, texte et traduction avec les API Google Cloud
Dans ce cours, vous allez utiliser l'API Speech-to-Text pour transcrire un fichier audio en fichier texte, traduire avec l'API Google Cloud Translation et créer une voix de synthèse avec l'IA Natural Language.
Langue, parole, texte et traduction avec les API Google Cloud
Dans ce cours, vous allez utiliser l'API Speech-to-Text pour transcrire un fichier audio en fichier texte, traduire avec l'API Google Cloud Translation et créer une voix de synthèse avec l'IA Natural Language.
Tarification
Fonctionnement des tarifs de Speech-to-Text | Les tarifs de Speech-to-Text sont basés sur la version de l'API, les canaux, les méthodes de traitement par lot et les éventuels coûts de service Google Cloud supplémentaires tels que le stockage. | |
---|---|---|
Version de l'API | Service et capacité | Tarifs |
API Speech-to-Text V1 | V1 n'offre une résidence des données qu'au niveau multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo. V1 n'inclut pas les journaux d'audit. Les nouveaux clients bénéficient de 300 $ de crédits gratuits et de 60 minutes par mois pour la transcription et l'analyse de contenu audio, non déduites de leurs crédits. | 0,024 $ par minute |
API Speech-to-Text V2 | V2 offre une résidence des données aux niveaux régional et multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo et Chirp. V2 inclut des journaux d'audit et une compatibilité avec les clés de chiffrement gérées par le client. | 0,016 $ par minute |
Consultez le détail des tarifs de Speech-to-Text.
Fonctionnement des tarifs de Speech-to-Text
Les tarifs de Speech-to-Text sont basés sur la version de l'API, les canaux, les méthodes de traitement par lot et les éventuels coûts de service Google Cloud supplémentaires tels que le stockage.
API Speech-to-Text V1
V1 n'offre une résidence des données qu'au niveau multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo. V1 n'inclut pas les journaux d'audit. Les nouveaux clients bénéficient de 300 $ de crédits gratuits et de 60 minutes par mois pour la transcription et l'analyse de contenu audio, non déduites de leurs crédits.
0,024 $
par minute
API Speech-to-Text V2
V2 offre une résidence des données aux niveaux régional et multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo et Chirp. V2 inclut des journaux d'audit et une compatibilité avec les clés de chiffrement gérées par le client.
0,016 $
par minute
Consultez le détail des tarifs de Speech-to-Text.