Essayez Gemini 3, notre meilleur modèle pour le raisonnement, le codage et la compréhension multimodale dans Gemini Enterprise Agent Platform

Speech-to-Text

Transformez des paroles en texte grâce à l'IA de Google

Convertissez des contenus audio en transcriptions de texte et intégrez la reconnaissance vocale à des applications à l'aide d'API faciles à utiliser.

Les nouveaux clients bénéficient également d'un maximum de 300 $ de crédits pour essayer Speech-to-Text et d'autres produits Google Cloud.

Fonctionnalités

IA vocale avancée

Speech-to-Text peut utiliser Chirp 3, le modèle de fondation de Google Cloud pour la reconnaissance vocale entraîné sur des millions d'heures de données audio et des milliards de phrases écrites.Cela contraste avec les techniques de reconnaissance vocale traditionnelles qui se concentrent sur de grandes quantités de données supervisées spécifiques à une langue. Ces techniques permettent aux utilisateurs d'améliorer la reconnaissance et la transcription d'un plus grand nombre de langues parlées et d'accents.

Compatible avec plus de 85 langues et variantes

Touchez une base d'utilisateurs mondiale grâce à un grand nombre de langues. Transcrivez des données audio courtes ou longues, et même en streaming. Speech-to-Text offre également aux utilisateurs des déploiements de transcriptions plus précis et à l'échelle mondiale grâce à Chirp 3, la nouvelle génération de modèles de reconnaissance vocale universels.

Chirp 3 : Transcription a été conçu à l'aide d'un entraînement auto-supervisé sur des millions d'heures d'audio et 28 milliards de phrases écrites dans plus de 100 langues.

Transcrivez des contenus audio courts, longs et en streaming.

Consulter le guide

Reconnaissance vocale en continu

Obtenez en temps réel les résultats de la reconnaissance vocale à mesure que l'API traite l'entrée audio capturée par le micro de l'application ou provenant d'un fichier audio préenregistré (intégré ou depuis Cloud Storage).

Reconnaissance vocale et transcription basées sur l'IA

Speech-to-Text a recours à l'adaptation de modèle pour améliorer la précision des mots fréquemment utilisés, élargir le vocabulaire disponible pour la transcription et améliorer la transcription de contenus audio bruyants. L'adaptation de modèle permet aux utilisateurs de personnaliser Speech-to-Text pour reconnaître des mots ou des expressions spécifiques plus fréquemment que d'autres options qui pourraient être suggérées. Par exemple, vous pouvez orienter Speech-to-Text vers la transcription de « verre » plutôt que de « vert ».

Conformité réglementaire et de la sécurité prête à l'emploi

L'API Speech-to-Text v2 offre aux entreprises et aux clients professionnels des exigences réglementaires et de sécurité supplémentaires prêtes à l'emploi. La résidence des données permet d'appeler des modèles de transcription via un service entièrement régionalisé qui exploite des régions Google Cloud comme Singapour et la Belgique. Les journaux pour la génération et la transcription des ressources sont facilement accessibles dans la console Google Cloud. Enfin, l'API Speech-to-Text v2 offre un chiffrement professionnel avec des clés de chiffrement gérées par le client pour toutes les ressources, ainsi qu'une transcription par lot.

Adaptation vocale

Personnalisez la fonction de reconnaissance vocale pour transcrire des mots rares et des termes propres à un domaine à l'aide de suggestions, et améliorer la précision de transcription de mots ou expressions spécifiques. Convertissez automatiquement les nombres prononcés en adresses, années, devises, etc. au moyen de classes.

Reconnaissance vocale sur site

Contrôlez entièrement votre infrastructure et vos données vocales protégées tout en exploitant la technologie de reconnaissance vocale de Google sur site, dans vos propres centres de données.Contactez un représentant pour découvrir cette solution.

Reconnaissance multicanal

Speech-to-Text peut reconnaître les différents canaux présents (par exemple, lors d'une visioconférence) et annoter les transcriptions de façon à conserver l'ordre d'intervention.

Filtrage du bruit

Speech-to-Text filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.

Modèles propres à un domaine

Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine. Par exemple, notre modèle d'appel téléphonique amélioré est spécialement adapté au son provenant de sources téléphoniques, comme les appels enregistrés avec un taux d'échantillonnage de 8 kHz.

Filtrage du contenu

Le filtre contre les grossièretés vous aide à détecter les contenus inappropriés ou peu professionnels dans vos données audio et à supprimer les termes grossiers dans le texte généré.

Évaluation des transcriptions

Importez vos propres données vocales et transcrivez-les sans code. Évaluez la qualité en effectuant une itération de votre configuration.

Ponctuation automatique (bêta)

Speech-to-Text ponctue les transcriptions avec précision, en fournissant par exemple des virgules, des points d'interrogation et des points.

Identification du locuteur

Identifiez l'auteur d'un propos en recevant des prédictions automatiques sur le locuteur de chaque énoncé au sein d'une conversation.

Comparer le modèle Speech-to-Text Chirp dans l'API et Agent Studio

Produit	Définition	Utilisation recommandée	Principales fonctionnalités
Chirp 3 : Transcription dans Agent Platform	Une interface utilisateur graphique Web simple à utiliser et sans code.	Testez rapidement des fichiers audio, créez des prototypes, transcrivez des fichiers audio, importez des fichiers audio ou des enregistrements directement dans un navigateur Web.	- Détection et transcription multilingues améliorées - Prise en charge de la transcription dans plus de 85 langues et variantes - Prise en charge de l'identification des locuteurs et de l'adaptation des modèles - Reconnaissance vocale automatique, qui transcrit le contenu audio en texte - Détection et transcription multilingues
Chirp 3 : Transcription sur l'API Speech-to-Text V2	API nouvelle génération du modèle Speech-to-Text universel de Google, unifiant les données de plusieurs langues.	Créez des applications professionnelles évolutives. Intégration facile de la transcription dans les logiciels existants.	- Détection et transcription multilingues améliorées - Prise en charge de la transcription dans plus de 85 langues et variantes - Prise en charge de l'identification des locuteurs et de l'adaptation des modèles - Reconnaissance vocale automatique, qui transcrit le contenu audio en texte - Détection et transcription multilingues

Chirp 3 : Transcription dans Agent Platform

Définition

Une interface utilisateur graphique Web simple à utiliser et sans code.

Utilisation recommandée

Testez rapidement des fichiers audio, créez des prototypes, transcrivez des fichiers audio, importez des fichiers audio ou des enregistrements directement dans un navigateur Web.

Principales fonctionnalités

- Détection et transcription multilingues améliorées

- Prise en charge de la transcription dans plus de 85 langues et variantes

- Prise en charge de l'identification des locuteurs et de l'adaptation des modèles

- Reconnaissance vocale automatique, qui transcrit le contenu audio en texte

- Détection et transcription multilingues

Chirp 3 : Transcription sur l'API Speech-to-Text V2

Définition

API nouvelle génération du modèle Speech-to-Text universel de Google, unifiant les données de plusieurs langues.

Utilisation recommandée

Créez des applications professionnelles évolutives.

Intégration facile de la transcription dans les logiciels existants.

Principales fonctionnalités

- Détection et transcription multilingues améliorées

- Prise en charge de la transcription dans plus de 85 langues et variantes

- Prise en charge de l'identification des locuteurs et de l'adaptation des modèles

- Reconnaissance vocale automatique, qui transcrit le contenu audio en texte

- Détection et transcription multilingues

Fonctionnement

Speech-to-Text a recours à trois grandes méthodes de reconnaissance vocale : synchrone, asynchrone et par flux. Chaque méthode renvoie des résultats au format texte selon que la transcription est nécessaire en post-traitement, de façon régulière ou en temps réel. Pour faire simple, vous saisissez des données audio et recevez une réponse textuelle.

Découvrez comment ajouter Speech-to-Text à vos applications

Démonstration

Tester l'API Speech-to-Text

Créez rapidement une transcription audio à partir d'un fichier importé ou en parlant directement dans un micro.

Utilisations courantes

Transcrire l'audio

Créer une transcription audio

Apprenez à utiliser l'API Speech-to-Text depuis la console Cloud en créant une transcription audio en quelques étapes. Vous pouvez également transcrire des contenus audio en streaming, courts et longs.

Interface utilisateur des transcriptions audio

Aperçu de l'importation de Speech-to-Text

Tutoriels, guides de démarrage rapide et ateliers

Créer une transcription audio

Apprenez à utiliser l'API Speech-to-Text depuis la console Cloud en créant une transcription audio en quelques étapes. Vous pouvez également transcrire des contenus audio en streaming, courts et longs.

Aperçu de l'importation de Speech-to-Text

Sous-titrez des vidéos à l'aide de l'IA

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Transcrivez vos contenus audio et vidéo pour inclure des sous-titres. Ajoutez des sous-titres à des contenus existants ou en temps réel à du contenu diffusé en streaming. Notre modèle Chirp 3 : Transcription est idéal pour indexer ou sous-titrer des vidéos et/ou des contenus comportant plusieurs locuteurs. Il emploie une technologie de machine learning comparable à celle utilisée pour créer des sous-titres dans YouTube.

Ce tutoriel explique comment utiliser l'API Speech-to-Text et l'API Translation des services d'IA de Google Cloud pour ajouter des sous-titres à des vidéos et les localiser dans d'autres langues.

Tutoriels, guides de démarrage rapide et ateliers

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Transcrivez vos contenus audio et vidéo pour inclure des sous-titres. Ajoutez des sous-titres à des contenus existants ou en temps réel à du contenu diffusé en streaming. Notre modèle Chirp 3 : Transcription est idéal pour indexer ou sous-titrer des vidéos et/ou des contenus comportant plusieurs locuteurs. Il emploie une technologie de machine learning comparable à celle utilisée pour créer des sous-titres dans YouTube.

Ce tutoriel explique comment utiliser l'API Speech-to-Text et l'API Translation des services d'IA de Google Cloud pour ajouter des sous-titres à des vidéos et les localiser dans d'autres langues.

Ajouter Speech-to-Text aux applications

Découvrez comment activer rapidement et facilement Speech-to-Text pour votre application avec Google Cloud. Cette vidéo explique comment intégrer l'IA à votre application sans expérience approfondie des modèles de machine learning. L'API Speech-to-Text pré-entraînée vous permet d'activer rapidement et facilement l'IA pour votre application.

Transcription avancée optimisée par l'IA de Google et UI de l'API

Ajoutez une commande vocale aux applications

Tutoriels, guides de démarrage rapide et ateliers

Ajouter Speech-to-Text aux applications

Découvrez comment activer rapidement et facilement Speech-to-Text pour votre application avec Google Cloud. Cette vidéo explique comment intégrer l'IA à votre application sans expérience approfondie des modèles de machine learning. L'API Speech-to-Text pré-entraînée vous permet d'activer rapidement et facilement l'IA pour votre application.

Ajoutez une commande vocale aux applications

Traduisez du contenu audio en texte

Langue, parole, texte et traduction avec les API Google Cloud

Dans ce cours, vous allez utiliser l'API Speech-to-Text pour transcrire un fichier audio en fichier texte, traduire avec l'API Google Cloud Translation et créer une voix de synthèse avec l'IA Natural Language.

Tutoriels, guides de démarrage rapide et ateliers

Langue, parole, texte et traduction avec les API Google Cloud

Dans ce cours, vous allez utiliser l'API Speech-to-Text pour transcrire un fichier audio en fichier texte, traduire avec l'API Google Cloud Translation et créer une voix de synthèse avec l'IA Natural Language.

Tarification

Fonctionnement des tarifs de Speech-to-Text	Les tarifs de Speech-to-Text dépendent de la version de l'API, des canaux, des méthodes par lot et des coûts liés à d'autres services Google Cloud, comme l'espace de stockage.
Version de l'API	Service et capacité	Tarifs
API Speech-to-Text V2	V2 offre une résidence des données aux niveaux régional et multirégional pour les déploiements Chirp 3. Cette version inclut les journaux d'audit et la prise en charge des clés de chiffrement gérées par le client.	0,016 $ par minute

Fonctionnement des tarifs de Speech-to-Text

Les tarifs de Speech-to-Text dépendent de la version de l'API, des canaux, des méthodes par lot et des coûts liés à d'autres services Google Cloud, comme l'espace de stockage.

Version de l'API

Service et capacité

Tarifs

API Speech-to-Text V2

V2 offre une résidence des données aux niveaux régional et multirégional pour les déploiements Chirp 3. Cette version inclut les journaux d'audit et la prise en charge des clés de chiffrement gérées par le client.

0,016 $

par minute

Consultez le détail des tarifs de Speech-to-Text.

Fonctionnement des tarifs de Speech-to-Text

Les tarifs de Speech-to-Text dépendent de la version de l'API, des canaux, des méthodes par lot et des coûts liés à d'autres services Google Cloud, comme l'espace de stockage.

API Speech-to-Text V2

Service et capacité

V2 offre une résidence des données aux niveaux régional et multirégional pour les déploiements Chirp 3. Cette version inclut les journaux d'audit et la prise en charge des clés de chiffrement gérées par le client.

Tarifs

0,016 $

par minute

Consultez le détail des tarifs de Speech-to-Text.

Simulateur de coût

Estimez vos coûts Speech-to-Text mensuels (l'estimation inclut les tarifs et les frais spécifiques à une région).

Devis personnalisé

Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Speech-to-Text

Transformez des paroles en texte grâce à l'IA de Google

Points forts du produit

IA vocale avancée

Compatible avec plus de 85 langues et variantes

Reconnaissance vocale en continu

Reconnaissance vocale et transcription basées sur l'IA

Conformité réglementaire et de la sécurité prête à l'emploi

Adaptation vocale

Reconnaissance vocale sur site

Reconnaissance multicanal

Filtrage du bruit

Modèles propres à un domaine

Filtrage du contenu

Évaluation des transcriptions

Ponctuation automatique (bêta)

Identification du locuteur

Tester l'API Speech-to-Text

Transcrire l'audio

Créer une transcription audio

Tutoriels, guides de démarrage rapide et ateliers

Créer une transcription audio

Sous-titrez des vidéos à l'aide de l'IA

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Tutoriels, guides de démarrage rapide et ateliers

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Ajouter Speech-to-Text aux applications

Ajouter Speech-to-Text aux applications

Tutoriels, guides de démarrage rapide et ateliers

Ajouter Speech-to-Text aux applications

Traduisez du contenu audio en texte

Langue, parole, texte et traduction avec les API Google Cloud

Tutoriels, guides de démarrage rapide et ateliers

Langue, parole, texte et traduction avec les API Google Cloud

Simulateur de coût

Devis personnalisé

Commencer votre démonstration de faisabilité

Les nouveaux clients peuvent obtenir jusqu'à 300 $ de crédits inclus pour essayer Speech-to-Text et d'autres produits Google Cloud

Vous avez un projet volumineux ?

Reconnaissance vocale sur site

Principes de base de Speech-to-Text

Exemples de code Speech-to-Text