Essayez Gemini 2.5, notre modèle le plus intelligent, désormais disponible dans Vertex AI

Speech-to-Text

Transformez des paroles en texte grâce à l'IA de Google

Convertissez des contenus audio en transcriptions de texte et intégrez la reconnaissance vocale à des applications à l'aide d'API faciles à utiliser.

Les nouveaux clients bénéficient également d'un maximum de 300 $ de crédits pour essayer Speech-to-Text et d'autres produits Google Cloud.

Fonctionnalités

IA vocale avancée

Speech-to-Text peut utiliser Chirp, le modèle de fondation de Google Cloud pour la reconnaissance vocale entraîné sur des millions d'heures de données audio et des milliards de phrases.Cela contraste avec les techniques de reconnaissance vocale traditionnelles qui se concentrent sur de grandes quantités de données supervisées spécifiques à une langue. Ces techniques permettent aux utilisateurs d'améliorer la reconnaissance et la transcription d'un plus grand nombre de langues parlées et d'accents.

Compatible avec 125 langues et variantes

Touchez une base d'utilisateurs mondiale grâce à un grand nombre de langues. Transcrivez des données audio courtes ou longues, et même en streaming. Speech-to-Text offre également aux utilisateurs une traduction et une reconnaissance plus précises et à l'échelle mondiale grâce à Chirp, la nouvelle génération de modèles de reconnaissance vocale universels. Chirp a été conçu à l'aide d'un entraînement auto-supervisé sur des millions d'heures d'audio et 28 milliards de phrases dans plus de 100 langues.

Transcrire des contenus audio courts, longs ou en streaming

Consulter le guide

Modèles pré-entraînés ou personnalisables pour la transcription

Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine.Personnalisez, testez, créez et gérez facilement des ressources personnalisées grâce à l'interface utilisateur de Speech-to-Text.

Conformité réglementaire et de sécurité prête à l'emploi

L'API Speech-to-Text v2 offre aux entreprises et aux clients professionnels des exigences réglementaires et de sécurité supplémentaires prêtes à l'emploi. La résidence des données permet d'appeler des modèles de transcription via un service entièrement régionalisé qui exploite des régions Google Cloud comme Singapour et la Belgique. Grâce à l'ingéniosité du programme de reconnaissance, vous n'avez plus besoin de comptes de service dédiés pour l'authentification et l'autorisation. Les journaux pour la génération et la transcription des ressources sont facilement accessibles dans la console Google Cloud. Enfin, l'API Speech-to-Text v2 offre un chiffrement professionnel avec des clés de chiffrement gérées par le client pour toutes les ressources, ainsi qu'une transcription par lot.

Reconnaissance vocale et transcription basées sur l'IA

Speech-to-Text a recours à l'adaptation de modèle pour améliorer la précision des mots fréquemment utilisés, élargir le vocabulaire disponible pour la transcription et améliorer la transcription de contenus audio bruyants. L'adaptation de modèle permet aux utilisateurs de personnaliser Speech-to-Text pour reconnaître des mots ou des expressions spécifiques plus fréquemment que d'autres options qui pourraient être suggérées. Par exemple, vous pouvez orienter Speech-to-Text vers la transcription de « verre » plutôt que de « vert ».

Reconnaissance vocale en continu

Obtenez en temps réel les résultats de la reconnaissance vocale à mesure que l'API traite l'entrée audio capturée par le micro de l'application ou provenant d'un fichier audio préenregistré (intégré ou depuis Cloud Storage).

Adaptation vocale

Personnalisez la fonction de reconnaissance vocale pour transcrire des mots rares et des termes propres à un domaine à l'aide de suggestions, et améliorer la précision de transcription de mots ou expressions spécifiques. Convertissez automatiquement les nombres prononcés en adresses, années, devises, etc. au moyen de classes.

Reconnaissance vocale sur site

Contrôlez entièrement votre infrastructure et vos données vocales protégées tout en exploitant la technologie de reconnaissance vocale de Google sur site, dans vos propres centres de données.Contactez un représentant pour découvrir cette solution.

Reconnaissance multicanal

Speech-to-Text peut reconnaître les différents canaux présents (par exemple, lors d'une visioconférence) et annoter les transcriptions de façon à conserver l'ordre d'intervention.

Filtrage du bruit

Speech-to-Text filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.

Modèles propres à un domaine

Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine. Par exemple, notre modèle d'appel téléphonique amélioré est spécialement adapté au son provenant de sources téléphoniques, comme les appels enregistrés avec un taux d'échantillonnage de 8 kHz.

Filtrage du contenu

Le filtre contre les grossièretés vous aide à détecter les contenus inappropriés ou peu professionnels dans vos données audio et à supprimer les termes grossiers dans le texte généré.

Évaluation des transcriptions

Importez vos propres données vocales et transcrivez-les sans code. Évaluez la qualité en effectuant une itération de votre configuration.

Ponctuation automatique (bêta)

Speech-to-Text ponctue les transcriptions avec précision, en fournissant par exemple des virgules, des points d'interrogation et des points.

Identification du locuteur

Identifiez l'auteur d'un propos en recevant des prédictions automatiques sur le locuteur de chaque énoncé au sein d'une conversation.

Fonctionnement

Speech-to-Text a recours à trois grandes méthodes de reconnaissance vocale : synchrone, asynchrone et par flux. Chaque méthode renvoie des résultats au format texte selon que la transcription est nécessaire en post-traitement, de façon régulière ou en temps réel. Pour faire simple, vous saisissez des données audio et recevez une réponse textuelle.

Découvrez comment ajouter Speech-to-Text à vos applications

Démonstration

Tester l'API Speech-to-Text

Créez rapidement une transcription audio à partir d'un fichier importé ou en parlant directement dans un micro.

Utilisations courantes

Transcrire l'audio

Créer une transcription audio

Apprenez à utiliser l'API Speech-to-Text depuis la console Cloud en créant une transcription audio en quelques étapes. Vous pouvez également transcrire des contenus audio courts, longs et en streaming.

Aperçu de l'importation de Speech-to-Text

Tutoriels, guides de démarrage rapide et ateliers

Créer une transcription audio

Apprenez à utiliser l'API Speech-to-Text depuis la console Cloud en créant une transcription audio en quelques étapes. Vous pouvez également transcrire des contenus audio courts, longs et en streaming.

Aperçu de l'importation de Speech-to-Text

Sous-titrez des vidéos à l'aide de l'IA

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Transcrivez vos contenus audio et vidéo pour inclure des sous-titres. Ajoutez des sous-titres à des contenus existants ou en temps réel à du contenu diffusé en streaming. Notre modèle de transcription vidéo est idéal pour indexer ou sous-titrer des vidéos et/ou des contenus comportant plusieurs locuteurs. Il utilise une technologie de machine learning semblable à celle de YouTube pour le sous-titrage vidéo. Ce tutoriel explique comment utiliser l'API Speech-to-Text et l'API Translation des services d'IA de Google Cloud pour ajouter des sous-titres à des vidéos et les localiser dans d'autres langues.

Tutoriels, guides de démarrage rapide et ateliers

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Transcrivez vos contenus audio et vidéo pour inclure des sous-titres. Ajoutez des sous-titres à des contenus existants ou en temps réel à du contenu diffusé en streaming. Notre modèle de transcription vidéo est idéal pour indexer ou sous-titrer des vidéos et/ou des contenus comportant plusieurs locuteurs. Il utilise une technologie de machine learning semblable à celle de YouTube pour le sous-titrage vidéo. Ce tutoriel explique comment utiliser l'API Speech-to-Text et l'API Translation des services d'IA de Google Cloud pour ajouter des sous-titres à des vidéos et les localiser dans d'autres langues.

Ajouter Speech-to-Text aux applications

Découvrez comment activer rapidement et facilement Speech-to-Text pour votre application avec Google Cloud. Cette vidéo explique comment intégrer l'IA à votre application sans expérience approfondie des modèles de machine learning. L'API Speech-to-Text pré-entraînée vous permet d'activer rapidement et facilement l'IA pour votre application.

Transcription avancée optimisée par l'IA de Google et UI de l'API

Ajouter des commandes vocales aux applications

Tutoriels, guides de démarrage rapide et ateliers

Ajouter Speech-to-Text aux applications

Découvrez comment activer rapidement et facilement Speech-to-Text pour votre application avec Google Cloud. Cette vidéo explique comment intégrer l'IA à votre application sans expérience approfondie des modèles de machine learning. L'API Speech-to-Text pré-entraînée vous permet d'activer rapidement et facilement l'IA pour votre application.

Ajouter des commandes vocales aux applications

Traduire du contenu audio en texte

Langue, parole, texte et traduction avec les API Google Cloud

Dans ce cours, vous allez utiliser l'API Speech-to-Text pour transcrire un fichier audio en fichier texte, traduire avec l'API Google Cloud Translation et créer une voix de synthèse avec l'IA Natural Language.

Tutoriels, guides de démarrage rapide et ateliers

Langue, parole, texte et traduction avec les API Google Cloud

Dans ce cours, vous allez utiliser l'API Speech-to-Text pour transcrire un fichier audio en fichier texte, traduire avec l'API Google Cloud Translation et créer une voix de synthèse avec l'IA Natural Language.

Générer une solution

Quel problème essayez-vous de résoudre ?

What you'll get:

Guide par étapes

Architecture de référence

Solutions pré-intégrées disponibles

Ce service a été créé avec Vertex AI. Vous devez avoir au moins 18 ans pour l'utiliser. Ne saisissez pas d'informations sensibles, confidentielles ni personnelles.

Tarification

Fonctionnement des tarifs de Speech-to-Text	Les tarifs de Speech-to-Text sont basés sur la version de l'API, les canaux, les méthodes de traitement par lot et les éventuels coûts de service Google Cloud supplémentaires tels que le stockage.
Version de l'API	Service et capacité	Tarifs
API Speech-to-Text V1	V1 n'offre une résidence des données qu'au niveau multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo. V1 n'inclut pas les journaux d'audit. Les nouveaux clients bénéficient de 300 $ de crédits gratuits et de 60 minutes par mois pour la transcription et l'analyse de contenu audio, non déduites de leurs crédits.	0,024 $ par minute
API Speech-to-Text V2	V2 offre une résidence des données aux niveaux régional et multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo et Chirp. V2 inclut des journaux d'audit et une compatibilité avec les clés de chiffrement gérées par le client.	0,016 $ par minute

Fonctionnement des tarifs de Speech-to-Text

Les tarifs de Speech-to-Text sont basés sur la version de l'API, les canaux, les méthodes de traitement par lot et les éventuels coûts de service Google Cloud supplémentaires tels que le stockage.

Version de l'API

Service et capacité

Tarifs

API Speech-to-Text V1

V1 n'offre une résidence des données qu'au niveau multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo. V1 n'inclut pas les journaux d'audit. Les nouveaux clients bénéficient de 300 $ de crédits gratuits et de 60 minutes par mois pour la transcription et l'analyse de contenu audio, non déduites de leurs crédits.

0,024 $

par minute

API Speech-to-Text V2

V2 offre une résidence des données aux niveaux régional et multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo et Chirp. V2 inclut des journaux d'audit et une compatibilité avec les clés de chiffrement gérées par le client.

0,016 $

par minute

Consultez le détail des tarifs de Speech-to-Text.

Fonctionnement des tarifs de Speech-to-Text

Les tarifs de Speech-to-Text sont basés sur la version de l'API, les canaux, les méthodes de traitement par lot et les éventuels coûts de service Google Cloud supplémentaires tels que le stockage.

API Speech-to-Text V1

Service et capacité

V1 n'offre une résidence des données qu'au niveau multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo. V1 n'inclut pas les journaux d'audit. Les nouveaux clients bénéficient de 300 $ de crédits gratuits et de 60 minutes par mois pour la transcription et l'analyse de contenu audio, non déduites de leurs crédits.

Tarifs

0,024 $

par minute

API Speech-to-Text V2

Service et capacité

V2 offre une résidence des données aux niveaux régional et multirégional. Les modèles incluent : audio court, audio long, audio lors d'un appel téléphonique, audio de vidéo et Chirp. V2 inclut des journaux d'audit et une compatibilité avec les clés de chiffrement gérées par le client.

Tarifs

0,016 $

par minute

Consultez le détail des tarifs de Speech-to-Text.

Simulateur de coût

Estimez vos coûts Speech-To-Text mensuels (l'estimation inclut les tarifs et les frais spécifiques à une région).

Devis personnalisé

Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Speech-to-Text

Transformez des paroles en texte grâce à l'IA de Google

Points forts du produit

IA vocale avancée

Compatible avec 125 langues et variantes

Modèles pré-entraînés ou personnalisables pour la transcription

Conformité réglementaire et de sécurité prête à l'emploi

Reconnaissance vocale et transcription basées sur l'IA

Reconnaissance vocale en continu

Adaptation vocale

Reconnaissance vocale sur site

Reconnaissance multicanal

Filtrage du bruit

Modèles propres à un domaine

Filtrage du contenu

Évaluation des transcriptions

Ponctuation automatique (bêta)

Identification du locuteur

Tester l'API Speech-to-Text

Transcrire l'audio

Créer une transcription audio

Tutoriels, guides de démarrage rapide et ateliers

Créer une transcription audio

Sous-titrez des vidéos à l'aide de l'IA

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Tutoriels, guides de démarrage rapide et ateliers

Créez des sous-titres pour vos vidéos à l'aide de l'IA

Ajouter Speech-to-Text aux applications

Ajouter Speech-to-Text aux applications

Tutoriels, guides de démarrage rapide et ateliers

Ajouter Speech-to-Text aux applications

Traduire du contenu audio en texte

Langue, parole, texte et traduction avec les API Google Cloud

Tutoriels, guides de démarrage rapide et ateliers

Langue, parole, texte et traduction avec les API Google Cloud

Simulateur de coût

Devis personnalisé

Commencer votre démonstration de faisabilité

Les nouveaux clients peuvent obtenir jusqu'à 300 $ de crédits gratuits pour essayer Speech-to-Text et d'autres produits Google Cloud

Vous avez un projet volumineux ?

Reconnaissance vocale sur site

Principes de base de Speech-to-Text

Exemples de code Speech-to-Text