Speech-to-Text

Transcriptions audio basées sur le machine learning

Profiter d'un essai gratuit

Consultez la documentation de ce produit.

Reconnaissance vocale performante

Google Speech-to-Text permet aux développeurs de convertir le son en texte en appliquant de puissants modèles de réseau de neurones via une API facile à utiliser. L'API reconnaît 120 langues et variantes pour s'adapter à votre base mondiale d'utilisateurs. Vous pouvez activer la commande vocale, transcrire des contenus audio provenant de centres d'appels et bien plus. L'outil s'appuie sur la technologie de machine learning de Google pour traiter des flux en temps réel et des fichiers audio préenregistrés.

speech-api-lead

Convertissez dès maintenant votre discours en texte

Une solution basée sur le machine learning

L'API Cloud Speech-to-Text utilise les algorithmes de deep learning les plus sophistiqués du marché. Cette technologie basée sur les réseaux de neurones permet une reconnaissance vocale d'une précision inégalée. Cette précision augmente au fil du temps, à mesure que Google améliore la technologie de reconnaissance vocale interne utilisée par ses propres produits.

machine learning

Reconnaissance de 120 langues et variantes

Capable de reconnaître 120 langues et variantes, Speech-to-Text s'adapte à votre base mondiale d'utilisateurs. Vous pouvez également filtrer le contenu inapproprié dans les résultats au format texte, quelle que soit la langue.

language menu

Détection automatique de la langue

Speech-to-Text vous permet d'identifier la langue de l'énoncé (fonctionnalité limitée à quatre langues). Vous pouvez ainsi retranscrire des recherches ("Quelle température fait-il à Paris ?", par exemple) et commandes vocales (comme "Augmenter le volume").

spoken language

Transcriptions audio en temps réel de contenus de courte ou longue durée

Speech-to-Text est capable de transmettre instantanément des résultats au format texte. Le discours est reconnu dès que le contenu audio est lancé ou que l'utilisateur parle. Speech-to-Text est également capable de reconnaître et de transmettre le contenu audio d'un fichier. L'API vous permet d'analyser des contenus audio de courte ou longue durée.

clock

Transcription automatique des noms propres et mise en forme spécifique au contexte

Speech-to-Text est conçu pour s'adapter au discours oral de la vie réelle. L'API peut transcrire précisément des noms propres (par exemple, des noms de personnes ou de villes) et correctement mettre en forme des éléments de langue (comme des dates ou numéros de téléphone). Le nombre de noms propres reconnus par Google est plus de dix fois supérieur au nombre de mots présents dans le dictionnaire Oxford de langue anglaise.

soundwave

Une sélection de modèles prédéfinis adaptés à votre cas d'utilisation

Speech-to-Text comprend plusieurs modèles de reconnaissance vocale prédéfinis (tels que le modèle adapté aux commandes vocales) que vous pouvez mettre à profit dans votre cas d'utilisation. Par exemple, notre modèle de transcription vidéo prédéfini est idéal pour indexer ou sous-titrer des vidéos et/ou des contenus avec plusieurs locuteurs. Il emploie une technologie de machine learning comparable à celle utilisée pour créer des sous-titres dans YouTube.

speech model
Modèle Description
command_and_search Idéal pour les requêtes courtes telles que les commandes ou la recherche vocales.
phone_call Idéal pour les données audio provenant d'un appel téléphonique (généralement enregistrées à un taux d'échantillonnage de 8 kHz).
video Idéal pour les données audio provenant d'une vidéo ou comprenant plusieurs intervenants. Il est préférable que l'audio soit enregistré à un taux d'échantillonnage de 16 kHz ou plus. Il s'agit d'un modèle premium plus onéreux que le tarif standard.
default Idéal pour les données audio qui ne font pas partie des modèles spécifiques, telles que des données audio de longue durée. Il est préférable d'utiliser un son haute fidélité, enregistré à un taux d'échantillonnage de 16 kHz ou plus.

Fonctionnalités

Reconnaissance vocale automatique
La reconnaissance vocale automatique est basée sur un réseau de neurones de deep learning. Elle vous permet de développer des applications utilisant la recherche vocale ou la transcription audio.
Vocabulaire international
L'API reconnaît 120 langues et variantes. Elle possède également un large vocabulaire.
Reconnaissance vocale personnalisée
Personnalisez manuellement la reconnaissance vocale pour votre entreprise en spécifiant jusqu'à 5 000 mots ou expressions susceptibles d'être prononcés (tels que les noms de produits). Convertissez également automatiquement les nombres parlés en adresses, années ou devises, ou effectuez d'autres conversions, en fonction du contexte.
Compatibilité avec les flux en temps réel et les fichiers audio préenregistrés
Le son d'entrée peut être capturé par le micro d'une application ou provenir d'un fichier audio préenregistré (intégré ou depuis Google Cloud Storage). Plusieurs formats d'encodage audio, tels que FLAC, AMR, PCMU et Linear-16 sont acceptés.
Détection automatique de la langue (bêta)
Si vous travaillez sur des scénarios multilingues, vous pouvez désormais spécifier deux à quatre codes de langue. Cloud Speech-to-Text identifie la langue parlée avant de fournir la transcription.
Filtrage du bruit
Cette API filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.
Filtrage du contenu inapproprié
Cette API filtre le contenu inapproprié dans les résultats au format texte pour certaines langues.
Ponctuation automatique (bêta)
L'API exploite le machine learning pour ponctuer les transcriptions de manière précise (virgules, points, points d'interrogation, etc.).
Sélection du modèle
Faites votre choix parmi quatre modèles prédéfinis : un modèle par défaut et trois modèles adaptés aux commandes et à la recherche vocales, aux appels téléphoniques, ainsi qu'à la transcription vidéo.
Identification du locuteur (bêta)
Identifiez l'auteur d'un propos. Vous pouvez désormais obtenir des prédictions automatiques afin de reconnaître le locuteur de chaque énoncé au sein d'une conversation.
Reconnaissance multicanal
Lorsque chaque intervenant est enregistré sur un canal distinct au sein d'un enregistrement comportant plusieurs participants (un appel téléphonique à deux canaux ou une conférence vidéo à quatre canaux, par exemple), Cloud Speech-to-Text peut reconnaître chaque canal séparément, puis annoter les transcriptions selon le déroulement de la conversation.

Tarifs

Speech-to-Text est facturée par tranches de 15 secondes de son traité après les 60 premières minutes gratuites. Pour en savoir plus, consultez notre grille tarifaire.

Fonctionnalité Modèles standards (tous les modèles, sauf les modèles améliorés dédiés aux appels téléphoniques et aux vidéos) Modèles Premium* (modèles améliorés dédiés aux appels téléphoniques et aux vidéos)
0 à 60 minutes Plus de 60 minutes, jusqu'à 1 million de minutes 0 à 60 minutes Plus de 60 minutes, jusqu'à 1 million de minutes
Reconnaissance vocale (journalisation des données désactivée par défaut) Gratuit 0,006 $/15 secondes** Gratuit 0,009 $/15 secondes**
Reconnaissance vocale (avec activation de la journalisation des données) Gratuit 0,004 $/15 secondes** Gratuit 0,006 $/15 secondes**

Ce tarif est valable pour les applications installées sur des systèmes personnels (par exemple, des téléphones, des tablettes, ainsi que des ordinateurs portables et de bureau). Si vous souhaitez utiliser l'API Cloud Speech-to-Text sur des appareils intégrés (dans des voitures, des téléviseurs, des appareils électroménagers ou des enceintes, par exemple), veuillez nous contacter pour obtenir notre accord et connaître les tarifs applicables.

* Uniquement disponible en anglais pour le moment.

** Chaque requête est arrondie à la tranche de 15 secondes supérieure. Par exemple, pour trois requêtes distinctes (modèle standard), chacune contenant 7 secondes d'audio, vous êtes facturé 0,018 USD pour 45 secondes (3 × 15 secondes) d'audio. Les fractions de secondes sont également arrondies à la tranche de 15 secondes supérieure. Autrement dit, 15,14 secondes sont arrondies à 30 secondes et facturées comme telles.

load balancing icon

Un produit ou une fonctionnalité figurant sur cette page est en version bêta. Pour en savoir plus sur les étapes de lancement de nos produits, cliquez ici.

Les produits Cloud AI sont conformes aux règles du contrat de niveau de service qui figurent sur cette page. Ils peuvent présenter des garanties de latence ou de disponibilité différentes de celles d'autres services Google Cloud.