Cloud Speech-to-Text

Transcriptions audio basées sur le machine learning pour les contenus de courte ou longue durée

Profiter d'un essai gratuit

Reconnaissance vocale performante

Grâce à Google Cloud Speech-to-Text, les développeurs peuvent convertir du son en texte en exploitant des modèles de réseaux de neurones performants dans une API facile à utiliser. Celle-ci reconnaît 120 langues et variantes pour s'adapter à votre base mondiale d'utilisateurs. Vous pouvez activer la commande vocale, transcrire des contenus audio provenant de centres d'appels et bien plus. L'outil s'appuie également sur la technologie de machine learning de Google pour traiter des flux en temps réel et des fichiers audio préenregistrés.

speech-api-lead

Convertissez dès maintenant votre discours en texte

Choisissez une langue et cliquez sur "Commencer" pour démarrer l'enregistrement.

Une solution basée sur le machine learning

L'API Cloud Speech-to-Text utilise les algorithmes de deep learning les plus sophistiqués du marché. Cette technologie basée sur les réseaux de neurones permet une reconnaissance vocale d'une précision inégalée. Cette précision augmente au fil du temps, à mesure que Google améliore la technologie de reconnaissance vocale interne utilisée par ses propres produits.

Reconnaissance de 120 langues et variantes

Reconnaissant 120 langues et variantes, Cloud Speech-to-Text s'adapte à votre base mondiale d'utilisateurs. Vous pouvez également filtrer le contenu inapproprié dans les résultats au format texte, quelle que soit la langue.

Détection automatique de la langue

Cloud Speech-to-Text vous permet d'identifier la langue de l'énoncé (fonctionnalité limitée à quatre langues). Vous pouvez ainsi retranscrire des recherches ("Quelle température fait-il à Paris ?", par exemple) et commandes vocales (comme "Augmenter le volume").

Transcriptions audio en temps réel de contenus de courte ou longue durée

Cloud Speech-to-Text est capable de transmettre instantanément des résultats au format texte. Le discours est reconnu dès que le contenu audio est lancé ou que l'utilisateur parle. Vous pouvez également fournir un fichier audio à Cloud Speech-to-Text pour obtenir sa transcription. L'API vous permet d'analyser des contenus audio de courte ou longue durée.

Transcription automatique des noms propres et mise en forme spécifique au contexte

Cloud Speech-to-Text est conçu pour s'adapter au discours oral de la vie réelle. L'API peut transcrire précisément des noms propres (Sundar Pichai, par exemple) et correctement mettre en forme des éléments de langue (comme des dates ou numéros de téléphone). Le nombre de noms propres reconnus par Google est plus de dix fois supérieur au nombre de mots présents dans le dictionnaire de langue anglaise d'Oxford.

Une sélection de modèles prédéfinis adaptés à votre cas d'utilisation

Cloud Speech-to-Text comprend plusieurs modèles de reconnaissance vocale prédéfinis (tels que le modèle adapté aux commandes vocales) que vous pouvez mettre à profit dans votre cas d'utilisation. Par exemple, notre modèle de transcription vidéo prédéfini est idéal pour indexer ou sous-titrer des vidéos et/ou des contenus comportant plusieurs locuteurs. Il emploie une technologie de machine learning comparable à celle utilisée pour créer des sous-titres dans YouTube.

Modèle Description
command_and_search Idéal pour les requêtes courtes telles que les commandes ou la recherche vocales.
phone_call Idéal pour les données audio provenant d'un appel téléphonique (généralement enregistrées à un taux d'échantillonnage de 8 kHz).
video Idéal pour les données audio provenant d'une vidéo ou comprenant plusieurs intervenants. Il est préférable que l'audio soit enregistré à un taux d'échantillonnage de 16 kHz ou plus. Il s'agit d'un modèle premium plus onéreux que le tarif standard.
default Idéal pour les données audio qui ne font pas partie des modèles spécifiques, telles que des données audio de longue durée. Il est préférable d'utiliser un son haute fidélité, enregistré à un taux d'échantillonnage de 16 kHz ou plus.

Fonctionnalités de Cloud Speech-to-Text

Transcriptions audio basées sur le machine learning

Reconnaissance vocale automatique
La reconnaissance vocale automatique est basée sur un réseau de neurones de deep learning. Elle vous permet de développer des applications utilisant la recherche vocale ou la transcription audio.
Vocabulaire international
L'API reconnaît 120 langues et variantes. Elle possède également un large vocabulaire.
Expressions clés
Vous pouvez personnaliser la reconnaissance vocale pour un contexte particulier en fournissant un ensemble de mots et d'expressions susceptibles d'être utilisés. Cette fonctionnalité est particulièrement utile, car elle permet d'ajouter des mots et des noms personnalisés au vocabulaire existant et de prédéfinir des commandes vocales.
Compatibilité avec les flux en temps réel et les fichiers audio préenregistrés
Le son d'entrée peut être capturé par le micro d'une application ou provenir d'un fichier audio préenregistré (intégré ou depuis Google Cloud Storage). Plusieurs formats d'encodage audio, tels que FLAC, AMR, PCMU et Linear-16 sont acceptés.
Détection automatique de la langueBÊTA
Si vous travaillez sur des scénarios multilingues, vous pouvez désormais spécifier deux à quatre codes de langue. Cloud Speech-to-Text identifie la langue parlée avant de fournir la transcription.
Filtrage du bruit
Cette API filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.
Filtrage du contenu inapproprié
Cette API filtre le contenu inapproprié dans les résultats au format texte pour certaines langues.
Ponctuation automatiqueBÊTA
L'API exploite le machine learning pour ponctuer (virgules, points, points d'interrogation, etc.) les transcriptions de manière précise.
Sélection de modèleBÊTA
Faites votre choix parmi quatre modèles prédéfinis : un modèle par défaut et trois modèles adaptés aux commandes et à la recherche vocales, aux appels téléphoniques, ainsi qu'à la transcription vidéo.
Identification du locuteurBÊTA
Identifiez l'auteur d'un propos. Vous pouvez désormais obtenir des prédictions automatiques afin de reconnaître le locuteur de chaque énoncé au sein d'une conversation.
Reconnaissance multicanal BÊTA
Lorsque chaque intervenant est enregistré sur un canal distinct au sein d'un enregistrement comportant plusieurs participants (un appel téléphonique à deux canaux ou une conférence vidéo à quatre canaux, par exemple), Cloud Speech-to-Text peut reconnaître chaque canal séparément, puis annoter les transcriptions selon le déroulement de la conversation.

Tarifs de l'API Cloud Speech-to-Text

Reconnaissance vocale performante

Cloud Speech-to-Text est facturée par tranches de 15 secondes de son traité après les 60 premières minutes gratuites. Pour obtenir plus d'informations, consultez notre grille tarifaire.
Fonctionnalité 0 à 60 minutes Plus de 60 minutes, jusqu'à 1 million de minutes
Reconnaissance vocale (tous les modèles, sauf celui pour les vidéos) Gratuit 0,006 USD/15 secondes*
Reconnaissance vocale pour les vidéos 0,006 $ 0,012 USD/15 secondes*

Ce tarif est valable pour les applications installées sur des systèmes personnels (par exemple, des téléphones, des tablettes, ainsi que des ordinateurs portables et de bureau). Si vous souhaitez utiliser l'API Speech-to-Text sur des appareils intégrés (par exemple, des voitures, des téléviseurs, des appareils ménagers ou des haut-parleurs), veuillez nous contacter afin d'obtenir notre accord et de connaître les tarifs.

* Chaque requête est arrondie à la tranche de 15 secondes supérieure. Par exemple, pour trois demandes distinctes, chacune contenant sept secondes de son, vous êtes facturé 0,0195 USD pour 45 secondes (3 × 15 secondes) de données audio. Les fractions de seconde sont également arrondies à la tranche de 15 secondes supérieure. Autrement dit, 15,14 secondes sont arrondies à 30 secondes et facturées comme telles.

Un produit ou une fonctionnalité figurant sur cette page est en version bêta. Pour en savoir plus sur les étapes de lancement de nos produits, cliquez ici.

Envoyer des commentaires concernant…

Cloud Speech-to-Text API