API Cloud Speech

Transcriptions audio basées sur le machine learning

Essai gratuit Consulter la documentation

Reconnaissance vocale performante

Grâce à Google Cloud Speech, les développeurs peuvent convertir du son en texte en exploitant des modèles de réseaux neuronaux performants dans une API facile à utiliser. Cette API reconnaît plus de 80 langues et variantes pour s'adapter à votre base mondiale d'utilisateurs. Google Cloud Speech permet par exemple de transcrire ce que les utilisateurs disent au micro d'une application, d'utiliser des commandes vocales et de transcrire des fichiers audio. Vous pouvez reconnaître le son importé dans une requête, puis l'intégrer à votre espace de stockage audio sur Google Cloud Storage grâce à la même technologie que Google utilise pour ses propres produits.

speech-api-lead

Une solution basée sur le machine learning

L'API Speech utilise les algorithmes de deep learning les plus sophistiqués du marché. Cette technologie basée sur les réseaux de neurones permet une reconnaissance vocale d'une précision inégalée. Cette précision augmente au fil du temps, à mesure que Google améliore la technologie de reconnaissance vocale interne utilisée par ses propres produits.

Plus de 80 langues

L'API Speech reconnaît plus de 80 langues et variantes pour s'adapter à votre base mondiale d'utilisateurs. Vous pouvez également filtrer le contenu inapproprié dans les résultats au format texte.

Transcription en temps réel

L'API Speech propose des résultats de reconnaissance partielle instantanés. Le texte reconnu s'affiche immédiatement à mesure que l'utilisateur parle. L'API Speech peut également fournir une transcription audio sous forme de fichier.

Des résultats précis, même dans un environnement bruyant

Avec l'API Speech, nul besoin d'appliquer un traitement de signal avancé ou de suppression du bruit avant la transmission du son. Notre service est capable de filtrer le bruit provenant de toutes sortes d'environnements.

Un système de reconnaissance basé sur le contexte

Personnalisez la reconnaissance vocale en fournissant un ensemble distinct de mots clés à chaque appel d'API. Cette fonctionnalité est particulièrement utile si vous souhaitez configurer des commandes vocales pour une application ou un appareil.

Compatibilité avec tous les appareils

L'API Speech est compatible avec tous les appareils qui peuvent envoyer des requêtes REST ou gRPC, tels que les téléphones, les ordinateurs, les tablettes et les appareils IdO (voitures, téléviseurs, enceintes, etc.).

Fonctionnalités de l'API Speech

Transcriptions audio basées sur le machine learning

Reconnaissance vocale automatique
La reconnaissance vocale automatique est basée sur un réseau neuronal de deep learning. Elle vous permet de développer des applications utilisant la recherche vocale ou la transcription audio.
Vocabulaire international
Cette API reconnaît plus de 80 langues et variantes. Elle possède également un large vocabulaire.
Résultats instantanés en continu
La transcription s'affiche à mesure que l'utilisateur parle.
Mots clés
Vous pouvez personnaliser la reconnaissance vocale pour un contexte particulier en fournissant un ensemble de mots et d'expressions susceptibles d'être utilisés. Cette fonctionnalité est particulièrement utile, car elle permet d'ajouter des mots et des noms personnalisés au vocabulaire existant et de prédéfinir des commandes vocales.
Compatibilité avec le son en temps réel ou préenregistré
Le son d'entrée peut être capturé par le micro d'une application ou provenir d'un fichier audio préenregistré. Plusieurs formats d'encodage audio, tels que FLAC, AMR, PCMU et Linear-16 sont acceptés.
Filtrage du bruit
Cette API filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.
Filtrage du contenu inapproprié
Cette API filtre le contenu inapproprié dans les résultats au format texte pour certaines langues.
API intégrée
Les fichiers audio peuvent être importés dans une requête ou intégrés à Google Cloud Storage.

TARIFS DE L'API CLOUD SPEECH

Reconnaissance vocale performante

L'API Cloud Speech est facturée par tranches de 15 secondes de son traité après les 60 premières minutes gratuites. Pour obtenir plus d'informations, consultez notre grille tarifaire.

Utilisation mensuelle Prix pour 15 secondes*
0 à 60 minutes Gratuit
61 à 1 000 000 de minutes** 0,006 $

* Ce tarif est valable pour les applications installées sur des systèmes personnels (par exemple, des téléphones, des tablettes, ainsi que des ordinateurs portables et de bureau). Contactez-nous afin d'obtenir notre accord et de connaître les tarifs pour l'utilisation de l'API Speech sur des appareils embarqués (par exemple, voitures, téléviseurs, appareils électroménagers ou enceintes).

** L'utilisation mensuelle est limitée à un million de minutes par mois.

Contrôlez vos ressources où que vous soyez

Pour gérer vos projets, téléchargez l'application Google Cloud Console.