Speech-to-Text

Convertissez de la voix en texte avec précision, à l'aide d'une API optimisée par les technologies d'IA de Google.

Profiter d'un essai gratuit
  • action/check_circle_24px Créé avec Sketch.

    Transcrivez vos contenus avec des sous-titres fidèles.

  • action/check_circle_24px Créé avec Sketch.

    Améliorez l'expérience utilisateur dans les produits grâce aux commandes vocales.

  • action/check_circle_24px Créé avec Sketch.

    Dégagez des insights à partir des interactions client afin d'améliorer votre service.

Avantages

Précision inégalée

Appliquez les algorithmes de deep learning basés sur les réseaux de neurones les plus sophistiqués du marché à des fins de reconnaissance vocale automatique.

Portée mondiale

Allez à la rencontre des utilisateurs où qu'ils soient dans le monde grâce à la reconnaissance vocale disponible dans plus de 125 langues et variantes.

Déploiement flexible

Déployez la reconnaissance vocale partout où vous en avez besoin : dans le cloud avec l'API ou sur site avec la Reconnaissance vocale sur site.

Démonstration

Essayez Speech-to-Text

Principales fonctionnalités

Principales fonctionnalités

Adaptation vocale

Personnalisez la fonction de reconnaissance vocale pour transcrire des mots rares et des termes propres à un domaine à l'aide de suggestions, et améliorer la précision de transcription de mots ou expressions spécifiques. Convertissez automatiquement les nombres prononcés en adresses, années, devises, etc. au moyen de classes.

Modèles propres à un domaine

Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine. Par exemple, notre modèle d'appel téléphonique amélioré est spécialement adapté au son provenant de sources téléphoniques, comme les appels enregistrés avec un taux d'échantillonnage de 8 kHz.

Reconnaissance vocale en continu

Obtenez en temps réel les résultats de la reconnaissance vocale à mesure que l'API traite l'entrée audio capturée par le micro de l'application ou provenant d'un fichier audio préenregistré (intégré ou depuis Cloud Storage).

Reconnaissance vocale sur site

Contrôlez entièrement votre infrastructure et vos données vocales protégées tout en exploitant la technologie de reconnaissance vocale sur site de Google dans vos propres centres de données. Contactez un représentant pour découvrir cette solution.

Découvrir toutes les fonctionnalités

Clients

Clients

Castbox s'appuie sur Speech-to-Text pour son service de recherche audio de podcasts.
Lire le témoignage

Points clés

  • Accès des utilisateurs à la fonctionnalité de recherche de mots et d'expressions dans les contenus audio

  • Taux de précision de la conversion de l'audio en texte supérieurs à 96 %

  • Requêtes de recherche standards avec une latence de 50 millisecondes

Secteur

  • Technologie

Nouveautés

Nouveautés

Inscrivez-vous à la newsletter Google Cloud pour recevoir des informations sur les produits et événements, des offres spéciales et bien plus encore.

Documentation

Documentation

Principes de base de Google Cloud
Principes de base de Speech-to-Text

Découvrez les concepts fondamentaux de Speech-to-Text.

Guide de démarrage rapide
Guide de démarrage rapide : utiliser l'outil gcloud

Envoyez une requête de transcription audio à Speech-to-Text avec l'outil gcloud depuis la ligne de commande.

Bonne pratique
Bonnes pratiques

Consultez les bonnes pratiques de transcription audio avec Speech-to-Text.

Principes de base de Google Cloud
Langues acceptées

Découvrez les langues proposées dans Speech-to-Text, ainsi que les fonctionnalités et modèles de reconnaissance disponibles pour chacune.

Principes de base de Google Cloud
Reconnaissance vocale sur site

Découvrez la reconnaissance vocale sur site, qui permet d'intégrer facilement les technologies de reconnaissance vocale de Google à vos solutions sur site.

Cas d'utilisation

Cas d'utilisation

Cas d'utilisation
Améliorer le service client

Perfectionnez votre système de service client en dotant vos centres d'appels de la fonction de réponse vocale interactive et d'agents de conversation. Effectuez des analyses sur vos données de conversation pour dégager des insights sur les appels et les clients. Speech-to-Text et ses modèles d'appels téléphoniques améliorés sont déjà inclus dans la solution hautes performances de Google Cloud, Contact Center AI.

Utiliser Contact Center AI avec la technologie de reconnaissance vocale pour améliorer le service client
Cas d'utilisation
Proposer des fonctionnalités de contrôle vocal

Mettez en place des commandes vocales comme "Monter le son" et des recherches vocales telles que "Combien fait-il à Paris ?". Associez-les à l'API Text-to-Speech pour bénéficier des atouts de la reconnaissance vocale dans les applications IoT (Internet des objets).

Workflow des commandes vocales à l'aide de l'API Speech-to-Text
Cas d'utilisation
Transcrire des contenus multimédias

Transcrivez vos contenus audio et vidéo afin d'inclure des sous-titres : vous pourrez ainsi toucher une plus large audience et améliorer l'expérience pour les spectateurs. Ajoutez des sous-titres à vos contenus diffusés en temps réel. Notre modèle de transcription vidéo est idéal pour indexer ou sous-titrer des contenus vidéo et/ou comportant plusieurs locuteurs. Il emploie une technologie de machine learning comparable à celle utilisée pour créer des sous-titres dans YouTube.

Workflow de transcription des contenus multimédias

Toutes les fonctionnalités

Toutes les fonctionnalités

Vocabulaire international Adaptez-vous à votre base d'utilisateurs internationale grâce aux plus de 125 langues et variantes disponibles avec Speech-to-Text.
Reconnaissance vocale en continu Obtenez en temps réel les résultats de la reconnaissance vocale à mesure que l'API traite l'entrée audio capturée par le micro de l'application ou provenant d'un fichier audio préenregistré (intégré ou depuis Cloud Storage).
Adaptation vocale Personnalisez la fonction de reconnaissance vocale pour transcrire des mots rares et des termes propres à un domaine à l'aide de suggestions, et améliorer la précision de transcription de mots ou expressions spécifiques. Convertissez automatiquement les nombres prononcés en adresses, années, devises, etc. au moyen de classes.
Reconnaissance vocale sur site Contrôlez entièrement votre infrastructure et vos données vocales protégées tout en exploitant la technologie de reconnaissance vocale sur site de Google dans vos propres centres de données. Contactez un représentant pour découvrir cette solution.
Reconnaissance multicanal Speech-to-Text peut reconnaître les différents canaux présents (par exemple, lors d'une visioconférence) et annoter les transcriptions de façon à conserver l'ordre d'intervention.
Filtrage du bruit Speech-to-Text filtre le bruit provenant de nombreux environnements, ce qui vous évite d'avoir à effectuer vous-même cette opération.
Modèles propres à un domaine Faites votre choix parmi une sélection de modèles entraînés pour les commandes vocales et la transcription de vidéos et d'appels téléphoniques, optimisés de façon à répondre aux exigences de qualité du domaine. Par exemple, notre modèle d'appel téléphonique amélioré est spécialement adapté au son provenant de sources téléphoniques, comme les appels enregistrés avec un taux d'échantillonnage de 8 kHz.
Filtrage du contenu Le filtre contre les grossièretés vous aide à détecter les contenus inappropriés ou peu professionnels dans vos données audio et à supprimer les termes grossiers dans le texte généré.
Détection automatique de la langue (bêta) Indiquez jusqu'à quatre codes de langue pour permettre à Speech-to-Text d'identifier la langue dans les scénarios multilingues.
Ponctuation automatique (bêta) Speech-to-Text ponctue les transcriptions avec précision (virgules, points d'interrogation, points, etc.).
Identification du locuteur (bêta) Identifiez l'auteur d'un propos en recevant des prédictions automatiques sur le locuteur de chaque énoncé au sein d'une conversation.

Tarifs

Tarifs

Speech-to-Text est facturé par tranches de 15 secondes de son traité après les 60 premières minutes gratuites.