Index
DictationService
(interface)CreateDictationRequest
(message)CreateDictationStoreRequest
(message)CreateNoteRequest
(message)CreateSpeechConfigRequest
(message)DeleteDictationRequest
(message)DeleteDictationStoreRequest
(message)DeleteNoteRequest
(message)DeleteSpeechConfigRequest
(message)Dictation
(message)DictationStore
(message)GetDictationRequest
(message)GetDictationStoreRequest
(message)GetNoteRequest
(message)GetSpeechConfigRequest
(message)ListDictationStoresRequest
(message)ListDictationStoresResponse
(message)ListDictationsRequest
(message)ListDictationsResponse
(message)ListNotesRequest
(message)ListNotesResponse
(message)ListSpeechConfigsRequest
(message)ListSpeechConfigsResponse
(message)Note
(message)Note.Type
(enum)RecognitionAudio
(message)RecognitionConfig
(message)RecognitionConfig.AudioEncoding
(enum)RecognizeRequest
(message)RecognizeResponse
(message)RecognizedAction
(message)RecognizedActionParameter
(message)SpeechConfig
(message)SpeechRecognitionResult
(message)StreamingRecognitionResult
(message)StreamingRecognizeRequest
(message)StreamingRecognizeResponse
(message)StreamingRecognizeResponse.SpeechEventType
(enum)TrainingConsent
(enum)UpdateDictationRequest
(message)UpdateDictationStoreRequest
(message)UpdateNoteRequest
(message)UpdateSpeechConfigRequest
(message)WordInfo
(message)
DictationService
Service permettant de traiter les requêtes de dictée médicale. Les données de dictée sont stockées avec d'autres modalités de soins de santé dans des ensembles de données. Chaque ensemble de données peut avoir zéro ou plusieurs datastores de modalité, par exemple dictation stores
. La saisie audio (Dictations
) et les résultats transcrits (Notes
) sont les deux principaux types de données stockés dans les magasins de dictée. Les éléments SpeechConfigs
encodent les paramètres utilisés pour la reconnaissance vocale automatique.
CreateDictation | |
---|---|
Crée un enregistrement
|
CreateDictationStore | |
---|---|
Crée un objet
|
CreateNote | |
---|---|
Crée un objet
|
CreateSpeechConfig | |
---|---|
Crée un objet
|
DeleteDictation | |
---|---|
Supprime un
|
DeleteDictationStore | |
---|---|
Supprime l'élément
|
DeleteNote | |
---|---|
Supprime un objet
|
DeleteSpeechConfig | |
---|---|
Supprime un
|
GetDictation | |
---|---|
Récupère un
|
GetDictationStore | |
---|---|
Récupère l'élément
|
GetIamPolicy | |
---|---|
Récupère la stratégie de contrôle d'accès d'une ressource. Renvoie une erreur NOT_FOUND si la ressource n'existe pas. Renvoie une stratégie vide si la ressource existe, mais ne dispose d'aucune stratégie. L'autorisation Google IAM
|
GetNote | |
---|---|
Récupère un
|
GetSpeechConfig | |
---|---|
Récupère une configuration
|
ListDictationStores | |
---|---|
Répertorie les éléments
|
ListDictations | |
---|---|
Répertorie les
|
ListNotes | |
---|---|
Répertorie tous les éléments
|
ListSpeechConfigs | |
---|---|
Répertorie tous les éléments
|
Recognize | |
---|---|
Effectue une reconnaissance vocale asynchrone : recevez les résultats via l'interface
|
SetIamPolicy | |
---|---|
Définit la stratégie de contrôle d'accès pour une ressource. Remplace toute stratégie existante. L'autorisation Google IAM
|
StreamingRecognize | |
---|---|
Effectue une reconnaissance vocale en continu bidirectionnelle, qui permet au client de recevoir des résultats lors de l'envoi de données audio. Cette méthode n'est disponible que via l'API gRPC (non REST). Le contenu audio envoyé via cette méthode est ajouté à l'élément
|
TestIamPermissions | |
---|---|
Renvoie les autorisations qu'un appelant a sur la ressource spécifiée. Si la ressource n'existe pas, renvoie un ensemble vide d'autorisations. Ne renvoie pas l'erreur NOT_FOUND. Aucune autorisation n'est requise pour effectuer cet appel d'API.
|
UpdateDictation | |
---|---|
Met à jour l'objet
|
UpdateDictationStore | |
---|---|
Met à jour le
|
UpdateNote | |
---|---|
Met à jour l'objet
|
UpdateSpeechConfig | |
---|---|
Met à jour l'objet
|
CreateDictationRequest
Crée un enregistrement Dictation
avec des échantillons audio et l'ajoute à Dictation store
.
Champs | |
---|---|
parent |
Le nom du magasin de dictée auquel appartient cette dernière. L'autorisation Google IAM suivante est requise pour la ressource
|
dictation |
Dictée à créer. |
return_mask |
Le masque de retour s'applique à la ressource de dictée renvoyée. Pour obtenir la définition de |
CreateDictationStoreRequest
Crée un objet Dictation store
.
Champs | |
---|---|
parent |
Nom de l'ensemble de données auquel ce magasin de dictée appartient. L'autorisation Google IAM suivante est requise pour la ressource
|
dictation_store_id |
Identifiant du magasin de dictée en cours de création. La chaîne doit correspondre à l'expression régulière suivante : |
dictation_store |
Informations de configuration pour ce magasin de dictée. |
CreateNoteRequest
Champs | |
---|---|
parent |
Nom de l'objet Dictée auquel cette note est associée. L'autorisation Google IAM suivante est requise pour la ressource
|
note |
Note à créer. |
return_mask |
Le masque de mise à jour s'applique à la ressource de note renvoyée. Pour obtenir la définition de |
CreateSpeechConfigRequest
Crée un enregistrement SpeechConfig
incluant la configuration de la reconnaissance et l'ajoute à Dictation store
.
Champs | |
---|---|
parent |
Nom du magasin de dictées à laquelle speech_config appartient. L'autorisation Google IAM suivante est requise pour la ressource
|
speech_config |
SpeechConfig. |
DeleteDictationRequest
Supprime un objet Dictation
du Dictation store
spécifié.
Champs | |
---|---|
name |
Nom de ressource de la dictée à supprimer. L'autorisation Google IAM suivante est requise pour la ressource
|
DeleteDictationStoreRequest
Supprime le Dictation store
spécifié.
Champs | |
---|---|
name |
Nom de ressource du magasin de dictées à supprimer. L'autorisation Google IAM suivante est requise pour la ressource
|
DeleteNoteRequest
Champs | |
---|---|
name |
Nom de ressource de la note à supprimer. L'autorisation Google IAM suivante est requise pour la ressource
|
DeleteSpeechConfigRequest
Supprime une configuration SpeechConfig
du Dictation store
spécifié.
Champs | |
---|---|
name |
Nom de ressource de la configuration SpeechConfig à supprimer. L'autorisation Google IAM suivante est requise pour la ressource
|
Dictée
Une dictée audio.
Champs | |
---|---|
name |
Nom de ressource de la dictée, au format |
audio |
Lorsqu'elle est renvoyée dans la réponse GetDictation, elle contient du contenu audio dans une représentation binaire. Le champ audio n'est pas inclus dans les réponses CreateDictation et UpdateDictation. |
create_time |
Uniquement en sortie. Heure à laquelle la dictée a été créée. |
training_consent |
Spécifiez "ALLOW" pour autoriser l'utilisation de cette Dictée et de ses Notes afin d'améliorer la reconnaissance vocale. Cette valeur remplace la valeur du champ training_consent dans le DictationStore parent. Si cette valeur est omise, la valeur du champ training_consent dans DictationStore est utilisée. |
DictationStore
Un magasin de dictées pouvant stocker d'autres ressources liées à la dictée, telles que des dictées, des notes et SpeechConfigs
.
Champs | |
---|---|
name |
Uniquement en sortie. Nom de ressource du magasin de dictées, au format |
pubsub_topic |
Le sujet Cloud Pub/Sub sur lequel sont publiées les notifications de modifications de dictées et de notes. PubsubMessage.Data contiendra des noms de ressources Dictation ou Note. PubsubMessage.Attributes contiendra une carte avec une chaîne décrivant l'action qui a déclenché la notification, par exemple "action":"CreateDictation". Les notifications ne sont envoyées que si le sujet n'est pas vide. Les noms de sujet doivent être limités à un projet. Cette API doit disposer d'autorisations d'éditeur pour le sujet Cloud Pub/Sub donné. Si vous ne disposez pas des autorisations nécessaires, les appels qui envoient des notifications échoueront. Fourni par le client. |
training_consent |
Spécifiez ALLOW pour autoriser l'utilisation des ressources de ce magasin afin d'améliorer la reconnaissance vocale. Les exclusions peuvent toujours être spécifiées pour chaque dictée à l'aide du champ Dictation.training_consent qui remplace la valeur spécifiée dans le DictationStore associé. La valeur est traitée comme DISALLOW lorsqu'elle n'est pas spécifiée. |
labels |
Paires clé/valeur fournies par l'utilisateur, utilisées pour organiser les magasins de dictées. Les clés de libellé doivent comporter entre 1 et 63 caractères, avoir un encodage UTF-8 de 128 octets maximum et respecter l'expression régulière PCRE suivante : [\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62} Les valeurs des libellés sont facultatives. Elles doivent comporter entre 1 et 63 caractères, avoir un encodage UTF-8 de 128 octets maximum et respecter l'expression régulière PCRE suivante : [\p{Ll}\p{Lo}\p{N}_-]{0,63} Vous ne pouvez pas associer plus de 64 libellés à un magasin donné. |
GetDictationRequest
Récupère un Dictation
du Dictation store
spécifié.
Champs | |
---|---|
name |
Nom de ressource de la dictée à récupérer. L'autorisation Google IAM suivante est requise pour la ressource
|
GetDictationStoreRequest
Récupère un Dictation store
.
Champs | |
---|---|
name |
Nom de la ressource du magasin de dictées à obtenir. L'autorisation Google IAM suivante est requise pour la ressource
|
GetNoteRequest
Champs | |
---|---|
name |
Nom de ressource de la Note à récupérer. L'autorisation Google IAM suivante est requise pour la ressource
|
GetSpeechConfigRequest
Récupère un enregistrement SpeechConfig
du Dictation store
spécifié.
Champs | |
---|---|
name |
Nom de ressource de la configuration SpeechConfig à récupérer. L'autorisation Google IAM suivante est requise pour la ressource
|
ListDictationStoresRequest
Répertorie les éléments Dictation stores
dans l'ensemble de données considéré.
Champs | |
---|---|
parent |
Nom de l'ensemble de données. L'autorisation Google IAM suivante est requise pour la ressource
|
page_size |
Nombre maximum de magasins de dictées à renvoyer dans une seule réponse. Si la valeur est zéro, la taille de page par défaut est 100. |
page_token |
La valeur next_page_token renvoyée par une requête "List" précédente, le cas échéant. |
filter |
Limite les magasins renvoyés à ceux correspondant à un filtre. Syntaxe : https://cloud.google.com/appengine/docs/standard/python/search/query_strings Seul le filtrage sur les libellés est accepté, par exemple |
ListDictationStoresResponse
Répertorie les éléments Dictation stores
dans l'ensemble de données considéré.
Champs | |
---|---|
dictation_stores[] |
Les magasins de dictées renvoyés. Le nombre de magasins de dictées ne peut pas être supérieur à la valeur de page_size dans la requête. |
next_page_token |
Jeton permettant d'extraire la page suivante des résultats. La valeur est nulle si la liste ne contient plus de résultats. |
ListDictationsRequest
Répertorie les Dictations
dans le Dictation store
spécifié.
Champs | |
---|---|
parent |
Nom du magasin de dictées à partir duquel les dictées doivent être extraites. L'autorisation Google IAM suivante est requise pour la ressource
|
page_size |
Nombre maximal de dictées à renvoyer dans une seule réponse. Si la valeur est zéro, la taille de page par défaut est 100. |
page_token |
La valeur next_page_token renvoyée par une requête "List" précédente, le cas échéant. |
filter |
Limite les dictées renvoyées à celles correspondant à un filtre. Syntaxe : https://cloud.google.com/appengine/docs/standard/python/search/query_strings Les champs/fonctions disponibles pour le filtrage sont les suivants: - use_for_speech_training |
ListDictationsResponse
Répertorie les Dictations
dans le Dictation store
spécifié.
Champs | |
---|---|
dictation_names[] |
Les noms de dictées renvoyés. Le nombre de valeurs ne sera pas supérieur à la valeur page_size dans la requête. |
next_page_token |
Jeton permettant d'extraire la page suivante des résultats. La valeur est nulle si la liste ne contient plus de résultats. |
ListNotesRequest
Champs | |
---|---|
parent |
Nom de la dictée à partir de laquelle récupérer les notes. L'autorisation Google IAM suivante est requise pour la ressource
|
page_size |
Nombre maximum de notes à renvoyer dans une seule réponse. Si la valeur est zéro, la taille de page par défaut est 100. |
page_token |
La valeur next_page_token renvoyée par une requête "List" précédente, le cas échéant. |
filter |
Limite les notes renvoyées à celles qui correspondent à un filtre. Syntaxe : https://cloud.google.com/appengine/docs/standard/python/search/query_strings Les champs et les fonctions disponibles pour le filtrage sont : - type - origin - speech_config_name - speaker_external_id - speaker_human_name |
ListNotesResponse
Champs | |
---|---|
note_names[] |
Noms des notes renvoyés. Le nombre de valeurs ne sera pas supérieur à la valeur page_size dans la requête. |
next_page_token |
Jeton permettant d'extraire la page suivante des résultats. La valeur est nulle si la liste ne contient plus de résultats. |
ListSpeechConfigsRequest
Répertorie les SpeechConfigs
dans le Dictation store
spécifié.
Champs | |
---|---|
parent |
Nom du magasin de dictées à partir duquel les éléments SpeechConfigs doivent être extraits. L'autorisation Google IAM suivante est requise pour la ressource
|
page_size |
Nombre maximum d'éléments SpeechConfigs à renvoyer dans une seule réponse. Si la valeur est zéro, la taille de page par défaut est 100. |
page_token |
La valeur next_page_token renvoyée par une requête "List" précédente, le cas échéant. |
filter |
Limite les éléments SpeechConfigs renvoyés à ceux correspondant à un filtre. Syntaxe : https://cloud.google.com/appengine/docs/standard/python/search/query_strings Les champs/fonctions disponibles pour le filtrage sont : - speaker_external_id - speaker_human_name |
ListSpeechConfigsResponse
Répertorie les SpeechConfigs
dans le Dictation store
spécifié.
Champs | |
---|---|
speech_config_names[] |
Noms des éléments SpeechConfigs renvoyés. Le nombre de valeurs ne sera pas supérieur à la valeur page_size dans la requête. |
next_page_token |
Jeton permettant d'extraire la page suivante des résultats. La valeur est nulle si la liste ne contient plus de résultats. |
Note
Un objet Note peut représenter des résultats de reconnaissance vocale ou être saisie comme source fiable pour faciliter l'entraînement supplémentaire des modèles de reconnaissance vocale et le stockage des transcriptions corrigées finales.
Champs | |
---|---|
name |
Nom de ressource de l'objet Note, au format |
speech_config_name |
Objet SpeechConfig utilisé pour produire cette note au format |
type |
Type de note. |
origin |
Origine des résultats de la reconnaissance (par exemple, modèle utilisé). |
speech_recognition_results[] |
Liste séquentielle des résultats de transcription correspondant à des parties séquentielles des données audio, par exemple la prise de parole des différents intervenants. |
create_time |
Heure à laquelle l'objet Note a été créé. Définie par le serveur. |
Type
Type de note.
Enums | |
---|---|
TYPE_UNSPECIFIED |
Type non valide ou non spécifié. |
VERBATIM |
Mot à mot pouvant être utilisé comme "vérité terrain" pour la saisie audio. |
CORRECTION |
Corrections apportées à la note générée par un appel à Recognize. |
DRAFT |
Note préliminaire pouvant encore être mise à jour avant de générer une note finale. |
FINAL |
Note finale approuvée. |
AUTO_RECOGNIZED |
Uniquement en sortie. Note générée par un appel à Recognize. Vous ne pouvez pas créer de Note de type Auto_RECOGNIZED avec CreateNote. Vous ne pouvez pas mettre à jour une Note de type AUTO_RECOGNIZED avec UpdateNote. Vous ne pouvez pas mettre à jour une Note avec UpdateNote pour lui attribuer le type AUTO_RECOGNIZED. |
RecognitionAudio
Contient des données audio dans l'encodage spécifié dans RecognitionConfig
. Vous devez fournir la valeur content
ou uri
. Si vous n'en spécifiez aucune ou si vous spécifiez les deux, vous obtenez l'erreur google.rpc.Code.INVALID_ARGUMENT
. Consultez les limites audio pour en savoir plus.
Champs | ||
---|---|---|
Champ d'union audio_source . Correspond à la source audio, qui se présente sous la forme de contenu intégré ou d'un URI Cloud Storage. audio_source ne peut être qu'un des éléments suivants : |
||
content |
Les octets de données audio sont encodés comme spécifié dans |
|
uri |
URI qui pointe vers un fichier contenant des octets de données audio, comme spécifié dans |
RecognitionConfig
Fournit à l'outil de reconnaissance des informations qui spécifient comment traiter la requête.
Champs | |
---|---|
encoding |
Encodage des données audio envoyées dans tous les messages |
sample_rate_hertz |
Taux d'échantillonnage en hertz des données audio envoyées dans tous les messages |
audio_channel_count |
Nombre de canaux dans les données audio d'entrée. Ne définissez ce champ QUE pour la reconnaissance MULTICANAL. Les valeurs valides pour LINEAR16 et FLAC sont comprises entre |
enable_separate_recognition_per_channel |
Ce champ doit être explicitement défini sur "true" et audio_channel_count doit être supérieur à 1 pour que chaque canal soit reconnu séparément. Le résultat de la reconnaissance contiendra un champ channel_tag indiquant le canal auquel il appartient. Si la valeur est différente de "true", nous ne reconnaîtrons que le premier canal. |
language_code |
Langue de l'audio fourni en tant que tag de langue BCP-47. Exemple : "en-US". Consultez la section Langues acceptées pour obtenir la liste des codes de langue actuellement compatibles. |
context_phrases[] |
Liste de chaînes contenant des mots et des expressions qui fournissent des indications afin que la reconnaissance vocale soit plus susceptible de les reconnaître. Cette liste permet d'améliorer la précision de certains termes et phrases, notamment dans des commandes spécifiques généralement prononcées par l'utilisateur. Elle offre également la possibilité d'ajouter des mots supplémentaires au vocabulaire de l'outil de reconnaissance. |
model |
Modèle à sélectionner pour la requête donnée. Si un modèle n'est pas explicitement spécifié, la valeur par défaut "default" est utilisée. |
AudioEncoding
L'encodage des données audio envoyées dans la requête.
Tous les encodages n'acceptent qu'un seul canal (mono) audio.
Pour des résultats optimaux, la source audio doit être enregistrée et transmise grâce à un encodage sans perte (FLAC
ou LINEAR16
). La précision de la reconnaissance vocale peut être réduite si vous enregistrez ou transmettez des données audio à l'aide de codecs induisant une perte, notamment en présence de bruits de fond. Les codecs MULAW
, AMR
, AMR_WB
, OGG_OPUS
et SPEEX_WITH_HEADER_BYTE
sont des exemples de codecs induisant une perte.
Les fichiers audio FLAC
et WAV
comprennent un en-tête décrivant le contenu audio inclus. Vous pouvez demander une reconnaissance pour les fichiers WAV
qui contiennent des données audio encodées au format LINEAR16
ou MULAW
. Si vous envoyez le format de fichier audio FLAC
ou WAV
dans votre requête, vous n'avez pas besoin de spécifier un AudioEncoding
; le format d'encodage audio est déterminé à partir de l'en-tête du fichier. Si vous spécifiez une valeur AudioEncoding
lorsque vous envoyez des données audio FLAC
ou WAV
, la configuration de codage doit correspondre au codage décrit dans l'en-tête audio. Sinon, la requête renvoie un code d'erreur google.rpc.Code.INVALID_ARGUMENT
.
Enums | |
---|---|
ENCODING_UNSPECIFIED |
Non spécifié. |
LINEAR16 |
Échantillons little-endian de 16 bits signés et non compressés (LPCM). |
FLAC |
L'encodage FLAC (Free Lossless Audio Codec, codec audio sans perte gratuit) est recommandé du fait de son absence de perte. Ainsi, la reconnaissance n'est pas compromise et ne nécessite qu'environ la moitié de la bande passante par rapport à l'encodage LINEAR16 . L'encodage de flux FLAC accepte les échantillons 16 bits et 24 bits. Il n'est toutefois pas compatible avec tous les champs de STREAMINFO . |
MULAW |
Échantillons de 8 bits compressant des échantillons audio 14 bits qui utilisent la norme G.711 PCMU/MULAW. |
AMR |
Codec bande étroite AMR. La valeur sample_rate_hertz doit être de 8 000. |
AMR_WB |
Codec large bande AMR. La valeur sample_rate_hertz doit être de 16 000. |
OGG_OPUS |
Trames audio encodées au format Opus dans un conteneur Ogg (OggOpus). La valeur sample_rate_hertz doit être définie sur 8 000, 12 000, 16 000, 24 000 ou 48 000. |
SPEEX_WITH_HEADER_BYTE |
Bien que l'utilisation d'encodages avec perte ne soit pas recommandée, OGG_OPUS est largement privilégié par rapport à Speex lorsqu'un encodage à très faible débit est requis. L'encodage Speex accepté par l'API Cloud Speech comporte un octet d'en-tête dans chaque bloc, comme dans le type MIME audio/x-speex-with-header-byte . Il s'agit d'une variante de l'encodage Speex RTP défini dans le RFC 5574. Le flux est une séquence de blocs qui correspondent chacun à un paquet RTP. Chaque bloc commence par un octet qui contient sa longueur exprimée en octets, suivie d'une ou de plusieurs trames de données Speex complétées jusqu'à atteindre un nombre entier d'octets, comme spécifié dans le RFC 5574. En d'autres termes, chaque en-tête RTP est remplacé par un octet unique contenant la longueur du bloc. Seul l'encodage Speex large bande est accepté. La valeur sample_rate_hertz doit être de 16 000. |
RecognizeRequest
Envoie un objet Dictation
au moteur de reconnaissance vocale. Crée un enregistrement Note
et l'ajoute à Dictation
.
Champs | |
---|---|
name |
Nom de ressource des données de dictée à transcrire. L'autorisation Google IAM suivante est requise pour la ressource
|
speech_config_name |
Configuration SpeechConfig à utiliser dans la requête de reconnaissance. La configuration de la reconnaissance vocale peut être fournie sous la forme d'un chemin REST complet : L'autorisation Google IAM suivante est requise pour la ressource
|
enable_voice_actions |
Détermine si le moteur de reconnaissance vocale doit rechercher des commandes vocales. |
RecognizeResponse
Réponse finale de la méthode Recognize sur un objet Dictation
. Cette structure sera incluse dans le champ google.longrunning.Operation.result.response
pour décrire le résultat détaillé de l'exécution de l'opération Recognize
. Elle ne sera incluse que lorsque l'exécution est terminée.
Champs | |
---|---|
note_name |
Nom de ressource de |
RecognizedAction
Commande vocale détectée lors de la reconnaissance.
Les commandes possibles sont répertoriées dans le tableau ci-dessous.
Commande vocale | RecognizedAction |
Sélection de texte. Exemple : Sélectionner l'hémoglobine pour le patient |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
Supprimer la sélection de texte. Par exemple, désélectionnez ceci |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
Supprimer le dernier énoncé ou la phrase actuelle Par exemple, annuler |
{ "action_name": "Undo", "confidence": 0.8 } |
Insérer une nouvelle ligne Par exemple, nouvelle ligne |
{ "action_name": "NewLine", "confidence": 1.0 } |
Insérer un nouveau paragraphe Par exemple, nouveau paragraphe |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
Déplacer le curseur vers un mot précédent Exemple : Insérer avant hémoglobine |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
Déplacer le curseur Par exemple, aller à la fin de la phrase. |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
Créer une liste à l'endroit où se situe le curseur Exemple : Insérer numéro 1 pa faible |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
Champs | |
---|---|
action_name |
Nom de la commande détectée. |
confidence |
Estimation de fiabilité comprise entre 0,0 et 1,0. Un nombre plus élevé indique une probabilité plus élevée qu'il s'agisse de la commande vocale spécifiée. |
params[] |
Liste des paramètres de la commande détectée. |
RecognizedActionParameter
Représente un paramètre de commande.
Champs | |
---|---|
parameter_name |
Nom du paramètre d'action, par exemple |
value |
Valeur du paramètre d'action, par exemple |
SpeechConfig
Enregistrement de configuration pour prendre en charge l'entraînement et l'adaptation. Les locuteurs humains réels peuvent partager une configuration SpeechConfig ou posséder chacun des configurations distinctes.
Champs | |
---|---|
name |
Nom de ressource de l'objet Config, au format |
recognition_config |
Fournit à l'outil de reconnaissance des informations qui spécifient comment traiter la requête. |
speaker_external_id |
ID dans un système externe pouvant être utilisé pour sélectionner une configuration particulière. |
speaker_human_name |
Nom humain lorsqu'il est fourni. |
SpeechRecognitionResult
Résultat de reconnaissance vocale correspondant à une partie des données audio.
Champs | |
---|---|
transcript |
Uniquement en sortie. Texte de transcription représentant les mots prononcés par l'utilisateur. |
confidence |
Uniquement en sortie. Estimation de fiabilité comprise entre 0,0 et 1,0. Un nombre élevé indique une plus grande probabilité estimée que les mots reconnus soient corrects. La précision de ce champ n'est pas garantie. Les utilisateurs ne devraient pas s'attendre à ce qu'il soit toujours fourni. La valeur par défaut de 0,0 est une valeur sentinelle indiquant que la valeur |
words[] |
Uniquement en sortie. Liste d'informations spécifiques au mot pour chaque mot reconnu. |
channel_tag |
Avec des données audio multicanaux, il s'agit du numéro de canal correspondant au résultat reconnu pour les données audio provenant de ce canal. Si audio_channel_count = N, les valeurs de sortie peuvent aller de "1" à "N". |
action |
Commande vocale détectée lors de la reconnaissance. |
StreamingRecognitionResult
Résultat de reconnaissance vocale correspondant à une partie des données audio en cours de traitement.
Champs | |
---|---|
speech_recognition_result |
Uniquement en sortie. Résultats incrémentiels de la reconnaissance vocale. Les résultats peuvent toujours changer tant que |
is_final |
Uniquement en sortie. Si le champ est défini sur |
stability |
Uniquement en sortie. Une estimation de la probabilité que l'outil de reconnaissance ne modifie pas sa supposition relative au résultat provisoire. Les valeurs s'étendent de 0,0 (complètement instable) à 1,0 (complètement stable). Ce champ n'est fourni que pour les résultats provisoires ( |
StreamingRecognizeRequest
Message de premier niveau envoyé par le client pour la méthode [StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize]. Plusieurs messages StreamingRecognizeRequest
sont envoyés. Le premier message doit contenir un message stream_setup_info
et ne doit pas contenir de données audio_content
. Tous les messages suivants doivent contenir des données audio_content
et pas de message stream_setup_info
.
Champs | ||
---|---|---|
Champ d'union streaming_request . La requête de flux, qui est une information de configuration de flux ou à du contenu audio. streaming_request ne peut être qu'un des éléments suivants : |
||
stream_setup_info |
Fournit à l'outil de reconnaissance des informations qui spécifient comment traiter la requête. Le premier message |
|
audio_content |
Données audio à reconnaître. Des blocs séquentiels de données audio doivent être envoyés dans des messages |
StreamingRecognizeResponse
StreamingRecognizeResponse
est le seul message renvoyé au client par [StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize]. Une série de zéro messages StreamingRecognizeResponse
ou plus est renvoyée au client. S'il n'y a pas d'audio reconnaissable, et que le champ single_utterance
est défini sur "false", aucun message n'est retransmis au client.
Voici un exemple de série de StreamingRecognizeResponse
pouvant être renvoyées lors du traitement du contenu audio :
results { speech_recognition_result { transcript: "tube" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be a" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be" } stability: 0.9 } results { speech_recognition_result { transcript: " or not to be" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be or not to be" confidence: 0.92 } is_final: true }
results { speech_recognition_result { transcript: " that's" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is" } stability: 0.9 } results { speech_recognition_result { transcript: " the question" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is the question" confidence: 0.98 } is_final: true }
Notes :
Seules deux réponses (n° 4 et n° 7) contiennent des résultats finaux, comme indiqué par le champ
is_final: true
. La concaténation des réponses génère la transcription complète : "to be or not to be that is the question." ("être ou ne pas être telle est la question").Les autres réponses contiennent des
results
intermédiaires. Les réponses n° 3 et 6 contiennent deuxresults
intermédiaires : la première partie présente une grande stabilité et est moins susceptible de changer. La deuxième partie présente une faible stabilité et est très susceptible de changer.Les valeurs
stability
etconfidence
spécifiques indiquées ci-dessus ne sont données qu'à titre d'exemple. Les valeurs réelles peuvent varier.Dans chaque réponse, un seul de ces champs sera défini :
error
,speech_event_type
ou un ou plusieursresults
(répétés).
Champs | |
---|---|
error |
Uniquement en sortie. État d'erreur associé à l'opération de streaming, le cas échéant. |
results[] |
Uniquement en sortie. Cette liste répétée contient zéro résultats ou plus, correspondant à des parties consécutives de l'audio en cours de traitement. Elle contient zéro ou un résultat |
speech_event_type |
Uniquement en sortie. Indique le type d'événement de discours. |
SpeechEventType
Indique le type d'événement de discours.
Énumérations (Enums) | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Aucun événement de discours spécifié. |
END_OF_SINGLE_UTTERANCE |
Cet événement indique que le serveur a détecté la fin de l'énoncé de l'utilisateur et ne s'attend plus à aucune entrée vocale. Le serveur ne traite donc pas de nouvelles données audio (bien qu'il puisse par la suite renvoyer des résultats supplémentaires). Le client doit arrêter d'envoyer des données audio, interrompre à moitié la connexion gRPC, et attendre les résultats supplémentaires jusqu'à ce que le serveur stoppe cette connexion. Cet événement n'est envoyé que si le champ single_utterance est défini sur true et n'est pas utilisé par ailleurs. |
TrainingConsent
Indique le type de consentement donné pour améliorer la reconnaissance vocale.
Enums | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
Aucun consentement n'a été spécifié. |
ALLOW |
Autorisation d'entraînement. |
DISALLOW |
Pas de consentement pour l'entraînement. |
UpdateDictationRequest
Requête de mise à jour de l'élément Dictation
donné.
Champs | |
---|---|
dictation |
Ressource de dictée qui met à jour la ressource sur le serveur. Seuls les champs répertoriés dans update_mask seront requis ou appliqués. L'autorisation Google IAM suivante est requise pour la ressource
|
update_mask |
Le masque de mise à jour s'applique à la ressource. Pour obtenir la définition de |
UpdateDictationStoreRequest
Met à jour l'objet Dictation store
.
Champs | |
---|---|
dictation_store |
Ressource du magasin de dictée qui met à jour la ressource sur le serveur. Seuls les champs répertoriés dans update_mask seront appliqués. L'autorisation Google IAM suivante est requise pour la ressource
|
update_mask |
Le masque de mise à jour s'applique à la ressource. Pour obtenir la définition de |
UpdateNoteRequest
Requête de mise à jour de l'élément Note
donné, par exemple pour mettre à jour SpeechConfig.
Champs | |
---|---|
note |
Ressource de Note qui met à jour la ressource sur le serveur. Seuls les champs répertoriés dans update_mask seront requis ou appliqués. Vous ne pouvez pas mettre à jour une Note de type AUTO_RECOGNIZED. Vous ne pouvez pas mettre à jour une Note pour lui attribuer le type AUTO_RECOGNIZED. L'autorisation Google IAM suivante est requise pour la ressource
|
update_mask |
Le masque de mise à jour s'applique à la ressource. Pour obtenir la définition de |
UpdateSpeechConfigRequest
Requête de mise à jour de l'élément SpeechConfig
donné, par exemple pour mettre à jour la langue.
Champs | |
---|---|
speech_config |
Ressource SpeechConfig qui met à jour la ressource sur le serveur. Seuls les champs répertoriés dans update_mask seront requis ou appliqués. L'autorisation Google IAM suivante est requise pour la ressource
|
update_mask |
Le masque de mise à jour s'applique à la ressource. Pour obtenir la définition de |
WordInfo
Informations spécifiques au mot pour les mots reconnus.
Champs | |
---|---|
start_time_offset |
Uniquement en sortie. Décalage temporel relatif au début des données audio et correspondant au début du mot prononcé. Ce champ n'est défini que si |
end_time_offset |
Uniquement en sortie. Décalage temporel relatif au début des données audio et correspondant à la fin du mot prononcé. Ce champ n'est défini que si |
word |
Uniquement en sortie. Mot correspondant à cet ensemble d'informations. |
confidence |
Uniquement en sortie. Estimation de fiabilité comprise entre 0,0 et 1,0. Un nombre élevé indique une plus grande probabilité estimée que les mots reconnus soient corrects. La précision de ce champ n'est pas garantie. Les utilisateurs ne devraient pas s'attendre à ce qu'il soit toujours fourni. La valeur par défaut de 0,0 est une valeur sentinelle indiquant que la valeur |