Index
DictationService
(Benutzeroberfläche)CreateDictationRequest
(Meldung)CreateDictationStoreRequest
(Meldung)CreateNoteRequest
(Meldung)CreateSpeechConfigRequest
(Meldung)DeleteDictationRequest
(Meldung)DeleteDictationStoreRequest
(Meldung)DeleteNoteRequest
(Meldung)DeleteSpeechConfigRequest
(Meldung)Dictation
(Meldung)DictationStore
(Meldung)GetDictationRequest
(Meldung)GetDictationStoreRequest
(Meldung)GetNoteRequest
(Meldung)GetSpeechConfigRequest
(Meldung)ListDictationStoresRequest
(Meldung)ListDictationStoresResponse
(Meldung)ListDictationsRequest
(Meldung)ListDictationsResponse
(Meldung)ListNotesRequest
(Meldung)ListNotesResponse
(Meldung)ListSpeechConfigsRequest
(Meldung)ListSpeechConfigsResponse
(Meldung)Note
(Meldung)Note.Type
(Aufzählung)RecognitionAudio
(Meldung)RecognitionConfig
(Meldung)RecognitionConfig.AudioEncoding
(Aufzählung)RecognizeRequest
(Meldung)RecognizeResponse
(Meldung)RecognizedAction
(Meldung)RecognizedActionParameter
(Meldung)SpeechConfig
(Meldung)SpeechRecognitionResult
(Meldung)StreamingRecognitionResult
(Meldung)StreamingRecognizeRequest
(Meldung)StreamingRecognizeResponse
(Meldung)StreamingRecognizeResponse.SpeechEventType
(enum)TrainingConsent
(enum)UpdateDictationRequest
(Meldung)UpdateDictationStoreRequest
(Meldung)UpdateNoteRequest
(Meldung)UpdateSpeechConfigRequest
(Meldung)WordInfo
(Meldung)
DictationService
Ein Dienst zur Bearbeitung von medizinischen Diktieranfragen. Dictation Data werden zusammen mit anderen Gesundheitsmodalitäten in Datasets gespeichert. Jedes Dataset kann null oder mehr Datenspeicher für Modalitäten haben, z. B. dictation stores
. Diktat-Audio (Dictations
) und transkribierte Ergebnisse (Notes
) sind die beiden Hauptdatentypen, die in Diktierspeichern gespeichert werden. SpeechConfigs
codieren die für die automatische Spracherkennung verwendeten Parameter.
CreateDictation | |
---|---|
Erstellt einen neuen
|
CreateDictationStore | |
---|---|
Erstellt ein neues
|
CreateNote | |
---|---|
Erstellt einen neuen
|
CreateSpeechConfig | |
---|---|
Erstellt einen neuen
|
DeleteDictation | |
---|---|
Löscht ein
|
DeleteDictationStore | |
---|---|
Löscht das angegebene
|
DeleteNote | |
---|---|
Löscht ein vorhandenes
|
DeleteSpeechConfig | |
---|---|
Löscht ein
|
GetDictation | |
---|---|
Erstellt einen
|
GetDictationStore | |
---|---|
Ruft das angegebene
|
GetIamPolicy | |
---|---|
Ruft die Zugriffssteuerungsrichtlinie für eine Ressource ab. Gibt den NOT_FOUND-Fehler zurück, wenn die Ressource nicht vorhanden ist. Gibt eine leere Richtlinie zurück, wenn die Ressource vorhanden ist, aber keine Richtlinie festgelegt wurde. Zur Autorisierung ist die Google IAM-Berechtigung
|
GetNote | |
---|---|
Erstellt einen
|
GetSpeechConfig | |
---|---|
Ruft eine
|
ListDictationStores | |
---|---|
Listet das
|
ListDictations | |
---|---|
Listet
|
ListNotes | |
---|---|
Listet alle
|
ListSpeechConfigs | |
---|---|
Listet alle
|
Recognize | |
---|---|
Führt eine asynchrone Spracherkennung durch und empfängt Ergebnisse über die Schnittstelle
|
SetIamPolicy | |
---|---|
Legt die Zugriffssteuerungsrichtlinie für eine Ressource fest. Ersetzt jede vorhandene Richtlinie. Zur Autorisierung ist die Google IAM-Berechtigung
|
StreamingRecognize | |
---|---|
Führt eine bidirektionale Streaming-Spracherkennung durch, die es dem Client ermöglicht, beim Senden von Audiodaten Ergebnisse zu erhalten. Diese Methode ist nur über die gRPC API und nicht über REST verfügbar. Die über diese Methode gesendeten Audiodaten werden zu dem in der Anfrage angegebenen
|
TestIamPermissions | |
---|---|
Gibt die Berechtigungen des Aufrufers für die angegebene Ressource zurück. Ist die Ressource nicht vorhanden, wird ein leerer Berechtigungssatz zurückgegeben, kein NOT_FOUND-Fehler. Für diesen API-Aufruf ist keine Berechtigung erforderlich.
|
UpdateDictation | |
---|---|
Aktualisiert den
|
UpdateDictationStore | |
---|---|
Aktualisiert die angegebene
|
UpdateNote | |
---|---|
Aktualisiert den
|
UpdateSpeechConfig | |
---|---|
Aktualisiert den
|
CreateDictationRequest
Erstellt einen Dictation
-Datensatz mit Audiobeispielen und fügt ihn Dictation store
hinzu.
Felder | |
---|---|
parent |
Der Name des Diktierspeichers, zu dem dieses Diktat gehört. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
dictation |
Zu erstellendes Diktat |
return_mask |
Die Rückgabemaske gilt für die zurückgegebene Diktierressource. Informationen zur |
CreateDictationStoreRequest
Erstellt einen neuen Dictation store
Felder | |
---|---|
parent |
Der Name des Datasets, zu dem dieser Diktatspeicher gehört. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
dictation_store_id |
Die ID des Diktierspeichers, der gerade erstellt wird. Der String muss dem folgenden regulären Ausdruck entsprechen: |
dictation_store |
Konfigurationsinformationen für diesen Diktatspeicher |
CreateNoteRequest
Erstellt einen Note
-Datensatz und fügt ihn zuDictation
hinzu.
Felder | |
---|---|
parent |
Der Name des Diktats, zu dem diese Notiz gehört. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
note |
Hinweis zum Erstellen. |
return_mask |
Die Aktualisierungsmaske gilt für die zurückgegebene Notizressource. Informationen zur |
CreateSpeechConfigRequest
Erstellt einen SpeechConfig
-Datensatz mit Erkennungskonfiguration und fügt ihn Dictation store
hinzu.
Felder | |
---|---|
parent |
Der Name des Diktierspeichers, zu dem diese Sprachkonfiguration gehört. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
speech_config |
SpeechConfig. |
DeleteDictationRequest
Löscht einen Dictation
aus dem angegebenen Dictation store
.
Felder | |
---|---|
name |
Der Ressourcenname des zu löschenden Diktats. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
DeleteDictationStoreRequest
Löscht die angegebene Dictation store
Felder | |
---|---|
name |
Der Ressourcenname des zu löschenden Diktierspeichers. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
DeleteNoteRequest
Felder | |
---|---|
name |
Der Ressourcenname der zu löschenden Notiz. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
DeleteSpeechConfigRequest
Löscht eine SpeechConfig
-Konfiguration aus dem angegebenen Dictation store
.
Felder | |
---|---|
name |
Der Ressourcenname der zu löschenden SpeechConfig-Konfiguration. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
Diktat
Ein Audio-Diktat.
Felder | |
---|---|
name |
Ressourcenname des Diktats im Format |
audio |
Bei Rückgabe in der GetDictation-Antwort enthält er Audioinhalte in binärer Darstellung. Das Audiofeld ist in den Antworten CreateDictation und UpdateDictation nicht enthalten. |
create_time |
Nur Ausgabe Der Zeitpunkt, an dem das Diktat erstellt wurde. |
training_consent |
Geben Sie ALLOW an, um die Verwendung dieses Diktats und seiner Notizen zur Verbesserung der Spracherkennung zu ermöglichen. Dieser Wert überschreibt den Wert des Felds "training_consent" im übergeordneten DictationStore. Wenn dieser Wert weggelassen wird, wird der Wert des Felds "training_consent" in DictationStore verwendet. |
DictationStore
Ein Diktierspeicher, in dem andere diktierbezogene Ressourcen wie Diktate, Notizen und SpeechConfigs
gespeichert werden können.
Felder | |
---|---|
name |
Nur Ausgabe Ressourcenname des Diktierspeichers im Format |
pubsub_topic |
Das Cloud Pub/Sub-Thema, in dem Benachrichtigungen über Änderungen an Diktaten und Notizen veröffentlicht werden. PubsubMessage.Data enthält den Ressourcennamen "Dictation" oder "Note". PubsubMessage.Attributes enthält eine Zuordnung mit einem String, der die Aktion beschreibt, die die Benachrichtigung ausgelöst hat, z. B. "action":"CreateDictation". Benachrichtigungen werden nur gesendet, wenn das Thema nicht leer ist. Themennamen müssen einem Projekt zugeordnet sein. Diese API muss über Publisher-Berechtigungen für das angegebene Cloud Pub/Sub-Thema verfügen. Wenn Sie keine entsprechenden Berechtigungen haben, schlagen die Aufrufe, die Benachrichtigungen senden, fehl. Wird vom Client bereitgestellt. |
training_consent |
Geben Sie ALLOW an, um die Verwendung von Ressourcen in diesem Speicher zur Verbesserung der Spracherkennung zuzulassen. Mit dem Feld Dictation.training_consent, das den im zugehörigen DictationStore angegebenen Wert überschreibt, können für jedes Dictation-Objekt Ausschlüsse festgelegt werden. Wird dies nicht angegeben, wird dies als DISALLOW behandelt. |
labels |
Vom Nutzer bereitgestellte Schlüssel/Wert-Paare zur Organisation von Diktatspeichern. Labelschlüssel müssen zwischen 1 und 63 Zeichen lang sein, eine UTF-8-Codierung von maximal 128 Byte aufweisen und dem folgenden regulären PCRE-Ausdruck entsprechen: [\ p {TL} \ p {Lo}][\ p {P} \ p {Lo} \ p {N} _-]{0,62} Labelwerte sind optional, müssen zwischen 1 und 63 Zeichen lang sein, eine UTF-8-Codierung von maximal 128 Byte aufweisen und dem folgenden regulären PCRE-Ausdruck entsprechen: [\ p {TL} \ p {Lo} \ p {N } _-]{0,63} Einem bestimmten Shop können maximal 64 Labels zugeordnet werden. |
GetDictationRequest
Ruft ein Dictation
vom angegebenen Dictation store
ab.
Felder | |
---|---|
name |
Der Ressourcenname des abzurufenden Diktats. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
GetDictationStoreRequest
Erstellt einen Dictation store
.
Felder | |
---|---|
name |
Der Ressourcenname des abzurufenden Diktierspeichers. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
GetNoteRequest
Felder | |
---|---|
name |
Der Ressourcenname der abzurufenden Notiz. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
GetSpeechConfigRequest
Ruft einen SpeechConfig
-Datensatz aus dem angegebenen Dictation store
ab.
Felder | |
---|---|
name |
Der Ressourcenname der abzurufenden SpeechConfig-Konfiguration. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
ListDictationStoresRequest
Listet das Dictation stores
im angegebenen Dataset auf.
Felder | |
---|---|
parent |
Name des Datasets Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
page_size |
Beschränken Sie die Anzahl der Diktatspeicher, die in einer einzelnen Antwort zurückgegeben werden sollen. Bei null wird die Standardseitengröße von 100 verwendet. |
page_token |
Der Wert "next_page_token" wurde gegebenenfalls von einer vorherigen Listenanfrage zurückgegeben. |
filter |
Beschränkt die auf einen Filter zurückgegebenen Speicher. Syntax: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Nur das Filtern nach Labels wird unterstützt, z. B. |
ListDictationStoresResponse
Listet das Dictation stores
im angegebenen Dataset auf.
Felder | |
---|---|
dictation_stores[] |
Das zurückgegebene Diktat wird gespeichert. Nicht mehr Diktatspeicher als der Wert von page_size in der Anfrage. |
next_page_token |
Token zum Abrufen der nächsten Ergebnisseite. Leer, wenn keine weiteren Ergebnisse in der Liste vorhanden sind. |
ListDictationsRequest
Listet die Dictations
im angegebenen Dictation store
auf.
Felder | |
---|---|
parent |
Name des Diktatspeichers, aus dem die Diktate abgerufen werden sollen. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
page_size |
Begrenzen Sie die Anzahl der Diktate, die in einer einzelnen Antwort zurückgegeben werden sollen. Bei null wird die Standardseitengröße von 100 verwendet. |
page_token |
Der Wert "next_page_token" wurde gegebenenfalls von einer vorherigen Listenanfrage zurückgegeben. |
filter |
Schränkt die Diktate ein, die mit einem Filter übereinstimmen. Syntax: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Folgende Felder/Funktionen können gefiltert werden: - use_for_speech_training |
ListDictationsResponse
Listet die Dictations
im angegebenen Dictation store
auf.
Felder | |
---|---|
dictation_names[] |
Die zurückgegebenen Diktatnamen. Es werden nicht mehr Werte als der Wert von page_size in der Anfrage angegeben. |
next_page_token |
Token zum Abrufen der nächsten Ergebnisseite. Leer, wenn keine weiteren Ergebnisse in der Liste vorhanden sind. |
ListNotesRequest
Felder | |
---|---|
parent |
Name des Diktats, von dem Notizen abgerufen werden sollen. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
page_size |
Beschränken Sie die Anzahl der Notizen, die in einer einzelnen Antwort zurückgegeben werden sollen. Bei null wird die Standardseitengröße von 100 verwendet. |
page_token |
Der Wert "next_page_token" wurde gegebenenfalls von einer vorherigen Listenanfrage zurückgegeben. |
filter |
Beschränkt die Notizen, die mit einem Filter übereinstimmen. Syntax: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Folgende Felder/Funktionen können gefiltert werden: - type - origin --sprech_konfigurationsname - lautsprechermuster_external_id - lautsprechermuster_name |
ListNotesResponse
Felder | |
---|---|
note_names[] |
Die zurückgegebenen Notizennamen. Es werden nicht mehr Werte als der Wert von page_size in der Anfrage angegeben. |
next_page_token |
Token zum Abrufen der nächsten Ergebnisseite. Leer, wenn keine weiteren Ergebnisse in der Liste vorhanden sind. |
ListSpeechConfigsRequest
Listet die SpeechConfigs
im angegebenen Dictation store
auf.
Felder | |
---|---|
parent |
Name des Diktatspeichers, von dem SpeechConfigs abgerufen werden sollen. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
page_size |
Beschränken Sie die Anzahl der SpeechConfigs, die in einer einzelnen Antwort zurückgegeben werden sollen. Bei null wird die Standardseitengröße von 100 verwendet. |
page_token |
Der Wert "next_page_token" wurde gegebenenfalls von einer vorherigen Listenanfrage zurückgegeben. |
filter |
Schränkt SpeechConfigs ein, die an diejenigen zurückgegeben werden, die einem Filter entsprechen. Syntax: https://cloud.google.com/appengine/docs/standard/python/search/query_strings Folgende Felder/Funktionen können gefiltert werden: - lautsprecher_external_id - lautsprechername |
ListSpeechConfigsResponse
Listet die SpeechConfigs
im angegebenen Dictation store
auf.
Felder | |
---|---|
speech_config_names[] |
Die zurückgegebenen SpeechConfigs-Namen. Es werden nicht mehr Werte als der Wert von page_size in der Anfrage angegeben. |
next_page_token |
Token zum Abrufen der nächsten Ergebnisseite. Leer, wenn keine weiteren Ergebnisse in der Liste vorhanden sind. |
Hinweis
Die Notiz kann Spracherkennungsergebnisse darstellen oder als Wahrheitsquelle eingegeben werden, um das zusätzliche Training der Spracherkennungsmodelle sowie die Speicherung von korrigierten Transkriptionen zu erleichtern.
Felder | |
---|---|
name |
Ressourcenname der Notiz im Format |
speech_config_name |
SpeechConfig, die verwendet wird, um diese Notiz im Format |
type |
Notiztyp |
origin |
Ursprung der Erkennungsergebnisse, z. B. des verwendeten Modells |
speech_recognition_results[] |
Sequenzielle Liste von Transkriptionsergebnissen, die den sequenziellen Teilen von Audiodaten entsprechen, z. B. Teile von Audiodaten, die von Sprechern gesprochen werden, die sich abwechselnd in einem Dialogfeld befinden. |
create_time |
Die Zeit, zu dem die Notiz erstellt wurde. Wird vom Server festgelegt. |
Typ
Art der Notiz
Enums | |
---|---|
TYPE_UNSPECIFIED |
Ungültiger oder nicht angegebener Typ |
VERBATIM |
Wörtliche Notiz, die als "Bodenwahrheit" für diktierte Audiodateien verwendet werden kann. |
CORRECTION |
Korrekturen an der Notiz, die durch einen Aufruf von Recognize generiert wurde. |
DRAFT |
Notizenentwurf, der noch aktualisiert werden kann, bevor eine endgültige Notiz erstellt wird. |
FINAL |
Abschließende genehmigte Notiz |
AUTO_RECOGNIZED |
Nur Ausgabe Notiz, die durch einen Aufruf von Recognize generiert wurde. Eine Notiz vom Typ AUTOMATISCH ERKANNT kann nicht mit CreateNote erstellt werden. Eine Notiz vom Typ Auto_RECOGNIZED kann nicht mit UpdateNote aktualisiert werden. Eine Notiz kann nicht mit UpdateNote aktualisiert werden, um den Typ AUTOMATISCH ERKANNT zu haben. |
RecognitionAudio
Enthält Audiodaten in der in RecognitionConfig
angegebenen Codierung. Es muss entweder content
oder uri
angegeben werden. Wenn Sie beide oder keine Werte angeben, wird google.rpc.Code.INVALID_ARGUMENT
zurückgegeben. Siehe Audiobeschränkungen.
Felder | ||
---|---|---|
Union-Feld audio_source Die Audioquelle, bei der es sich um Inline-Content oder einen Cloud Storage-URI handelt. Für audio_source ist nur einer der folgenden Werte zulässig: |
||
content |
Die in |
|
uri |
URI, der auf eine Datei verweist, die Audiodatenbyte enthält, wie in |
RecognitionConfig
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung.
Felder | |
---|---|
encoding |
Codierung von Audiodaten, die in allen |
sample_rate_hertz |
Sampling-Rate der in allen |
audio_channel_count |
Die Anzahl der Kanäle in den Audioeingabedaten. Legen Sie dies NUR für die MEHRKANAL-Erkennung fest. Gültige Werte für LINEAR16 und FLAC sind |
enable_separate_recognition_per_channel |
Dies muss explizit auf "true" und audio_channel_count > 1 festgelegt werden, damit jeder Kanal separat erkannt wird. Das Erkennungsergebnis enthält das Feld "channel_tag", das darüber Aufschluss gibt, zu welchem Kanal das jeweilige Ergebnis gehört. Wenn es nicht auf "true" gesetzt ist, wird nur der erste Kanal erkannt. |
language_code |
Die Sprache der übermittelten Audiodaten, angegeben als BCP-47-Sprachcode. Beispiel: "en-US". Unter Sprachunterstützung finden Sie eine Liste der aktuell unterstützten Sprachcodes. |
context_phrases[] |
Eine Liste von Strings, die Wörter und Wortgruppen "Hinweise" enthalten, damit die Spracherkennung sie mit größerer Wahrscheinlichkeit erkennt. Kann zur Verbesserung der Genauigkeit für bestimmte Wörter und Wendungen verwendet werden, z. B. wenn der Nutzer bestimmte Befehle häufig spricht. Lässt sich ebenfalls verwenden, um weitere Wörter zum Vokabular des Erkennungsmoduls hinzuzufügen. |
model |
Auswahl des Modells für die jeweilige Anfrage. Wenn kein Modell explizit angegeben ist, wird der Standardwert "default" verwendet. |
AudioEncoding
Die Codierung der Audiodaten, die in der Anfrage gesendet wurden.
Bei allen Codierungen werden nur Audiodaten mit einem Kanal unterstützt (Mono).
Für optimale Ergebnisse sollte die Audioquelle mit einer verlustfreien Codierung (FLAC
oder LINEAR16
) erfasst und übertragen werden. Die Genauigkeit der Spracherkennung kann reduziert werden, wenn verlustbehaftete Codecs zum Erfassen oder Übertragen von Audio verwendet werden, insbesondere wenn Hintergrundgeräusche vorhanden sind. Zu verlustbehafteten Codecs gehören MULAW
, AMR
, AMR_WB
, OGG_OPUS
und SPEEX_WITH_HEADER_BYTE
.
Die Audiodateiformate FLAC
und WAV
enthalten einen Header, der den enthaltenen Audioinhalt beschreibt. Sie können die Erkennung für WAV
-Dateien anfordern, die mit LINEAR16
oder MULAW
codierte Audiodaten enthalten. Wenn Sie in Ihrer Anfrage das Audiodateiformat FLAC
oder WAV
senden, müssen Sie kein AudioEncoding
festlege. Das Audiocodierungsformat wird aus dem Dateiheader bestimmt. Wenn Sie beim Senden von FLAC
- oder WAV
-Audiodaten eine AudioEncoding
angeben, muss die Codierungskonfiguration mit der im Audioheader beschriebenen Codierung übereinstimmen. Andernfalls gibt die Anfrage den Fehlercode google.rpc.Code.INVALID_ARGUMENT
zurück.
Enums | |
---|---|
ENCODING_UNSPECIFIED |
Nicht angegeben. |
LINEAR16 |
Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM). |
FLAC |
Als Codierung wird FLAC (Free Lossless Audio Codec) empfohlen, da sie verlustfrei arbeitet, sodass die Erkennung nicht beeinträchtigt wird, und nur etwa halb so viel Bandbreite wie LINEAR16 benötigt. Die Streamcodierung FLAC unterstützt 16-Bit- und 24-Bit-Samples, jedoch werden nicht alle Felder in STREAMINFO unterstützt. |
MULAW |
8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law. |
AMR |
Adaptiver Codec für Multi-Rate-Schmalband. sample_rate_hertz muss 8.000 betragen. |
AMR_WB |
Adaptiver Codec für Multi-Rate-Breitband. sample_rate_hertz muss 16.000 betragen. |
OGG_OPUS |
Opuscodierte Audioframes im Ogg-Container (OggOpus). Die sample_rate_hertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen. |
SPEEX_WITH_HEADER_BYTE |
Die Verwendung verlustbehafteter Codierungen wird zwar nicht empfohlen, aber wenn eine Codierung mit sehr niedriger Bitrate erforderlich ist, ist OGG_OPUS gegenüber einer Speex-Codierung klar vorzuziehen. Die von der Cloud Speech API unterstützte Speex-Codierung hat in jedem Block ein Header-Byte, wie im MIME-Typ audio/x-speex-with-header-byte . Es handelt sich um eine Variante der in RFC 5574 definierten RTP Speex-Codierung. Der Stream besteht aus einer Abfolge von Blöcken, ein Block pro RTP-Paket. Jeder Block beginnt mit einem Byte, aus dem die Länge des Blocks in Byte hervorgeht, gefolgt von einem oder mehreren Frames an Speex-Daten, die gemäß RFC 5574 auf eine ganzzahlige Anzahl von Byte (Oktetten) aufgefüllt werden. Mit anderen Worten, jeder RTP-Header wird durch ein einzelnes Byte ersetzt, aus dem die Blocklänge hervorgeht. Es wird ausschließlich Speex-Breitband unterstützt. sample_rate_hertz muss 16.000 sein. |
RecognizeRequest
Sendet ein Dictation
an die Spracherkennungs-Engine. Erstellt einen Note
-Datensatz und fügt ihn zuDictation
hinzu.
Felder | |
---|---|
name |
Der Ressourcenname des zu transkribierenden Diktats. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
speech_config_name |
SpeechConfig-Konfiguration für die Erkennungsanfrage. Die Sprachkonfiguration kann als vollständiger REST-Pfad bereitgestellt werden: Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
enable_voice_actions |
Legt fest, ob das Erkennungsmodul nach Sprachbefehlen suchen soll. |
RecognizeResponse
Endgültige Antwort der Recognize-Methode auf eine Dictation
. Diese Struktur wird in google.longrunning.Operation.result.response
aufgenommen, um das detaillierte Ergebnis der Recognize
-Ausführung zu beschreiben. Es wird erst eingeschlossen, wenn die Ausführung abgeschlossen ist.
Felder | |
---|---|
note_name |
Der Ressourcenname des |
RecognizedAction
Die während der Erkennung erkannte Sprachbedienung.
Die möglichen Aktionen sind in der folgenden Tabelle aufgeführt.
Sprachbefehl | RecognizedAction |
Textauswahl Wählen Sie z. B. Hämoglobin für den Patienten aus |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
Textauswahl entfernen Beispiel: Deaktivieren Sie diese Option |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
Letzte Äußerung oder aktuellen Satz löschen Beispiel: Rückgängig machen |
{ "action_name": "Undo", "confidence": 0.8 } |
Neue Zeile einfügen Beispiel: neue Zeile |
{ "action_name": "NewLine", "confidence": 1.0 } |
Neuen Absatz einfügen Beispiel: Neuer Absatz |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
Cursor zum vorherigen Wort bewegen Beispiel: Vor Hämoglobin einfügen |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
Textcursor verschieben Beispiel: Gehe zum Ende des Satzes. |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
Erstellen Sie eine Liste, in der sich der Cursor befindet Beispiel: Einfügen der Nummer 1, niedriger bp |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
Felder | |
---|---|
action_name |
Name der erkannten Aktion. |
confidence |
Eine Konfidenzschätzung zwischen 0,0 und 1,0. Eine höhere Zahl bedeutet, dass dies die angegebene Sprachbedienung ist. |
params[] |
Liste der Parameter für die erkannte Aktion. |
RecognizedActionParameter
Stellt einen Aktionsparameter dar.
Felder | |
---|---|
parameter_name |
Der Name des Aktionsparameters, z. B. |
value |
Der Wert des Aktionsparameters, z. B. |
SpeechConfig
Konfigurationsdatensatz zur Unterstützung von Training und Anpassung. Tatsächliche menschliche Lautsprecher können eine gemeinsame SpeechConfig-Konfiguration haben oder jede hat eigene Konfigurationen.
Felder | |
---|---|
name |
Ressourcenname der Notiz im Format |
recognition_config |
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung |
speaker_external_id |
ID in einem externen System, mit der eine bestimmte Konfiguration ausgewählt werden kann. |
speaker_human_name |
Menschlicher Name, sofern angegeben. |
SpeechRecognitionResult
Ein Spracherkennungsergebnis, das einem Teil der Audiodaten entspricht.
Felder | |
---|---|
transcript |
Nur Ausgabe. Transkriptionstext mit den vom Nutzer gesprochenen Wörtern |
confidence |
Nur Ausgabe. Eine Konfidenzschätzung zwischen 0,0 und 1,0. Je höher der Wert ist, desto höher ist die geschätzte Wahrscheinlichkeit, dass die Wörter korrekt erkannt wurden. Die Genauigkeit dieses Feldes kann nicht garantiert werden und Nutzer sollten sich nicht darauf verlassen, dass es immer zur Verfügung steht. Der Standardwert 0,0 ist ein Sentinel-Wert, der angibt, dass |
words[] |
Nur Ausgabe Eine Liste von wortspezifischen Informationen zu jedem erkannten Wort. |
channel_tag |
Bei Mehrkanalaudio ist dies die Kanalnummer, die dem erkannten Ergebnis für die Audiodaten aus diesem Kanal entspricht. Bei "audio_channel_count" = N können dessen Ausgabewerte zwischen 1 und N liegen. |
action |
Spracherkennung während der Erkennung |
StreamingRecognitionResult
Ein Erkennungsergebnis für gestreamte Sprache, das einem Teil der Audiodaten entspricht, die aktuell verarbeitet werden.
Felder | |
---|---|
speech_recognition_result |
Nur Ausgabe Inkrementelle Ergebnisse der Spracherkennung Die Ergebnisse können sich ändern, solange |
is_final |
Nur Ausgabe Bei |
stability |
Nur Ausgabe Eine Schätzung der Wahrscheinlichkeit dafür, dass die Vermutung im Hinblick auf dieses Zwischenergebnis vom Erkennungsmodul nicht geändert wird. Die Werte reichen von 0,0 (vollständig unzuverlässig) bis 1,0 (vollständig zuverlässig). Dieses Feld wird nur für Zwischenergebnisse ( |
StreamingRecognizeRequest
Die Nachricht auf oberster Ebene, die vom Client für die Methode [StreamingRecognize]
[google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] gesendet wird. Es werden mehrere StreamingRecognizeRequest
-Nachrichten gesendet. Die erste Nachricht muss eine stream_setup_info
-Nachricht und keine audio_content
-Daten enthalten. Alle nachfolgenden Nachrichten müssen audio_content
-Daten enthalten und dürfen keine stream_setup_info
-Nachrichten enthalten.
Felder | ||
---|---|---|
Union-Feld streaming_request Die Streaming-Anfrage, bei der es sich entweder um Streaming-Setup-Informationen oder Audioinhalte handelt. Für streaming_request ist nur einer der folgenden Werte zulässig: |
||
stream_setup_info |
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung. Die erste |
|
audio_content |
Die zu erkennenden Audiodaten. Sequenzielle Blöcke von Audiodaten sollten in sequenziellen |
StreamingRecognizeResponse
StreamingRecognizeResponse
ist die einzige Nachricht, die von [StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] an den Client zurückgegeben wird. Eine Reihe von null oder mehr StreamingRecognizeResponse
-Nachrichten werden an den Client zurückgestreamt. Wenn kein Audio erkannt wird und single_utterance
auf "false" gesetzt ist, werden keine Nachrichten an den Client zurückgestreamt.
Hier sehen Sie ein Beispiel für eine Reihe von StreamingRecognizeResponse
, die bei der Audioverarbeitung zurückgegeben werden können:
results { speech_recognition_result { transcript: "tube" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be a" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be" } stability: 0.9 } results { speech_recognition_result { transcript: " or not to be" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be or not to be" confidence: 0.92 } is_final: true }
results { speech_recognition_result { transcript: " that's" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is" } stability: 0.9 } results { speech_recognition_result { transcript: " the question" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is the question" confidence: 0.98 } is_final: true }
Hinweise:
Nur zwei der Antworten (Nr. 4 und Nr. 7) enthalten endgültige Ergebnisse, wie im Feld
is_final: true
angegeben. Durch die Verkettung der Antworten wird das vollständige Transkript generiert: "sein oder nicht, das ist die Frage."Die anderen Antworten enthalten das vorläufige
results
. #3 und #6 enthalten zwei vorläufigeresults
: Der erste Abschnitt weist eine hohe Stabilität auf und ist weniger anfällig für Änderungen. Der zweite Teil hat eine geringe Stabilität und wird sich wahrscheinlich ändern.Die oben angegebenen spezifischen Werte für
stability
undconfidence
dienen nur zur Veranschaulichung. Die tatsächlichen Werte können davon abweichen.In jeder Antwort wird nur eines der folgenden Felder festgelegt:
error
,speech_event_type
oder eines oder mehrere (wiederholte)results
.
Felder | |
---|---|
error |
Nur Ausgabe Fehlerstatus im Zusammenhang mit Streaming-Vorgang, falls vorhanden. |
results[] |
Nur Ausgabe Diese wiederholte Liste enthält null oder mehr Ergebnisse, die aufeinanderfolgenden Teilen der aktuell bearbeiteten Audiodaten entsprechen. Sie enthält null oder ein |
speech_event_type |
Nur Ausgabe Gibt die Art des Sprachereignisses an. |
SpeechEventType
Gibt die Art des Sprachereignisses an.
Enums | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Kein Sprachereignis angegeben. |
END_OF_SINGLE_UTTERANCE |
Mit diesem Ereignis wird angezeigt, dass vom Server das Ende der sprachlichen Äußerung des Nutzers erkannt wurde und keine weiteren Sprachdaten erwartet werden. Daher werden keine weiteren Audiodaten vom Server verarbeitet (möglicherweise gibt er jedoch noch weitere Ergebnisse aus). Der Client sollte keine weiteren Audiodaten mehr senden, die gRPC-Verbindung in eine Richtung schließen und auf weitere Ergebnisse warten, bis die gRPC-Verbindung vom Server geschlossen wurde. Dieses Ereignis wird nur gesendet, wenn single_utterance auf true festgelegt wurde, und wird ansonsten nicht verwendet. |
TrainingConsent
Gibt die Art der Einwilligung zur Verbesserung der Spracherkennung an.
Enums | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
Es wurde keine Einwilligung angegeben. |
ALLOW |
Einwilligung in das Training |
DISALLOW |
Keine Zustimmung zum Training |
UpdateDictationRequest
Anfrage zur Aktualisierung des angegebenen Dictation
.
Felder | |
---|---|
dictation |
Die Diktierressource, die die Ressource auf dem Server aktualisiert. Nur Felder, die in "update_mask" aufgeführt sind, sind erforderlich oder werden angewendet. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
update_mask |
Die Aktualisierungsmaske gilt für die Ressource. Informationen zur |
UpdateDictationStoreRequest
Aktualisiert den Dictation store
.
Felder | |
---|---|
dictation_store |
Die Ressource für den Diktierspeicher, die die Ressource auf dem Server aktualisiert. Es werden nur die in "update_mask" aufgeführten Felder angewendet. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
update_mask |
Die Aktualisierungsmaske gilt für die Ressource. Informationen zur |
UpdateNoteRequest
Anfrage zur Aktualisierung des angegebenen Note
, z. B. zur Aktualisierung von SpeechConfig.
Felder | |
---|---|
note |
Die Notizressource, die die Ressource auf dem Server aktualisiert. Nur Felder, die in "update_mask" aufgeführt sind, sind erforderlich oder werden angewendet. Eine Notiz vom Typ AUTOMATISCH ERKANNT kann nicht aktualisiert werden. Eine Notiz kann nicht um den AUTO_RECOGNIZED-Typ aktualisiert werden. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
update_mask |
Die Aktualisierungsmaske gilt für die Ressource. Informationen zur |
UpdateSpeechConfigRequest
Anfrage zur Aktualisierung des angegebenen SpeechConfig
, z. B. um die Sprache zu aktualisieren.
Felder | |
---|---|
speech_config |
Die SpeechConfig-Ressource, die die Ressource auf dem Server aktualisiert. Nur Felder, die in "update_mask" aufgeführt sind, sind erforderlich oder werden angewendet. Zur Autorisierung ist die folgende Google IAM-Berechtigung für die angegebene Ressource
|
update_mask |
Die Aktualisierungsmaske gilt für die Ressource. Informationen zur |
WordInfo
Wortspezifische Informationen zu erkannten Wörtern
Felder | |
---|---|
start_time_offset |
Nur Ausgabe. Zeitverschiebung, bezogen auf den Beginn der Audiodaten und entsprechend dem Anfang des gesprochenen Worts. Dieses Feld wird nur bei |
end_time_offset |
Nur Ausgabe. Zeitverschiebung, bezogen auf den Beginn der Audiodaten und entsprechend dem Ende des gesprochenen Worts. Dieses Feld wird nur bei |
word |
Nur Ausgabe. Das Wort, auf das sich diese Informationen beziehen. |
confidence |
Nur Ausgabe. Eine Konfidenzschätzung zwischen 0,0 und 1,0. Je höher der Wert ist, desto höher ist die geschätzte Wahrscheinlichkeit, dass die Wörter korrekt erkannt wurden. Die Genauigkeit dieses Feldes kann nicht garantiert werden und Nutzer sollten sich nicht darauf verlassen, dass es immer zur Verfügung steht. Der Standardwert 0,0 ist ein Sentinel-Wert, der angibt, dass |