Ressource: SpeechConfig
Konfigurationsdatensatz zur Unterstützung von Training und Anpassung. Tatsächliche menschliche Lautsprecher können eine gemeinsame SpeechConfig-Konfiguration haben oder jede hat eigene Konfigurationen.
JSON-Darstellung | |
---|---|
{
"name": string,
"recognitionConfig": {
object ( |
Felder | |
---|---|
name |
Ressourcenname der Notiz im Format |
recognitionConfig |
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung |
speakerExternalId |
ID in einem externen System, mit der eine bestimmte Konfiguration ausgewählt werden kann. |
speakerHumanName |
Menschlicher Name, sofern angegeben. |
RecognitionConfig
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung
JSON-Darstellung | |
---|---|
{
"encoding": enum ( |
Felder | |
---|---|
encoding |
Codierung von Audiodaten, die in allen |
sampleRateHertz |
Sampling-Rate der in allen |
audioChannelCount |
Die Anzahl der Kanäle in den Audioeingabedaten. Legen Sie dies NUR für die MEHRKANAL-Erkennung fest. Gültige Werte für LINEAR16 und FLAC sind |
enableSeparateRecognitionPerChannel |
Dies muss explizit auf "true" und audio_channel_count > 1 festgelegt werden, damit jeder Kanal separat erkannt wird. Das Erkennungsergebnis enthält ein channelTag-Feld, um anzugeben, zu welchem Channel das Ergebnis gehört. Wenn dies nicht "true" ist, wird nur der erste Kanal erkannt. |
languageCode |
Die Sprache der übermittelten Audiodaten, angegeben als BCP-47-Sprachcode. Beispiel: "en-US". Unter Sprachunterstützung finden Sie eine Liste der aktuell unterstützten Sprachcodes. |
contextPhrases[] |
Eine Liste von Strings, die Wörter und Wortgruppen "Hinweise" enthalten, damit die Spracherkennung sie mit größerer Wahrscheinlichkeit erkennt. Damit können Sie die Genauigkeit für bestimmte Wörter und Wortgruppen verbessern. Dies ist beispielsweise der Fall, wenn bestimmte Befehle normalerweise vom Nutzer gesprochen werden. Lässt sich ebenfalls verwenden, um weitere Wörter zum Vokabular des Erkennungsmoduls hinzuzufügen. |
model |
Auswahl des Modells für die jeweilige Anfrage. Wenn kein Modell explizit angegeben ist, wird der Standardwert "default" verwendet. |
AudioEncoding
Die Codierung der Audiodaten, die in der Anfrage gesendet wurden.
Bei allen Codierungen werden nur Audiodaten mit einem Kanal unterstützt (Mono).
Die besten Ergebnisse erzielen Sie, wenn Sie die Audioquelle mit einer verlustfreien Codierung wie FLAC
oder LINEAR16
aufnehmen und übertragen. Die Genauigkeit der Spracherkennung kann beeinträchtigt sein, wenn zum Erfassen oder Übertragen der Audiodaten verlustbehaftete Codecs verwendet werden, insbesondere bei Hintergrundrauschen. Zu verlustbehafteten Codecs gehören MULAW
, AMR
, AMR_WB
, OGG_OPUS
und SPEEX_WITH_HEADER_BYTE
.
Die Audiodateiformate FLAC
und WAV
enthalten einen Header, der den enthaltenen Audioinhalt beschreibt. Sie können die Erkennung für WAV
-Dateien anfordern, die mit LINEAR16
oder MULAW
codierte Audiodaten enthalten. Wenn Sie in Ihrer Anfrage das Audiodateiformat FLAC
oder WAV
senden, müssen Sie kein AudioEncoding
festlege. Das Audiocodierungsformat wird aus dem Dateiheader bestimmt. Wenn Sie beim Senden von FLAC
- oder WAV
-Audiodaten eine AudioEncoding
angeben, muss die Codierungskonfiguration mit der im Audioheader beschriebenen Codierung übereinstimmen. Andernfalls gibt die Anfrage den Fehlercode google.rpc.Code.INVALID_ARGUMENT
zurück.
Enums | |
---|---|
ENCODING_UNSPECIFIED |
Nicht angegeben. |
LINEAR16 |
Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM). |
FLAC |
FLAC (Free Lossless Audio Codec) ist die empfohlene Codierung, da sie verlustfrei ist, sodass die Erkennung nicht beeinträchtigt wird und nur etwa die Hälfte der Bandbreite von LINEAR16 benötigt. Die Streamcodierung FLAC unterstützt 16-Bit- und 24-Bit-Samples, jedoch werden nicht alle Felder in STREAMINFO unterstützt. |
MULAW |
8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law. |
AMR |
Adaptiver Codec für Multi-Rate-Schmalband. sampleRateHertz muss 8.000 betragen. |
AMR_WB |
Adaptiver Codec für Multi-Rate-Breitband. sampleRateHertz muss 16.000 betragen. |
OGG_OPUS |
Opuscodierte Audioframes im Ogg-Container (OggOpus). Die sampleRateHertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen. |
SPEEX_WITH_HEADER_BYTE |
Die Verwendung verlustbehafteter Codierungen wird zwar nicht empfohlen, aber wenn eine Codierung mit sehr niedriger Bitrate erforderlich ist, ist OGG_OPUS gegenüber einer Speex-Codierung klar vorzuziehen. Die von der Cloud Speech API unterstützte Speex-Codierung hat in jedem Block ein Header-Byte, wie im MIME-Typ audio/x-speex-with-header-byte . Es ist eine Variante der in RFC 5574 definierten RTP Speex-Codierung. Der Stream besteht aus einer Abfolge von Blöcken, ein Block pro RTP-Paket. Jeder Block beginnt mit einem Byte, aus dem die Länge des Blocks in Byte hervorgeht, gefolgt von einem oder mehreren Frames an Speex-Daten, die gemäß RFC 5574 auf eine ganzzahlige Anzahl von Byte (Oktetten) aufgefüllt werden. Mit anderen Worten, jeder RTP-Header wird durch ein einzelnes Byte ersetzt, aus dem die Blocklänge hervorgeht. Es wird ausschließlich Speex-Breitband unterstützt. sampleRateHertz muss 16.000 sein. |
Methoden |
|
---|---|
|
Erstellt einen neuen SpeechConfig |
|
Löscht ein SpeechConfig oder gibt NOT_FOUND zurück, wenn es nicht vorhanden ist. |
|
Ruft eine SpeechConfig -Konfiguration ab. |
|
Listet alle SpeechConfigs im angegebenen Dictation store auf und unterstützt dabei die Filterung. |
|
Aktualisiert den SpeechConfig . |