REST-Ressource: projects.locations.datasets.dictationStores.speechConfigs

Ressource: SpeechConfig

Konfigurationsdatensatz zur Unterstützung von Training und Anpassung. Tatsächliche menschliche Lautsprecher können eine gemeinsame SpeechConfig-Konfiguration haben oder jede hat eigene Konfigurationen.

JSON-Darstellung

{
  "name": string,
  "recognitionConfig": {
    object (RecognitionConfig)
  },
  "speakerExternalId": string,
  "speakerHumanName": string
}
Felder
name

string

Ressourcenname der Notiz im Format projects/{project_id}/locations/{locationId}/datasets/{datasetId}/dictationStores/{dictationStoreId}/speechConfigs/{speech_config_id}. Vom Server zugewiesen.

recognitionConfig

object (RecognitionConfig)

Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung

speakerExternalId

string

ID in einem externen System, mit der eine bestimmte Konfiguration ausgewählt werden kann.

speakerHumanName

string

Menschlicher Name, sofern angegeben.

RecognitionConfig

Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung

JSON-Darstellung

{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": number,
  "audioChannelCount": number,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "contextPhrases": [
    string
  ],
  "model": string
}
Felder
encoding

enum (AudioEncoding)

Codierung von Audiodaten, die in allen RecognitionAudio-Nachrichten gesendet werden. Dieses Feld ist für Audiodateien vom Typ FLAC und WAV optional und für alle anderen Audioformate erforderlich. Weitere Informationen finden Sie unter AudioEncoding.

sampleRateHertz

number

Sampling-Rate der in allen RecognitionAudio-Nachrichten gesendeten Audiodaten in Host. Gültige Werte sind: 8.000-48.000. 16.000 ist optimal. Stellen Sie die Abtastrate der Audioquelle auf 16.000 Hz ein, um die besten Ergebnisse zu erzielen. Falls dies nicht möglich ist, verwenden Sie die native Abtastrate der Audioquelle (anstatt eine erneute Abtastung durchzuführen). Dieses Feld ist für Audiodateien vom Typ FLAC und WAV optional und für alle anderen Audioformate erforderlich. Weitere Informationen finden Sie unter AudioEncoding.

audioChannelCount

number

Die Anzahl der Kanäle in den Audioeingabedaten. Legen Sie dies NUR für die MEHRKANAL-Erkennung fest. Gültige Werte für LINEAR16 und FLAC sind 1 bis 8. Gültige Werte für OGG_OPUS sind "1" bis "254". Als Wert für MULAW, AMR, AMR_WB und SPEEX_WITH_HEADER_BYTE ist nur 1 gültig. Wird der Wert auf 0 gesetzt oder weggelassen, wird standardmäßig ein Kanal (Mono) verwendet. HINWEIS: Standardmäßig wird nur der erste Kanal erkannt. Wenn Sie eine unabhängige Erkennung für jeden Kanal ausführen möchten, setzen Sie "enableSeparateRecognitionPerChannel" auf "true".

enableSeparateRecognitionPerChannel

boolean

Dies muss explizit auf "true" und audio_channel_count > 1 festgelegt werden, damit jeder Kanal separat erkannt wird. Das Erkennungsergebnis enthält ein channelTag-Feld, um anzugeben, zu welchem Channel das Ergebnis gehört. Wenn dies nicht "true" ist, wird nur der erste Kanal erkannt.

languageCode

string

Die Sprache der übermittelten Audiodaten, angegeben als BCP-47-Sprachcode. Beispiel: "en-US". Unter Sprachunterstützung finden Sie eine Liste der aktuell unterstützten Sprachcodes.

contextPhrases[]

string

Eine Liste von Strings, die Wörter und Wortgruppen "Hinweise" enthalten, damit die Spracherkennung sie mit größerer Wahrscheinlichkeit erkennt. Damit können Sie die Genauigkeit für bestimmte Wörter und Wortgruppen verbessern. Dies ist beispielsweise der Fall, wenn bestimmte Befehle normalerweise vom Nutzer gesprochen werden. Lässt sich ebenfalls verwenden, um weitere Wörter zum Vokabular des Erkennungsmoduls hinzuzufügen.

model

string

Auswahl des Modells für die jeweilige Anfrage. Wenn kein Modell explizit angegeben ist, wird der Standardwert "default" verwendet.

AudioEncoding

Die Codierung der Audiodaten, die in der Anfrage gesendet wurden.

Bei allen Codierungen werden nur Audiodaten mit einem Kanal unterstützt (Mono).

Die besten Ergebnisse erzielen Sie, wenn Sie die Audioquelle mit einer verlustfreien Codierung wie FLAC oder LINEAR16 aufnehmen und übertragen. Die Genauigkeit der Spracherkennung kann beeinträchtigt sein, wenn zum Erfassen oder Übertragen der Audiodaten verlustbehaftete Codecs verwendet werden, insbesondere bei Hintergrundrauschen. Zu verlustbehafteten Codecs gehören MULAW, AMR, AMR_WB, OGG_OPUS und SPEEX_WITH_HEADER_BYTE.

Die Audiodateiformate FLAC und WAV enthalten einen Header, der den enthaltenen Audioinhalt beschreibt. Sie können die Erkennung für WAV-Dateien anfordern, die mit LINEAR16 oder MULAW codierte Audiodaten enthalten. Wenn Sie in Ihrer Anfrage das Audiodateiformat FLAC oder WAV senden, müssen Sie kein AudioEncoding festlege. Das Audiocodierungsformat wird aus dem Dateiheader bestimmt. Wenn Sie beim Senden von FLAC- oder WAV-Audiodaten eine AudioEncoding angeben, muss die Codierungskonfiguration mit der im Audioheader beschriebenen Codierung übereinstimmen. Andernfalls gibt die Anfrage den Fehlercode google.rpc.Code.INVALID_ARGUMENT zurück.

Enums
ENCODING_UNSPECIFIED Nicht angegeben.
LINEAR16 Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM).
FLAC FLAC (Free Lossless Audio Codec) ist die empfohlene Codierung, da sie verlustfrei ist, sodass die Erkennung nicht beeinträchtigt wird und nur etwa die Hälfte der Bandbreite von LINEAR16 benötigt. Die Streamcodierung FLAC unterstützt 16-Bit- und 24-Bit-Samples, jedoch werden nicht alle Felder in STREAMINFO unterstützt.
MULAW 8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law.
AMR Adaptiver Codec für Multi-Rate-Schmalband. sampleRateHertz muss 8.000 betragen.
AMR_WB Adaptiver Codec für Multi-Rate-Breitband. sampleRateHertz muss 16.000 betragen.
OGG_OPUS Opuscodierte Audioframes im Ogg-Container (OggOpus). Die sampleRateHertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen.
SPEEX_WITH_HEADER_BYTE Die Verwendung verlustbehafteter Codierungen wird zwar nicht empfohlen, aber wenn eine Codierung mit sehr niedriger Bitrate erforderlich ist, ist OGG_OPUS gegenüber einer Speex-Codierung klar vorzuziehen. Die von der Cloud Speech API unterstützte Speex-Codierung hat in jedem Block ein Header-Byte, wie im MIME-Typ audio/x-speex-with-header-byte. Es ist eine Variante der in RFC 5574 definierten RTP Speex-Codierung. Der Stream besteht aus einer Abfolge von Blöcken, ein Block pro RTP-Paket. Jeder Block beginnt mit einem Byte, aus dem die Länge des Blocks in Byte hervorgeht, gefolgt von einem oder mehreren Frames an Speex-Daten, die gemäß RFC 5574 auf eine ganzzahlige Anzahl von Byte (Oktetten) aufgefüllt werden. Mit anderen Worten, jeder RTP-Header wird durch ein einzelnes Byte ersetzt, aus dem die Blocklänge hervorgeht. Es wird ausschließlich Speex-Breitband unterstützt. sampleRateHertz muss 16.000 sein.

Methoden

create

Erstellt einen neuen SpeechConfig

delete

Löscht ein SpeechConfig oder gibt NOT_FOUND zurück, wenn es nicht vorhanden ist.

get

Ruft eine SpeechConfig-Konfiguration ab.

list

Listet alle SpeechConfigs im angegebenen Dictation store auf und unterstützt dabei die Filterung.

patch

Aktualisiert den SpeechConfig.