Auf dieser Seite wird beschrieben, wie Sie zusätzliche Details über die Audioquelle hinzufügen, die in einer Spracherkennungsanfrage an Speech-to-Text enthalten ist.
In Speech-to-Text gibt es mehrere Modelle für maschinelles Lernen, mit denen aufgezeichnete Audiodaten in Text umgewandelt werden. Jedes dieser Modelle wurde basierend auf spezifischen Eigenschaften der Audioeingangsdaten trainiert, einschließlich des Typs der Audiodatei, des ursprünglichen Aufnahmegeräts, des Abstands des Sprechers vom Aufnahmegerät und der Anzahl der Sprecher in der Audiodatei.
Wenn Sie eine Transkriptionsanfrage an Speech-to-Text senden, können Sie diese zusätzlichen Details über die Audiodaten innerhalb der übermittelten Erkennungsmetadaten angeben. Mithilfe dieser Details kann Speech-to-Text Ihre Audiodaten genauer transkribieren.
Google erfasst diese Metadaten, um die gängigsten Anwendungsfälle für Speech-to-Text zu analysieren und zusammenzufassen. Dies ermöglicht Google, sich bei Verbesserungen von Speech-to-Text auf die häufigsten Anwendungsfälle zu konzentrieren.
Verfügbare Metadatenfelder
Sie können in den Metadaten einer Transkriptionsanfrage die folgenden Felder angeben.
Feld | Typ | Beschreibung |
---|---|---|
interactionType |
ENUM |
Der Anwendungsfall der Audiodaten. |
industryNaicsCodeOfAudio |
Zahl | Die Branche der Audiodatei als sechsstelliger NAICS-Code. |
microphoneDistance |
ENUM |
Der Abstand des Mikrofons vom Sprecher. |
originalMediaType |
ENUM |
Das ursprüngliche Medium des Audiomaterials, entweder reines Audio oder Video. |
recordingDeviceType |
ENUM |
Die Art des für die Audioaufnahme verwendeten Geräts, einschließlich Smartphones, PC-Mikrofonen und Fahrzeugen. |
recordingDeviceName |
String | Das für die Aufzeichnung verwendete Gerät. Dieser beliebig festlegbare String kann Wörter wie "Pixel XL", "VoIP" oder "Nierenmikrofon" enthalten. |
originalMimeType |
String | Der MIME-Typ der ursprünglichen Audiodatei. Beispiele hierfür sind "audio/m4a", "audio/x-alaw-basic", "audio/mp3" und "audio/3gpp". |
obfuscatedId |
String | Die dem Datenschutz unterliegende ID des Nutzers. Diese dient dazu, die Anzahl der einzelnen Nutzer zu bestimmen, die den Dienst verwenden. |
audioTopic |
String | Eine beliebig festlegbare Beschreibung des in der Audiodatei besprochenen Themas. Beispiele sind "Führung durch New York", "Gerichtsverhandlung" oder "Liveinterview zwischen zwei Personen". |
Weitere Informationen über diese Felder finden Sie in der Referenzdokumentation zu RecognitionMetadata
.
Erkennungsmetadaten aktivieren
Wenn Sie einer Spracherkennungsanfrage an die Speech-to-Text API Erkennungsmetadaten hinzufügen möchten, setzen Sie das Feld metadata
der Anfrage auf ein Objekt vom Typ RecognitionMetadata
.
Die Speech-to-Text API unterstützt Erkennungsmetadaten für alle Spracherkennungsmethoden: speech:recognize
, speech:longrunningrecognize
und Streaming. Weitere Informationen zu den Arten von Metadaten, die Sie in einer Anfrage angeben können, finden Sie in der Referenzdokumentation zu RecognitionMetadata
.
Der folgende Code zeigt, wie Sie in einer Transkriptionsanfrage zusätzliche Metadatenfelder angeben.
Protokoll
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize
.
Für eine synchrone Spracherkennung senden Sie eine POST
-Anfrage und geben den entsprechenden Anfragetext an. Das folgende Beispiel zeigt eine POST
-Anfrage mit curl
. In diesem Beispiel wird das Zugriffstoken für ein Dienstkonto verwendet, das mit dem Google Cloud CLI für das Projekt eingerichtet wurde. Anleitungen zur Installation des gcloud
-CLI, zur Einrichtung eines Dienstkontos für ein Projekt und zur Anforderung eines Zugriffstokens finden Sie in der Kurzanleitung.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false, "metadata": { "interactionType": "VOICE_SEARCH", "industryNaicsCodeOfAudio": 23810, "microphoneDistance": "NEARFIELD", "originalMediaType": "AUDIO", "recordingDeviceType": "OTHER_INDOOR_DEVICE", "recordingDeviceName": "Polycom SoundStation IP 6000", "originalMimeType": "audio/mp3", "obfuscatedId": "11235813", "audioTopic": "questions about landmarks in NYC" } }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Weitere Informationen zum Konfigurieren des Anfragetexts erhalten Sie in der Referenzdokumentation zu RecognitionConfig
.
Wenn die Anfrage erfolgreich ist, gibt der Server den HTTP-Statuscode 200 OK
und die Antwort im JSON-Format zurück:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395 } ] } ] }
Node.js
Python