Übersicht: benutzerdefinierte Sprachmodelle

Mit benutzerdefinierten Speech-to-Text-Modellen können Sie Spracherkennungsmodelle auf Ihre spezifischen Anforderungen abstimmen. Dieser Dienst wurde entwickelt, um die Accuracy und Relevanz des Spracherkennungsdienstes in verschiedenen Umgebungen und Anwendungsfällen über Ihre fachspezifischen Audio- und Textdaten zu verbessern.

Benutzerdefinierte Speech-to-Text-Modelle sind sowohl über die Google Cloud Console als auch über unsere API zugänglich und ermöglichen das Trainieren, Evaluieren und Bereitstellen eines dedizierten Sprachmodells in einer integrierten Umgebung ohne Code. Für das Training können Sie einfach nur Audiodaten bereitstellen, die für Ihre Audiobedingungen repräsentativ sind, ohne Referenztranskriptionen als Trainings-Dataset zu benötigen. Sie müssen jedoch Audiodaten und deren Referenztranskriptionen als Teil des Bewertungs-Datasets bereitstellen.

Das Erstellen und Verwenden eines benutzerdefinierten Speech-to-Text-Modells umfasst die folgenden Schritte:

  1. Bereiten Sie Trainingsdaten vor und laden Sie diese in einen Cloud Storage-Bucket hoch.
  2. Trainieren Sie ein neues benutzerdefiniertes Modell.
  3. Benutzerdefiniertes Modell über Endpunkte bereitstellen und verwalten.
  4. Verwenden und bewerten Sie Ihr benutzerdefiniertes Modell in Ihrer Anwendung.

Funktionsweise

Sie können benutzerdefinierte Speech-to-Text-Modelle verwenden, um ein Basistranskriptionsmodell zu erweitern und die Transkriptionserkennung zu verbessern. Bestimmte Audiobedingungen wie Sirenen, Musik und übermäßige Hintergrundgeräusche können zu akustischen Herausforderungen führen. Dies gilt auch für bestimmte Akzente und ungewöhnliches Vokabular, darunter Produktnamen.

Benutzerdefinierte Speech-to-Text-Modell verwenden eine vortrainierte, konforme Architektur als Basismodell, das mit proprietären Daten in häufig gesprochener Sprache trainiert wurde. Während des Trainingsprozesses wird das Basismodell optimiert. Dazu wird ein erheblicher Prozentsatz der ursprünglichen Gewichtungen angepasst, um die Erkennung des domainspezifischen Vokabulars und der Audiobedingungen zu verbessern, die für Ihre Anwendung spezifisch sind.

Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells müssen Sie Folgendes bereitstellen:

  • Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder Audio mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die erste Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und des Vokabulars umfassend erlernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
  • Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit. Weitere Informationen zum erwarteten Format und zu den Grundwahrheiten-Konventionen finden Sie in unserer Anleitung zur Datenvorbereitung.

Nach einem erfolgreichen Training können Sie ein benutzerdefiniertes Speech-to-Text-Modell mit einem Klick an einem Endpunkt bereitstellen und es direkt über die Cloud Speech-to-Text V2 API für Inferenz und Benchmarking verwenden.

Unterstützte Modelle, Sprachen und Regionen

Benutzerdefinierte Speech-to-Text-Modelle unterstützen die folgenden Kombinationen aus Modellen, Sprachen und Lokalen für das Training:

Sprache (BCP-47) Basismodell

Deutsch (Deutschland)

de-DE

latest_long

Englisch (Australien)

en-AU

latest_long

Englisch (Großbritannien)

en-GB

latest_long

Englisch (Indien)

en-IN

latest_long

Englisch (USA)

en-US

latest_long

Spanisch (USA)

es-US

latest_long

Spanisch (Spanien)

es-ES

latest_long

Französisch (Kanada)

fr-CA

latest_long

Französisch (Frankreich)

fr-FR

latest_long

Hindi (Indien)

hi-IN

latest_long

Italienisch (Italien)

it-IT

latest_long

Japanisch (Japan)

ja-JP

latest_long

Koreanisch (Südkorea)

ko-KR

latest_long

Niederländisch (Niederlande)

nl-NL

latest_long

Portugiesisch (Brasilien)

pt-BR

latest_long

Portugiesisch (Portugal)

pt-PT

latest_long

Außerdem bieten wir Trainings- und Bereitstellungshardware in verschiedenen Regionen an, um die Anforderungen an den Datenstandort zu erfüllen. Dedizierte Hardware wird für folgende Kombinationen von Modellen und Regionen unterstützt:

Basismodell Google Cloud-Region Unterstützte Aufgaben

latest_long

us-east1

Training und Bereitstellung

latest_long

europe-west4

Training und Bereitstellung

Kontingent

Für das Training von benutzerdefinierten Speech-to-Text-Modellen sollte jedes Google Cloud-Projekt ein ausreichendes Standardkontingent haben, um mehrere Trainingsjobs gleichzeitig auszuführen zu können. Außerdem sollte es die Anforderungen der meisten Projekte ohne zusätzliche Anpassungen erfüllen. Wenn Sie jedoch eine höhere Anzahl gleichzeitiger Trainingsjobs ausführen müssen oder umfangreichere Labeling- oder Rechenressourcen benötigen, können Sie zusätzliche Kontingente anfordern.

Bei einem benutzerdefinierten Speech-to-Text-Modell, das eine Endpunktbereitstellung bereitstellt, hat jeder Endpunkt ein theoretisches Limit von 20 Abfragen pro Sekunde (QPS, Queries Per Second). Wenn ein höherer Durchsatz erforderlich ist, fordern Sie zusätzliche Bereitstellungskontingente an.

Preise

Das Erstellen und Verwenden eines benutzerdefinierten Speech-to-Text-Modells ist mit bestimmten Kosten verbunden, die hauptsächlich auf den Ressourcen basieren, die für das Training und die nachfolgende Bereitstellung des Modells verwendet werden. Genauer verursacht das benutzerdefinierte Speech-to-Text-Modell in einem typischen Modelllebenszyklus folgende Kosten:

  • Training: Ihnen wird die Anzahl der Modelltrainingsstunden in Rechnung gestellt. Diese Zeit ist proportional zur Menge der Audiostunden im Trainings-Dataset. In der Regel dauert das Training ein Zehntel der Anzahl der Audiostunden im Dataset.
  • Bereitstellung: Ihnen wird jede Stunde in Rechnung gestellt, in der ein Modell auf einem Endpunkt bereitgestellt wird.
  • Inferenz: Ihnen wird die Anzahl der gestreamten Sekunden Audio für die Transkription in Rechnung gestellt, gemäß der allgemeinen Abrechnung für Speech-to-Text.

Für eine effektive Budgetierung und Ressourcenzuweisung ist es wichtig, diese Kosten zu verstehen. Weitere Informationen finden Sie im Abschnitt „Benutzerdefinierte Speech-to-Text-Modelle“ unter Preise für Cloud Speech-to-Text.

Nächste Schritte

Nutzen Sie die folgenden Ressourcen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu nutzen: