Modelle trainieren und verwalten

Sie können die API ohne Code verwenden und ein benutzerdefiniertes Speech-to-Text-Modell erstellen und trainieren, um die Erkennungsgenauigkeit eines vorhandenen Speech-to-Text-Modells zu verbessern. Dieser vollständig verwaltete Dienst stellt automatisch Rechenressourcen bereit, führt den Trainingsanwendungscode aus und sorgt für das Löschen von Rechenressourcen nach dem Trainingsjob. Sie erhalten ein vollständig optimiertes Transkriptionsmodell, das für nachgelagerte Anwendungen nützlich ist.

Ähnlich wie bei Modellen für maschinelles Lernen ist das Training eines benutzerdefinierten Speech-to-Text-Modells in der Regel iterativ. Dazu wird ein Basismodell als Ausgangspunkt ausgewählt, mit Ihren Text- und Audio-Datasets optimiert und dann die Erkennungsqualität des Modells getestet. Wenn die Ergebnisse nicht Ihren Erwartungen entsprechen, trainieren Sie ein neues Modell mit einer anderen Datenmischung, testen es noch einmal oder verwenden es direkt zur Transkription in Ihrer Domain.

Hinweis

Sie müssen sich für ein Google Cloud Konto registriert, ein Google Cloud Projekt erstellt und die Speech-to-Text API aktiviert haben: Rufen Sie in der Google Cloud Console Speech auf und rufen Sie Speech-to-Text API auf. Verwenden Sie den Bereich Benutzerdefinierte Modelle in der Navigationsleiste auf der linken Seite.

Ein benutzerdefiniertes Modell erstellen

Erstellen Sie zuerst ein benutzerdefiniertes Speech-to-Text-Modell und definieren Sie dessen Parameter gemäß Basismodell und Transkriptionssprache:

  1. Klicken Sie auf Erstellen, um ein benutzerdefiniertes Modell zu erstellen.
  2. Geben Sie einen Modellnamen ein, der für die Anzeige verwendet und in Ihren API-Anfragen und in der Google Cloud Speech Console referenziert wird.
  3. Geben Sie eine Beschreibung für das Modell ein.
  4. Wählen Sie ein Basismodell aus, das für Ihren Anwendungsfall am besten geeignet ist.
  5. Wählen Sie die Transkriptionssprache des Modells aus.
  6. Wählen Sie die Region aus, in der das Training stattfinden soll.
  7. Klicken Sie auf Weiter.
Screenshot des Workflows zum Erstellen eines benutzerdefinierten Speech-to-Text-Modells mit den für das benutzerdefinierte Modell erforderlichen Feldern

Um die Definition des Jobs für das benutzerdefinierte Speech-to-Text-Modell abzuschließen und mit dem Training zu beginnen, müssen Sie die Trainings- und Validierungs-Datasets definieren.

  1. Wählen Sie einen Trainingsdatensatz aus, indem Sie einen gültigen Cloud Storage-Verzeichnis-URI angeben. Achten Sie darauf, dass nur Audio- und Textdateien vorhanden sind und dass die Gesamtdauer der Audiodaten den Anforderungen für Trainings-Datasets entspricht.
  2. Wählen Sie einen Validierungs-Dataset aus, indem Sie einen gültigen Cloud Storage-Verzeichnis-URI angeben. Achten Sie darauf, dass nur Audio- und Textdateien vorhanden sind und dass die Gesamtdauer der Audiodaten den Anforderungen für Validierungs-Datasets entspricht.
  3. Klicken Sie auf Erstellen, um den Trainingsprozess zu starten.

Wenn nicht genügend Audiostunden indexiert werden oder die Dateien nicht den Richtlinien entsprechen, schlägt der Trainingsjob fehl.

Screenshot des Workflows zum Erstellen eines benutzerdefinierten Speech-to-Text-Modells mit den Feldern, die für die Trainings- und Validierungs-Datasets des benutzerdefinierten Modells erforderlich sind

Trainingsjobs können in unserem System hinter anderen Jobs anstehen. Das Training eines Modells kann je nach Größe des Datasets einige Stunden bis einige Tage dauern. Nach dem Modelltraining wird der Status als Aktiv gekennzeichnet.

Benutzerdefiniertes Modell löschen

Achten Sie vor Beginn darauf, dass kein Traffic über einen Endpunkt an Ihr benutzerdefiniertes Speech-to-Text-Modell weitergeleitet wird. Wenn Sie es löschen, werden keine Anfragen mehr verarbeitet.

  1. Rufen Sie im Abschnitt Benutzerdefinierte Modelle den Tab Modelle auf.
  2. Klicken Sie, um die Optionen zu maximieren, und klicken Sie dann auf Löschen. Das benutzerdefinierte Speech-to-Text-Modell wird zusammen mit allen zugehörigen Endpunkten in wenigen Momenten gelöscht und stellt keinen Traffic mehr bereit.

Benutzerdefinierte Modelle auflisten

Durch Auswahl der Modelle im Abschnitt Benutzerdefinierte Modelle können Sie auch alle Ihre benutzerdefinierten Speech-to-Text-Modelle auflisten, einschließlich der Modelle, die trainiert werden, aktiv sind oder gelöscht werden.

Screenshot des Workflows für die Liste der benutzerdefinierten Speech-to-Text-Modelle mit einer Tabelle mit allen bereits erstellten benutzerdefinierten Modellen

Nächste Schritte

In den folgenden Ressourcen erfahren Sie, wie Sie benutzerdefinierte Sprachmodelle in Ihrer Anwendung nutzen können: