Modelle trainieren und verwalten

Sie können die API ohne Code verwenden und ein benutzerdefiniertes Speech-to-Text-Modell erstellen und trainieren, um die Erkennungsgenauigkeit eines vorhandenen Cloud Speech-to-Text-Modells zu verbessern. Dieser vollständig verwaltete Dienst stellt automatisch Rechenressourcen bereit, führt den Trainingsanwendungscode aus und sorgt nach dem Trainingsjob für das Löschen von Rechenressourcen. Sie erhalten ein vollständig optimiertes Transkriptionsmodell, das für nachgelagerte Anwendungen nützlich ist.

Ähnlich wie bei Modellen für maschinelles Lernen ist das Training eines benutzerdefinierten Speech-to-Text-Modells in der Regel iterativ. Es umfasst die Auswahl eines Basismodells als Ausgangspunkt, die Optimierung mit Ihren Text- und Audio-Datasets und das Testen der Erkennungsqualität des Modells. Wenn die Ergebnisse nicht Ihren Erwartungen entsprechen, trainieren Sie ein neues Modell mit einer anderen Mischung von Daten, testen es noch einmal oder verwenden es direkt zur Transkription in Ihrer Domain.

Vorbereitung

Prüfen Sie, ob Sie sich für ein Google Cloud -Konto registriert, ein Google Cloud-Projekt erstellt und die Cloud Speech-to-Text API aktiviert haben: Rufen Sie in derGoogle Cloud Console Speech und dann die Cloud Speech-to-Text API auf. Arbeiten Sie im Bereich Benutzerdefinierte Modelle der Navigationsleiste auf der linken Seite.

Benutzerdefiniertes Modell erstellen

Erstellen Sie zuerst ein benutzerdefiniertes Speech-to-Text-Modell und definieren Sie dessen Parameter, z. B. das Basismodell und die Transkriptionssprache:

  1. Klicken Sie auf Erstellen, um ein benutzerdefiniertes Modell zu erstellen.
  2. Geben Sie einen Modellnamen ein, der für die Anzeige verwendet und in Ihren API-Anfragen und der Google Cloud Speech-Konsole referenziert wird.
  3. Geben Sie eine Beschreibung für das Modell ein.
  4. Wählen Sie ein Basismodell aus, das am besten für Ihren Anwendungsfall geeignet ist.
  5. Wählen Sie die Sprache der Transkription für das Modell aus.
  6. Wählen Sie die Region aus, in der das Training stattfinden soll.
  7. Klicken Sie auf Weiter.
Screenshot des Workflows zum Erstellen eines benutzerdefinierten Speech-to-Text-Modells mit den erforderlichen Feldern

Um die Definition des Jobs für das benutzerdefinierte Speech-to-Text-Modell abzuschließen und das Training zu starten, müssen Sie die Trainings- und Validierungs-Datasets festlegen.

  1. Wählen Sie ein Trainings-Dataset aus, indem Sie einen gültigen Cloud Storage-Verzeichnis-URI angeben. Achten Sie darauf, dass nur Audio- und Textdateien vorhanden sind und dass die Gesamtdauer der Audiodaten den Anforderungen für Trainings-Datasets entspricht.
    1. Wählen Sie ein Validierungs-Dataset aus, indem Sie einen gültigen Cloud Storage-Verzeichnis-URI angeben. Achten Sie darauf, dass nur Audio- und Textdateien vorhanden sind und dass die Gesamtdauer der Audiodaten den Anforderungen für Validierungs-Datasets entspricht.
      1. Klicken Sie auf Erstellen, um den Trainingsprozess zu starten.

Wenn nicht genügend Stunden an Audiodaten indexiert wurden oder die Dateien nicht den Richtlinien entsprechen, schlägt der Trainingsjob fehl.

Screenshot des Workflows zum Erstellen eines benutzerdefinierten Speech-to-Text-Modells mit den erforderlichen Feldern für die Trainings- und Validierungs-Datasets

Trainingsjobs können in unserem System hinter anderen Jobs in die Warteschlange eingereiht werden. Das Trainieren eines Modells kann je nach Dataset-Größe einige Stunden bis einige Tage dauern. Nach dem Modelltraining wird der Status des Modells als Aktiv gekennzeichnet.

Benutzerdefiniertes Modell löschen

Bevor Sie beginnen, prüfen Sie, ob Traffic über einen Endpunkt an Ihr benutzerdefiniertes Speech-to-Text-Modell weitergeleitet wird. Wenn Sie das Modell löschen, können keine Anfragen mehr darüber verarbeitet werden.

  1. Rufen Sie im Bereich Benutzerdefinierte Modelle den Tab Modelle auf.
  2. Klicken Sie, um die Optionen zu maximieren, und klicken Sie dann auf Löschen. Das benutzerdefinierte Speech-to-Text-Modell wird umgehend zusammen mit allen zugehörigen Endpunkten gelöscht und stellt keinen Traffic mehr bereit.

Benutzerdefinierte Modelle auflisten

Durch Auswahl der Modelle im Bereich Benutzerdefinierte Modelle können Sie auch alle Ihre benutzerdefinierten Speech-to-Text-Modelle auflisten, einschließlich der Modelle, die trainiert werden, aktiv sind oder gelöscht werden.

Screenshot des Workflows für die Liste benutzerdefinierter Speech-to-Text-Modelle mit einer Tabelle mit allen bereits erstellten benutzerdefinierten Modellen

Weitere Informationen

Folgen Sie den Ressourcen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu nutzen: