Sie können die API ohne Code verwenden und ein benutzerdefiniertes Speech-to-Text-Modell erstellen und trainieren, um die Erkennungsgenauigkeit eines vorhandenen Speech-to-Text-Modells zu verbessern. Dieser vollständig verwaltete Dienst stellt automatisch Rechenressourcen bereit, führt den Trainingsanwendungscode aus und sorgt für das Löschen von Rechenressourcen nach dem Trainingsjob. Sie erhalten ein vollständig optimiertes Transkriptionsmodell, das für nachgelagerte Anwendungen nützlich ist.
Ähnlich wie bei Modellen für maschinelles Lernen ist das Training eines benutzerdefinierten Speech-to-Text-Modells in der Regel iterativ und umfasst die Auswahl eines Basismodells als Ausgangspunkt, die Feinabstimmung mit Ihren Text- und Audio-Datasets und das Testen der Erkennungsqualität des Modells. Wenn die Ergebnisse nicht Ihren Erwartungen entsprechen, trainieren Sie ein neues Modell mit einer anderen Datenmischung, testen es noch einmal oder verwenden es direkt zur Transkription in Ihrer Domain.
Hinweise
Prüfen Sie, ob Sie sich für ein Google Cloud-Konto registriert, ein Google Cloud-Projekt erstellt und die Speech-to-Text-API aktiviert haben: Rufen Sie in der Google Cloud Console Speech auf und rufen Sie Speech-to-Text-API auf. Sie können die Modelle im Bereich Benutzerdefinierte Modelle in der Navigationsleiste auf der linken Seite ausführen.
Ein benutzerdefiniertes Modell erstellen
Erstellen Sie zuerst ein benutzerdefiniertes Speech-to-Text-Modell und definieren Sie dessen Parameter gemäß Basismodell und Transkriptionssprache:
- Klicken Sie auf Erstellen, um ein benutzerdefiniertes Modell zu erstellen.
- Geben Sie einen Modellnamen ein, der für die Anzeige verwendet und in Ihren API-Anfragen und der Google Cloud Speech-Konsole referenziert wird.
- Geben Sie eine Beschreibung für das Modell ein.
- Wählen Sie ein Basismodell aus, das für Ihren Anwendungsfall am besten geeignet ist.
- Wählen Sie die Transkriptionssprache des Modells aus.
- Wählen Sie die Region aus, in der das Training stattfinden soll.
- Klicken Sie auf Weiter.
Um die Definition des benutzerdefinierten Speech-to-Text-Modelljobs abzuschließen und das Training zu starten, müssen Sie die Trainings- und Validierungs-Datasets definieren.
- Wählen Sie ein Trainings-Dataset aus. Geben Sie dazu einen gültigen Cloud Storage-Verzeichnis-URI an. Achten Sie darauf, dass nur Audio- und Textdateien vorhanden sind und dass die Gesamtdauer der Audios den Anforderungen für Trainings-Datasets entspricht.
- Wählen Sie ein Validierungs-Dataset aus. Geben Sie dazu einen gültigen Cloud Storage-Verzeichnis-URI an. Achten Sie darauf, dass nur Audio- und Textdateien vorhanden sind und dass die Gesamtdauer der Audiodaten den Anforderungen für Validierungs-Datasets entspricht.
- Klicken Sie auf Erstellen, um den Trainingsprozess zu starten.
Wenn nicht genügend Audiostunden indexiert sind oder die Dateien nicht den Richtlinien entsprechen, schlägt der Trainingsjob fehl.
Trainingsjobs können hinter anderen Jobs in unserem System in die Warteschlange gestellt werden. Das Training eines Modells kann je nach Dataset-Größe einige Stunden bis zu einigen Tagen dauern. Nach dem Training des Modells wird der Status als Aktiv gekennzeichnet.
Benutzerdefiniertes Modell löschen
Sorgen Sie zuerst dafür, dass kein Traffic über einen beliebigen Endpunkt an Ihr benutzerdefiniertes Speech-to-Text-Modell weitergeleitet wird, da durch das Löschen keine Anfragen mehr verarbeitet werden.
- Rufen Sie im Abschnitt Benutzerdefinierte Modelle den Tab Modelle auf.
- Klicken Sie, um die Optionen zu maximieren, und klicken Sie dann auf Löschen. Nach kurzer Zeit wird das benutzerdefinierte Speech-to-Text-Modell mit allen Endpunkten gelöscht und stellt keinen Traffic mehr bereit.
Benutzerdefinierte Modelle auflisten
Durch Auswahl der Modelle im Abschnitt Benutzerdefinierte Modelle können Sie auch alle Ihre benutzerdefinierten Speech-to-Text-Modelle auflisten, einschließlich der Modelle, die trainiert werden, aktiv sind oder gelöscht werden.
Nächste Schritte
Nutzen Sie die folgenden Ressourcen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu nutzen:
- Modellendpunkte bereitstellen und verwalten.
- Eigene Modelle verwenden
- Benutzerdefinierte Modelle bewerten