Universal Speech Model (USM)

Das Universal Speech Model (USM) ist die nächste Generation von Speech-to-Text-Modellen von Google. Diese Modelle stellen das Ergebnis der langjährigen Arbeit von Forschungsteams bei Google dar. Jetzt ist unsere erste Iteration des USM verfügbar. Die aktuellen Modelle sind jedoch noch der Anfang für ein spannendes neues Set von Modellen und Forschungsarbeiten, die regelmäßig neue Funktionen ermöglichen. Im Laufe des Angebots werden möglicherweise Modellaktualisierungen und zusätzliche Modell-IDs zu USM angezeigt.

Universelle Sprachmodelle werden mit einer anderen Architektur als unsere aktuellen Sprachmodelle trainiert. Ein einzelnes Modell enthält Daten aus vielen verschiedenen Sprachen. Trotz der Vereinheitlichung von Trainingsdaten und Modell müssen Sie die Sprache angeben, in der das Modell versuchen soll, Sprache zu erkennen. Das USM unterstützt einige der Google Speech-Funktionen nicht, die andere Modelle haben. Eine vollständige Liste finden Sie weiter unten. Das Modell kann auch eine andere Ausgabe produzieren als andere Google Speech-Modelle.

Modell-Kennzeichnungen

Das USM ist in der Cloud Speech-to-Text API Version 2 verfügbar. Sie können es wie jedes andere Modell nutzen.

Die Modell-ID für das USM-Modell lautet usm.

Sie können dieses Modell beim Erstellen einer Erkennung angeben, um das Universal Speech Model (USM) zu nutzen.

Preise

In der privaten Vorschau ist die Nutzung des USM kostenlos. Die Preisangaben für das Modell werden später mitgeteilt.

Verfügbare API-Methoden

Universal Speech Models verarbeitet Sprache in viel größeren Batches. Daher eignet es sich möglicherweise nicht für eine tatsächliche „Echtzeit“-Nutzung, wie dies bei anderen Google Speech-to-Text-Modellen der Fall ist. USM ist über die folgenden API-Methoden verfügbar:

  • v2 Speech.Recognize (gut für kurze Audiodaten < 1 Min.)
  • v2 Speech.BatchRecognize (gut für lange Audioinhalte 1 Min. – 8 Stunden)

Das Universal Speech-Modell ist für die folgenden API-Methoden nicht verfügbar:

  • v2 Speech.StreamingRecognize
  • v1 Speech.StreamingRecognize
  • v1 Speech.Recognize
  • v1 Speech.LongRunningRecognize
  • v1p1beta1 Speech.StreamingRecognize
  • v1p1beta1 Speech.Recognize
  • v1p1beta1 Speech.LongRunningRecognize

Sprachen

Sie können die folgenden Sprachcodes übergeben:

  • af-ZA
  • am-ET
  • ar-EG
  • az-AZ
  • be-BY
  • bg-BG
  • bn-BD
  • ca-ES
  • zh-Hans-CN
  • cs-CZ
  • da-DK
  • de-DE
  • el-GR
  • en-AU
  • en-GB
  • en-IN
  • en-US
  • es-US
  • et-EE
  • eu-ES
  • fa-IR
  • fi-FI
  • fil-PH
  • fr-CA
  • fr-FR
  • gl-ES
  • gu-IN
  • iw-IL
  • hi-IN
  • hu-HU
  • hy-AM
  • id-ID
  • is-IS
  • it-IT
  • ja-JP
  • jv-ID
  • ka-GE
  • kk-KZ
  • km-KH
  • kn-IN
  • ko-KR
  • lo-LA
  • lt-LT
  • lv-LV
  • mk-MK
  • ml-IN
  • mn-MN
  • mr-IN
  • ms-MY
  • my-MM
  • no-NO
  • ne-NP
  • nl-NL
  • pa-Guru-IN
  • pl-PL
  • pt-BR
  • ro-RO
  • ru-RU
  • si-LK
  • sk-SK
  • sl-SI
  • sq-AL
  • sr-RS
  • su-ID
  • sv-SE
  • sw
  • ta-IN
  • te-IN
  • th-TH
  • tr-TR
  • uk-UA
  • ur-PK
  • uz-UZ
  • vi-VN
  • yue-Hant-HK
  • zu-ZA
  • as-IN
  • ast-ES
  • bs-BA
  • ceb-PH
  • ckb-IQ
  • cy-GB
  • ha-NG
  • hr-HR
  • kam-KE
  • kea-CV
  • ky-KG
  • lb-LU
  • ln-CD
  • luo-KE
  • mi-NZ
  • mt-MT
  • nso-ZA
  • ny-MW
  • oc-FR
  • or-IN
  • ps-AF
  • sd-IN
  • sn-ZW
  • so-SO
  • tg-TJ
  • wo-SN
  • yo-NG

Funktionsunterstützung und Einschränkungen

Das Universal Speech Model unterstützt derzeit nicht viele der STT API-Features. Weitere Einschränkungen finden Sie unten.

  • Konfidenzwerte: Die API gibt einen Wert zurück, der jedoch kein Konfidenzwert ist.
  • Sprachanpassung: Keine Anpassungsfunktionen unterstützt.
  • Sprecherbestimmung: Die automatische Sprecherbestimmung wird nicht unterstützt. Die Kanaltrennung wird nicht unterstützt.
  • Satzzeichen: Gesprochene Satzzeichen werden nicht unterstützt. Automatische Satzzeichen werden nicht unterstützt.
  • Erzwungene Normalisierung: Nicht unterstützt.
  • Konfidenz auf Wortebene: Nicht unterstützt.
  • Spracherkennung: Wird nicht unterstützt.
  • Wort-Zeitangaben: Nicht unterstützt.

Hinweis zur Satzzeichensetzung

Das in der privaten Vorschau verfügbare USM erzeugt keine Satzzeichen. Dies sollte bei der Auswertung berücksichtigt werden. Wir arbeiten daran, die automatische Zeichensetzung so schnell wie möglich hinzuzufügen, da wir wissen, dass sie für viele Anwendungsfälle, für die sich das USM gut eignet, wichtig ist.

Erste Schritte mit der Cloud Console-UI

  1. Achten Sie darauf, dass Sie sich für ein Google Cloud-Konto registriert und ein Projekt erstellt haben. Sie müssen das Projekt und das Konto verwenden, die für das USM zugelassen wurden.
  2. Rufen Sie in der Google Cloud Console die Seite Speech auf.
  3. Aktivieren Sie die API, falls sie noch nicht aktiviert ist.
  4. STT-Erkennung erstellen, die das Universal Speech Model verwendet

    • Wechseln Sie zum Tab „Erkennung“ und klicken Sie auf „Erstellen“.

      Screenshot der Liste der Speech-to-Text-Erkennung.

    • Geben Sie auf der Seite Erkennung erstellen die erforderlichen Felder für das USM ein.

      Screenshot der Speech-to-Text-Seite „Erkennung erstellen“.

      • Geben Sie dem Erkennungsmodul einen beliebigen Namen.
      • USM ist derzeit nur in der Region us-central1 verfügbar. Wählen Sie region und dann us-central1 aus.
      • Wählen Sie „usm“ als Modell aus. Wenn „usm“ nicht in der Liste der Modelle aufgeführt ist, ist Ihr Projekt nicht zugelassen.
      • Wählen Sie die gewünschte Sprache aus. Für jede zu testende Sprache benötigen Sie ein Erkennungsmodul.
      • Wählen Sie keine anderen Features aus.
  5. Sie benötigen einen STT-UI-Arbeitsbereich in der Region us-central1. Möglicherweise müssen Sie einen neuen Arbeitsbereich erstellen.

    • Rufen Sie die Seite „Transkriptionen“ unter console.cloud.google.com/speech/transcriptions auf.
    • Klicken Sie auf der Seite „Transkriptionen“ auf Neue Transkription.
    • Öffnen Sie das Drop-down-Menü Workspace und klicken Sie auf „Neuer Arbeitsbereich“, um einen Arbeitsbereich für die Transkription zu erstellen.
    • Klicken Sie im seitlichen Navigationsbereich Create a new workspace auf Browse.
    • Klicken Sie auf das neue Bucket-Symbol, um einen Cloud Storage-Bucket zu erstellen, der den Arbeitsbereich darstellt.
    • Geben Sie einen Namen für den Bucket ein und klicken Sie auf „Weiter“.
    • [WICHTIG] Wählen Sie im Drop-down-Menü region und us-central1 aus, damit das Universal Speech-Modell Ihre Audiodaten verarbeiten kann.
    • Klicken Sie auf create, um den Cloud Storage-Bucket zu erstellen.
    • Klicken Sie nach dem Erstellen des Buckets auf select, um den Bucket auszuwählen.
    • Klicken Sie auf create, um die Erstellung des Arbeitsbereichs für die Speech-to-Text-UI abzuschließen.
  6. Führen Sie eine Transkription Ihres Audios durch.

    Screenshot der Speech-to-Text-Transkriptionsseite, auf der die Dateiauswahl oder der Upload angezeigt werden.
    • Wählen Sie auf der Seite „Neue Transkription“ Ihre Audiodatei entweder durch einen Upload („lokaler Upload“) aus oder geben Sie eine vorhandene Cloud Storage-Datei („Cloud Storage“) an. Beachten Sie, dass die Benutzeroberfläche die Audiodateiparameter automatisch bewertet.
    • Klicken Sie auf „Weiter“, um zu den „Transkriptionsoptionen“ zu gelangen.
    Screenshot der Seite zur Erstellung von Speech-to-Text-Transkriptionen, in der das Universal Speech Model ausgewählt und ein Transkriptionsjob gesendet wird.
    • Wählen Sie die „gesprochene Sprache“, die Sie für die Erkennung mit dem universellen Sprachmodell aus der zuvor erstellten Erkennung verwenden möchten.
    • Wählen Sie im Drop-down-Menü „Modell“ die Option „Universal Speech Model“ aus.
    • Wählen Sie im Drop-down-Menü „Erkennung“ Ihre neu erstellte Erkennung aus
    • Klicken Sie auf submit, um die erste Erkennungsanfrage mit dem universellen Sprachmodell auszuführen.
  7. Transkriptionsergebnis für Ihr Universal Speech Model ansehen

    • Klicken Sie auf der Seite „Transkriptionen“ auf den Namen der Transkription, um das Ergebnis anzusehen.
    • Auf der Seite „Transkriptionsdetails“ können Sie sich Ihr Transkriptionsergebnis ansehen und den Audioinhalt im Browser optional abspielen.

Erste Schritte mit Python Notebook

Dieser Leitfaden hilft Ihnen bei der Arbeit mit unserem Python Notebook mit USM für STT API v2.

  1. Achten Sie darauf, dass Sie sich für ein Google Cloud-Konto registriert und ein Projekt erstellt haben. Sie müssen das Projekt und das Konto verwenden, die für das USM zugelassen wurden.
  2. Prüfen Sie, dass Sie eine funktionsfähige Python Notebook-Umgebung haben
  3. Sehen Sie sich unser Notebook an und erstellen Sie Ihre eigene Kopie.
  4. Führen Sie das Notebook in Ihrer bevorzugten Ausführungsumgebung aus. Folgen Sie der Anleitung im Notebook, die Sie bei der Einrichtung der Authentifizierung und der Erkennung unterstützt, und führen Sie dann Transkriptionsanfragen aus.