Übersicht über benutzerdefinierte Übersetzungen

Das standardmäßige NMÜ-Modell (neuronale maschinelle Übersetzung) von Google deckt eine Vielzahl von Sprachen ab und eignet sich für Text für allgemeine Zwecke. Wenn Sie jedoch domainspezifischen oder stilsensiblen Text übersetzen, können benutzerdefinierte Übersetzungen zu relevanteren Ergebnissen führen.

Für benutzerdefinierte Übersetzungen müssen Sie eigene Beispielübersetzungen bereitstellen. Cloud Translation kann dann Ergebnisse generieren, die dem Stil, dem Ton und dem Vokabular Ihrer Beispiele weitgehend entsprechen.

Cloud Translation bietet zwei Lösungen zum Anfordern benutzerdefinierter Übersetzungen: AutoML Translation zum Trainieren benutzerdefinierter Modelle oder die adaptive Übersetzung, um die Large Language Models (LLMs) von Google zu nutzen. Für jede Funktion gelten eigene Datenanforderungen, unterstützte Sprachen und Preise.

AutoML Translation

Mit AutoML Translation importieren Sie Ihre Daten, um benutzerdefinierte Modelle zu trainieren, die Sie besitzen und pflegen. Nachdem Sie ein benutzerdefiniertes Modell erstellt haben, können Sie Übersetzungen anfordern, die anstelle des Standard-NMÜ-Modells Ihr Modell verwenden. Im Vergleich zur adaptiven Übersetzung eignen sich benutzerdefinierte Modelle gut für domainspezifischen Text, bei dem die korrekte Terminologie oberste Priorität hat. Außerdem müssen Sie größere Datasets für das Modelltraining bereitstellen.

Ihnen werden die Trainingszeit des Modells und die Anzahl der Eingabezeichen in Rechnung gestellt, die Sie zur Übersetzung senden.

Adaptive Übersetzung

Bei adaptiven Übersetzungen werden LLMs in Kombination mit kleinen Datasets verwendet, um qualitativ hochwertige Übersetzungen zu liefern, die häufig mit benutzerdefinierten AutoML Translation-Modellen übereinstimmen. Sie trainieren oder verwalten keine Modelle. Im Vergleich zu benutzerdefinierten Modellen eignen sich die adaptive Übersetzung gut für Antworten, die Ihrer Eingabe ähnliche Stile, Tonform und Stimme haben.

Bei adaptiver Übersetzung wird Ihnen die Anzahl der Eingabe- und Ausgabezeichen in Rechnung gestellt.

Beispielübersetzungen vorbereiten

Bereiten Sie Beispielübersetzungen als Segmentpaare vor, die aus einem Satz in einer Ausgangssprache und einem entsprechenden in die Zielsprache übersetzten Satz bestehen. Speichern Sie diese Segmentpaare in einer TSV-Datei (tabulatorgetrennte Werte) oder Translation Memory eXchange (TMX).

Wählen Sie Beispiele aus, die das linguistische Fachgebiet der Inhalte darstellen, die Sie übersetzen möchten. Weitere Informationen finden Sie im Abschnitt zur Datenvorbereitung in der Anleitung für Erste Schritte mit AutoML Translation.

TSV

Bei tabulatorgetrennten Dateien hat jede Zeile das folgende Format:

  • Source segment tab Translated segment

Fügen Sie keine Kopfzeile mit Sprachcodes ein, um die Quell- und Zielsprachen zu identifizieren. Sie geben diese Sprachen beim Erstellen eines Datasets an. Das folgende Beispiel enthält Segmentpaare für Übersetzungen vom Englischen ins Deutsche:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Eine .tsv-Datei darf nur Text enthalten. Wenn der Text HTML-Tags oder anderes Markup enthält, behandelt Cloud Translation das Markup ebenfalls als Text.

TMX

TMX ist ein XML-Standardformat zur Bereitstellung von Quell- und Zielübersetzungssegmenten. Cloud Translation unterstützt Eingabedateien in einem Format, das auf TMX Version 1.4 basiert. Das folgende Beispiel veranschaulicht die erforderlichen Schritte:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

Das <header>-Element einer korrekt formatierten TMX-Datei muss mit dem srclang-Attribut die Ausgangssprache angeben und jedes <tuv>-Element muss mithilfe des Attributs xml:lang die Sprache des enthaltenen Texts angeben.

Alle <tu>-Elemente müssen ein Paar von <tuv>-Elementen mit derselben Quell- und Zielsprache enthalten. Wenn ein <tu>-Element mehr als zwei <tuv>-Elemente enthält, verarbeitet Cloud Translation jeweils nur das erste <tuv>-Element, das mit der Ausgangs- und der Zielsprache übereinstimmt, und ignoriert den Rest. Wenn ein <tu>-Element kein übereinstimmendes <tuv>-Elementpaar hat, überspringt die Cloud Translation API das ungültige <tu>-Element.

Cloud Translation entfernt vor der Verarbeitung eines <seg>-Elements die Markup-Tags um das Element. Wenn ein <tuv>-Element mehr als ein <seg>-Element enthält, verkettet Cloud Translation den Text zu einem einzelnen Element mit einem Leerzeichen zwischen den Elementen.

Wenn die Datei andere als die oben aufgeführten XML-Tags enthält, werden sie von Cloud Translation ignoriert.

Wenn die Datei nicht dem richtigen XML- und TMX-Format entspricht, z. B. wenn ein End-Tag oder ein <tmx>-Element fehlt, bricht Cloud Translation die Verarbeitung ab. Cloud Translation bricht die Verarbeitung auch dann ab, wenn mehr als 1.024 ungültige <tu>-Elemente übersprungen werden.

Die minimal erforderliche und die maximal zulässige Anzahl von Segmentpaaren für jedes Feature unterscheiden sich. Weitere Informationen finden Sie unter Datenvorbereitung für AutoML Translation oder Anforderungen für adaptive Übersetzungsdaten.

Nächste Schritte