Benutzerdefinierte Übersetzungen – Übersicht

Das standardmäßige NMÜ-Modell (neuronale maschinelle Übersetzung) von Google deckt eine Vielzahl von Sprachen ab und eignet sich gut für Text für allgemeine Zwecke. Wenn Sie jedoch domainspezifischen oder stilabhängigen Text übersetzen, können Sie mit benutzerdefinierten Übersetzungen relevantere Übersetzungen erhalten.

Für benutzerdefinierte Übersetzungen müssen Sie eigene Beispielübersetzungen bereitstellen. Anschließend kann Cloud Translation Ergebnisse generieren, die dem Stil, dem Ton und dem Vokabular Ihrer Beispiele entsprechen.

Cloud Translation bietet zwei Lösungen zum Anfordern benutzerdefinierter Übersetzungen: AutoML Translation zum Trainieren benutzerdefinierter Modelle oder adaptive Übersetzung zur Nutzung der Large-Language-Modelle (LLMs) von Google. Jedes Feature hat eigene Datenanforderungen, unterstützte Sprachen und Preise.

AutoML Translation

Mit AutoML Translation importieren Sie Ihre Daten, um benutzerdefinierte Modelle zu trainieren, die Ihnen gehören und die Sie verwalten. Nachdem Sie ein benutzerdefiniertes Modell erstellt haben, können Sie Übersetzungen anfordern, die Ihr Modell anstelle des standardmäßigen NMT-Modells verwenden. Im Vergleich zu adaptiver Übersetzung eignen sich benutzerdefinierte Modelle gut für domainspezifische Texte, bei denen die Bestimmung der richtigen Terminologie im Vordergrund steht. Außerdem müssen Sie größere Datasets für das Modelltraining bereitstellen.

In Rechnung gestellt werden die Zeit für das Modelltraining und die Anzahl der Eingabezeichen, die Sie für Übersetzungen senden.

Adaptive Übersetzung

Adaptive Übersetzungen verwenden LLMs in Kombination mit kleinen Datasets, um qualitativ hochwertige Übersetzungen zu liefern, die häufig mit benutzerdefinierten AutoML Translation-Modellen übereinstimmen. Sie trainieren oder pflegen keine Modelle. Im Vergleich zu benutzerdefinierten Modellen eignen sich die adaptive Übersetzung gut für Antworten, die Ihrer Eingabe ähnliche Stile, Tonform und Stimme haben.

Bei der adaptiven Übersetzung wird Ihnen die Anzahl der Eingabe- und Ausgabezeichen in Rechnung gestellt.

Beispielübersetzungen vorbereiten

Bereiten Sie Beispielübersetzungen als Segmentpaare vor, die aus einem Satz in einer Ausgangssprache und einem entsprechenden Satz bestehen, der in der Zielsprache übersetzt wird. Speichern Sie diese Segmentpaare in einer tabulatorgetrennten Wertedatei (TSV) oder in einer Translation Memory eXchange-Datei (TMX).

Wählen Sie Beispiele aus, die die linguistische Domain der Inhalte darstellen, die Sie übersetzen möchten. Weitere Informationen finden Sie im Leitfaden für Einsteiger in AutoML Translation im Abschnitt Datenvorbereitung.

TSV

Bei tabulatorgetrennten Dateien hat jede Zeile das folgende Format:

  • Source segment tab Translated segment

Fügen Sie keine Kopfzeile mit Sprachcodes ein, um die Quell- und Zielsprache zu identifizieren. Sie geben diese Sprachen beim Erstellen eines Datasets an. Das folgende Beispiel enthält Segmentpaare für Übersetzungen vom Englischen ins Deutsche.

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Eine .tsv-Datei darf nur Text enthalten. Wenn der Text HTML-Tags oder anderes Markup enthält, behandelt Cloud Translation das Markup ebenfalls als Text.

TMX

TMX ist ein XML-Standardformat zur Bereitstellung des Quell- und des Zielübersetzungssegments. Cloud Translation unterstützt Eingabedateien in einem Format, das auf TMX Version 1.4 basiert. Das folgende Beispiel veranschaulicht die erforderlichen Schritte:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

Das <header>-Element einer korrekt formatierten TMX-Datei muss mit dem srclang-Attribut die Ausgangssprache angeben und jedes <tuv>-Element muss mithilfe des Attributs xml:lang die Sprache des enthaltenen Texts angeben.

Alle <tu>-Elemente müssen ein Paar von <tuv>-Elementen mit derselben Quell- und Zielsprache enthalten. Wenn ein <tu>-Element mehr als zwei <tuv>-Elemente enthält, verarbeitet Cloud Translation jeweils nur das erste <tuv>-Element, das mit der Ausgangs- und der Zielsprache übereinstimmt, und ignoriert den Rest. Wenn ein <tu>-Element kein übereinstimmendes <tuv>-Elementpaar hat, überspringt die Cloud Translation API das ungültige <tu>-Element.

Cloud Translation entfernt die Markup-Tags aus einem <seg>-Element, bevor dieses verarbeitet wird. Wenn ein <tuv>-Element mehr als ein <seg>-Element enthält, verkettet Cloud Translation den Text zu einem einzelnen Element mit einem Leerzeichen zwischen den Elementen.

Wenn die Datei andere als die zuvor dargestellten XML-Tags enthält, werden sie von Cloud Translation ignoriert.

Wenn die Datei nicht dem richtigen XML- und TMX-Format entspricht, z. B. wenn ein End-Tag oder ein <tmx>-Element fehlt, bricht Cloud Translation die Verarbeitung ab. Cloud Translation bricht die Verarbeitung auch dann ab, wenn mehr als 1.024 ungültige <tu>-Elemente übersprungen werden.

Die mindestens erforderlichen und maximalen Anzahl von Segmentpaaren sind für jedes Feature unterschiedlich. Weitere Informationen finden Sie unter AutoML Translation-Datenvorbereitung oder Anforderungen für adaptive Übersetzungen.

Nächste Schritte