Erste Schritte mit AutoML Translation

Mit AutoML Translation können Sie – ohne Code schreiben zu müssen – benutzerdefinierte Modelle erstellen, die anders als das standardmäßige NMÜ-Modell (Neuronale maschinelle Übersetzung) auf Ihre fachspezifischen Inhalte zugeschnitten sind.

Angenommen, Sie betreiben einen Branchendienst für Finanznachrichten und haben nun die Möglichkeit, in neue Länder zu expandieren. Auf diesen Märkten wird erwartet, dass Ihre zeitkritischen Finanzdokumente in Echtzeit übersetzt werden. Statt dass Sie nun zweisprachige Finanzfachleute einstellen oder Fachübersetzer beauftragen – beides aufgrund des erforderlichen Expertenwissens und der notwendigen kurzen Bearbeitungszeiten teure Lösungen –, können Sie Übersetzungsaufgaben über ein benutzerdefiniertes Modell in variablem Umfang automatisieren.

Übersetzung

Überzeugen Sie sich selbst

Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um sich von der Leistungsfähigkeit von Cloud Translation in der Praxis zu überzeugen. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Cloud Translation kostenlos testen

Warum ist maschinelles Lernen (ML) das richtige Werkzeug für dieses Problem?

Beim klassischen Programmieren muss der Programmierer dem Computer alles Schritt für Schritt beibringen. Allerdings kann dieser regelbasierte Ansatz für Übersetzungen schnell ungeeignet werden. Natürliche Sprache ist komplex, dementsprechend sind Übersetzungen immer schwierig. Die maschinelle Übersetzung erfolgt fast ausschließlich anhand eines statistischen Ansatzes. An die Stelle spezifischer Regelsätze, die von Linguisten manuell optimiert werden, treten dabei umfangreiche Korpora von Paralleltexten.

Sie als Nutzer benötigen ein System, das sich auf eine Vielzahl von Übersetzungsszenarien anwenden lässt und gleichzeitig auf Ihren Anwendungsfall und das aufgabenspezifische Fachgebiet in den für Sie relevanten Sprachpaaren abgestimmt ist. Da strikte Regeln auf Dauer exponentiell erweitert werden müssten, brauchen Sie stattdessen ein System, das aus Beispielen lernen kann. Genau an diesem Punkt kommen maschinelle Lernsysteme ins Spiel.

Ist für mich das NMÜ-Standardmodell oder ein benutzerdefiniertes Modell die bessere Wahl?

Das NMÜ-Modell (Neuronale maschinelle Übersetzung) deckt eine Vielzahl an Sprachpaaren ab und eignet sich gut für allgemeine Texte. Ein benutzerdefiniertes Modell eignet sich besonders für die „letzte Meile“ zwischen generischen Übersetzungsaufgaben und spezialisiertem Fachvokabular. AutoML Translation nutzt das generische NMÜ-Modell und passt es dann an Ihre Trainingsdaten an, um korrekte Übersetzungen für die jeweils relevanten fachspezifischen Inhalte ausgeben zu können.

Was bedeutet maschinelles Lernen?

Beim maschinellen Lernen werden mithilfe von Daten Algorithmen trainiert, um ein gewünschtes Ergebnis zu erzielen. Die Anforderungen an den Algorithmus und die Trainingsmethoden unterscheiden sich je nach Problembereich. Beim maschinellen Lernen gibt es viele verschiedene Unterkategorien, die auf das zu lösende Problem abgestimmt sind und jeweils mit unterschiedlichen Beschränkungen funktionieren. Mit AutoML Translation können Sie im Rahmen des überwachten Lernens einen Computer so trainieren, dass er in Paaren aus übersetzten Segmenten Muster erkennt. Während dieser überwachten Lernphase wird ein benutzerdefiniertes Modell auf die Übersetzung speziell jener fachlichen Inhalte trainiert, die für Sie relevant sind.

Datenvorbereitung

Zum Trainieren eines benutzerdefinierten Modells müssen Sie übereinstimmende Segmentpaare in der Ausgangs- und Zielsprache angeben. Diese Segmentpaare haben in der Sprache, aus der übersetzt, und in der Sprache, in die übersetzt werden soll, die gleiche Bedeutung. Je ähnlicher sich die Segmentpaare hinsichtlich der Bedeutung sind, desto besser funktioniert das Modell.

Anwendungsfall bewerten

Gehen Sie beim Erstellen des Datasets immer vom konkreten Anwendungsfall aus. Folgende Fragestellungen können Ihnen am Anfang helfen:

Welches Ergebnis möchte ich erzielen?
Welche Arten von zu übersetzenden Segmenten sind für dieses Ergebnis erforderlich? Ist dies eine Aufgabe, die vom NMÜ-Modell ohne Training ausgeführt werden kann?
Lassen sich diese Segmente von Menschen in zufriedenstellender Weise übersetzen? Wenn eine Übersetzungsaufgabe nicht klar lösbar ist und eine Person mit fließender Beherrschung beider Sprachen Schwierigkeiten hätte, ein zufriedenstellendes Ergebnis zu liefern, kann es sein, dass das NMÜ-Modell und Ihr benutzerdefiniertes Modell eine ähnliche Leistung bieten.
Welche Beispiele geben am besten die Art und Bandbreite der Daten wieder, die das System übersetzen soll?

Das Kernprinzip der ML-Produkte von Google ist ein auf den Menschen ausgerichtetes maschinelles Lernen. Bei diesem Ansatz stehen Best Practices für eine verantwortungsbewusste Anwendung von KI einschließlich Fairness im Vordergrund. Bei Fairness innerhalb von ML geht es darum, eine ungerechte oder von Vorurteilen beeinflusste Behandlung von Menschen aufgrund ihrer Herkunft, ihres Einkommens, ihrer sexuellen Orientierung, ihrer Religion, ihres Geschlechts und anderer Merkmale, die historisch mit Diskriminierung und Ausgrenzung verbunden waren, dort zu erkennen und zu verhindern, wo sie in algorithmischen Systemen oder bei der algorithmisch unterstützten Entscheidungsfindung sichtbar werden. Weitere Informationen finden Sie in unserem Leitfaden und den Fair-aware-Hinweisen ✽ in den Richtlinien weiter unten. Wir empfehlen Ihnen, sich mit dem Thema Fairness beim maschinellen Lernen vertraut zu machen, während Sie die Richtlinien für die Erstellung Ihres Datasets lesen, sofern dies für Ihren Anwendungsfall relevant ist.

Daten erheben

Nachdem Sie nun wissen, welche Art von Daten Sie benötigen, müssen Sie überlegen, woher Sie diese Daten bekommen. Zuerst einmal kommen alle Daten infrage, die Ihr Unternehmen ohnehin erfasst. Vielleicht werden die zum Trainieren eines Übersetzungsmodells benötigten Daten ja bereits erhoben. Wenn die erforderlichen Daten nicht verfügbar sind, können Sie sie manuell erfassen oder von einem Drittanbieter beziehen.

Daten an Ihren Problembereich anpassen

Sie möchten ein benutzerdefiniertes Übersetzungsmodell trainieren, da Sie ein Modell für ein bestimmtes Fachgebiet brauchen. Die Segmentpaare sollten deshalb bestmöglich auf das Vokabular, die speziellen Ausdrucksweisen und auch die grammatikalischen Besonderheiten Ihrer Branche oder Ihres Fachgebiets abgestimmt sein. Verwenden Sie Dokumente mit typischen Wendungen, die in den künftigen Übersetzungsaufgaben vorkommen können, und achten Sie darauf, dass die Sätze der Paralleltexte in Bezug auf die Bedeutung so exakt wie möglich übereinstimmen. Sprachen sind im Hinblick auf das Vokabular oder die Syntax sicherlich oft nicht komplett deckungsgleich. Versuchen Sie aber nach Möglichkeit, zumindest die gesamte semantische Vielfalt zu erfassen, die bei der Übersetzungsaufgabe auftreten kann. Sie bauen auf einem Modell auf, das beim Übersetzen von allgemeinsprachlichen Texten bereits sehr gut funktioniert. Ihre Beispiele sind nun der spezielle letzte Schritt, mit dem benutzerdefinierte Modelle auf Ihren besonderen Anwendungsfall abgestimmt werden. Achten Sie deshalb darauf, dass die Beispiele relevant sind und das erwartete Sprachmaterial gut abbilden.

Vielfalt Ihres sprachlichen Felds erfassen

Es ist eine verführerische Vorstellung, dass Menschen so einheitlich über ein bestimmtes Fachgebiet schreiben, dass eine kleine Anzahl von Textbeispielen, übersetzt von einer kleinen Anzahl an Übersetzern, genügt, um ein Modell zu trainieren, das sich anschließend auch für alle anderen gut eignet, die über dieses Fachgebiet schreiben. Aber jeder Mensch ist anders und so ist auch unsere Art zu schreiben jeweils Ausdruck unserer individuellen Persönlichkeit. Ein Trainings-Dataset, das Segmentpaare einer breiten Auswahl von Autoren und Übersetzern umfasst, liefert in einem vielfältigen Unternehmen eher ein hilfreiches Modell zur Übersetzung von Texten als ein Modell, das sich nur auf eine schmale Basis stützt. Berücksichtigen Sie außerdem unterschiedliche Segmentlängen und ‑strukturen. Ein Dataset mit gleich langen Segmenten oder mit Segmenten ähnlicher grammatikalischer Struktur liefert Cloud Translation keine ausreichenden Informationen zum Erstellen eines guten Modells, das alle Möglichkeiten abdeckt.

Menschen in den Prozess einbinden

Nach Möglichkeit sollten Sie von einer Person, die beide Sprachen gut beherrscht, überprüfen lassen, ob die Segmentpaare richtig zugeordnet, die Sätze verständlich und die Übersetzungen korrekt sind. Ein simpler Fehler wie falsch zugeordnete Zeilen in Ihrer Trainingstabelle kann zu unsinnigen Übersetzungen führen. AutoML Translation benötigt unbedingt hochwertige Daten, damit ein für Ihr Unternehmen brauchbares Modell erstellt werden kann.

Unstrukturierte Daten bereinigen

Bei der Vorverarbeitung von Daten kann es schnell zu Fehlern kommen, die das benutzerdefinierte Modell unbrauchbar machen. Beheben Sie gegebenenfalls insbesondere folgende Datenprobleme:

Entfernen Sie doppelte Quellsegmente, vor allem wenn für diese unterschiedliche Zielübersetzungen ausgegeben werden. AutoML Translation verwendet nur das erste Beispiel und löscht alle anderen Paare beim Import. Durch das Entfernen von Duplikaten sorgen Sie dafür, dass AutoML Translation Ihre bevorzugte Übersetzung nutzt.
Ordnen Sie die Quellsegmente den korrekten Zielsegmenten zu.
Ordnen Sie Segmente der jeweiligen Sprache zu. Beispielsweise sollten Sie nur chinesische Segmente in ein chinesisches Dataset aufnehmen.
Bei Zielsegmenten mit gemischten Sprachen sollten Sie darauf achten, dass feste Begriffe, z. B. Namen von Produkten oder Unternehmen, nicht übersetzt wurden. Zielsegmente, bei denen solche Begriffe fälschlicherweise übersetzt wurden, verzerren Ihre Trainingsdaten und können die Qualität eines Modells verringern.
Korrigieren Sie Segmente mit Rechtschreib- oder grammatikalischen Fehlern, damit Ihr Modell diese Fehler nicht übernimmt.
Entfernen Sie nicht übersetzbare Inhalte wie Platzhalter-Tags und HTML-Tags. Nicht übersetzbare Inhalte können zu Satzzeichenfehlern führen.
Vermeiden Sie, allgemeine Entitäten durch bestimmte Begriffe zu ersetzen. Angenommen, in einem Beispiel wird der Begriff „president“ (Präsident) durch den Namen eines bestimmten Präsidenten wie „JFK“ oder „John F. Kennedy“ ersetzt. Das Modell könnte dann lernen, dass alle Instanzen von „president“ in „JFK“ geändert werden sollen. Entfernen Sie deshalb solche Übersetzungen oder ändern Sie das jeweilige Substantiv in einen allgemeinen Begriff.
Entfernen Sie doppelte Segmente in den Trainings- und Test-Datensätzen. Weitere Informationen zu Trainings- und Test-Datensätzen.
Teilen Sie mehrere Segmente in verschiedene Segmentpaare auf. Wenn Sie mit einem Dataset trainieren, in dem viele Elemente mehr als etwa 50 Tokens (Wörter) enthalten, leidet die Qualität des Modells. Teilen Sie längere Texteinheiten nach Möglichkeit in einzelne Sätze auf.
Verwenden Sie eine einheitliche Groß- und Kleinschreibung. Die Groß- und Kleinschreibung wirkt sich darauf aus, wie ein Modell lernt, z. B. zur Unterscheidung zwischen Überschrift und Fließtext.
Entfernen Sie TMX-Tags beim Importieren von Daten aus einer TSV-Datei. So kann es vorkommen, dass das vorhandene Translation Memory in eine TSV-Datei mit TMX-Tags exportiert wird. AutoML Translation bereinigt die Tags von Übersetzungseinheiten jedoch nur, wenn Sie aus einer TMX-Datei (und nicht aus TSV-Dateien) importieren.

So erfolgt die Vorverarbeitung Ihrer Daten bei AutoML Translation

AutoML Translation unterbricht das Parsen Ihrer Dateneingabedatei, wenn:

die Formatierung ungültig ist
ein Segmentpaar unverhältnismäßig lang (10 MB) ist
die Datei eine andere Codierung als UTF-8 aufweist

Bei Problemen, die AutoML Translation nicht erkennen kann, werden Fehler ignoriert, z. B. bei folgenden Problemen:

Ein <tu>-Element in einer TMX-Datei enthält keine Ausgangs- oder Zielsprache.
Eines der eingegebenen Segmentpaare ist leer.

Für die automatische Datenaufteilung führt AutoML Translation zusätzliche Verarbeitungsschritte aus:

Nachdem das Dataset hochgeladen wurde, werden Segmentpaare mit identischen Ausgangssegmenten entfernt.
Die Daten werden vor dem Training nach dem Zufallsprinzip in drei Gruppen mit einem Verhältnis von 8:1:1 (Training:Validierung:Test) aufgeteilt.

Wie AutoML Translation anhand Ihres Datasets ein benutzerdefiniertes Modell erstellt

Zu Ihrem Dataset gehören Trainings-, Validierungs- und Test-Datensätze. Wenn Sie keine Aufteilung angeben (siehe Trainingsdaten vorbereiten) und Ihr Dataset weniger als 100.000 Segmentpaare enthält, verwendet AutoML Translation automatisch 80 % des Inhalts der Dokumente für das Training, 10 % für die Validierung und 10 % für Tests. Wenn Sie mehr Daten haben, müssen Sie die Aufteilung selbst vornehmen.

Trainings-Dataset

Die meisten Daten sollten im Trainings-Datensatz enthalten sein. Das sind die Daten, die das Modell während des Trainings „sieht“. Damit werden die Parameter des Modells erlernt, vor allem die Gewichtung der Verbindungen zwischen den Knoten des neuronalen Netzes.

Validierungs-Dataset

Während des Trainingsvorgangs wird auch der Validierungs-Datensatz, oft als „dev“-Satz bezeichnet, verwendet. Beim Modell-Lernen wird zuerst eine Reihe von Kandidatenmodellen vom Framework mithilfe des Trainings-Datensatzes trainiert. Das Kandidatenmodell, das anschließend in Bezug auf den Validierungs-Datensatz die beste Leistung zeigt, wird dann als bestes unter den generierten Modellen ausgewählt. Anhand der Leistung des Modells bei der Verarbeitung des Validierungs-Datensatzes werden die Hyperparameter des Modells optimiert. Hyperparameter sind Variablen, die die Struktur des Modells angeben. Wenn Sie die Hyperparameter ebenfalls mit dem Trainings-Datensatz optimieren würden, würde sich das Modell aufgrund des mehrfachen Trainings mit den Trainingsdaten zu stark an ihnen orientieren. Wenn Sie aber beim Validierungsschritt für die Feinabstimmung der Modellstruktur relativ neuartige Daten verwenden, ermöglicht dies dem Modell potenziell bessere Verallgemeinerungen.

Test-Dataset

Der Test-Datensatz wird völlig unabhängig vom Trainingsvorgang eingesetzt. Nachdem das Training des Modells abgeschlossen ist, nutzen Sie den Test-Datensatz als vollständig neue Aufgabe für das Modell. Anhand der Leistung des Modells in Bezug auf das Test-Dataset können Sie ziemlich gut abschätzen, wie es bei realen Daten abschneiden würde.

Manuelle Aufteilung

Sie können Ihre Daten automatisch von AutoML Translation in Trainings-, Validierungs- und Test-Datensätze aufteilen lassen. Wenn Sie aber mehr Kontrolle über den Vorgang möchten, eine andere Aufteilung vorziehen oder Wert darauf legen, dass bestimmte Beispiele in einem bestimmten Teil des Modelltrainingszyklus verwendet werden, können Sie die Aufteilung selbst vornehmen.

Daten für den Import vorbereiten

Nachdem Sie sich für eine manuelle oder automatische Aufteilung Ihrer Daten entschieden haben, haben Sie zwei Möglichkeiten, Daten hinzuzufügen:

Sie können die Daten als tabulatorgetrennte Werte (TSV) importieren, die Ausgangs- und Zielsegmente enthalten (ein Segmentpaar pro Zeile).
Sie können die Daten als TMX-Datei importieren. Das ist ein Standardformat für die Bereitstellung von Segmentpaaren für computergestützte Übersetzungsmodelltools. Weitere Informationen zum unterstützten TMX-Format. Wenn die TMX-Datei ungültige XML-Tags enthält, werden diese von AutoML ignoriert. Entspricht die TMX-Datei nicht dem richtigen XML- und TMX-Format, wenn also beispielsweise ein End-Tag oder ein <tmx>-Element fehlt, wird sie von AutoML nicht verarbeitet. Cloud Translation beendet außerdem die Verarbeitung und gibt einen Fehler zurück, wenn mehr als 1.024 ungültige <tu>-Elemente übersprungen wurden.

Bewerten

Nachdem das Modell trainiert wurde, erhalten Sie eine Zusammenfassung der Modellleistung. Klicken Sie auf den Tab Trainieren, um eine detaillierte Analyse aufzurufen.

Was sollte ich beachten, bevor ich mein Modell bewerte?

Bei der Fehlerbehebung eines Modells geht es in erster Linie darum, Fehler in den Daten statt im Modell zu beheben. Reagiert Ihr Modell unerwartet, wenn Sie seine Leistung vor und nach der Freigabe für die Produktion auswerten, sollten Sie einen Schritt zurückgehen und überprüfen, wo die Daten verbessert werden können.

BLEU-Score

Der BLEU-Score ist ein Standardverfahren zur Messung der Qualität eines Systems zur maschinellen Übersetzung. AutoML Translation stützt sich auf den BLEU-Score als wichtigste Bewertungsmessgröße, die anhand der von Ihnen bereitgestellten Testdaten berechnet wird. Weitere Informationen zu BLEU-Scores.

Das NMÜ-Modell von Google, auf dem die Cloud Translation API basiert, ist für die Verwendung mit allgemeinsprachlichen Texten vorgesehen. Es ist aber für Sie möglicherweise nicht die optimale Lösung, wenn es Ihnen um Fachübersetzungen in Ihrem Spezialgebiet geht. Ein trainiertes benutzerdefiniertes Modell liefert für die Fachgebiete, die mit Ihrem Trainings-Datensatz abgebildet werden, in der Regel bessere Ergebnisse als das NMÜ-Modell.

Nachdem Sie das benutzerdefinierte Modell mit Ihrem eigenen Dataset trainiert haben, werden auf dem Tab Trainieren die BLEU-Scores des benutzerdefinierten Modells und des Google NMÜ-Modells angezeigt. So lässt sich anhand des BLEU-Scores auf dem Tab Train (Trainieren) ablesen, welche Leistungssteigerung das benutzerdefinierte Modell ergeben hat. Je höher der BLEU-Score, desto besser die Übersetzungen, die vom Modell für Segmente ausgegeben werden, die Ihren Trainingsdaten ähnlich sind. Die vom Modell gelieferten Übersetzungen gelten als qualitativ gut, wenn der BLEU-Score (als Prozentwert) zwischen 30 und 40 liegt.

Beachten Sie, dass BLEU-Scores nicht für den Vergleich verschiedener Korpora und Sprachen empfohlen werden. Ein BLEU-Score von 50 für Englisch nach Deutsch ist beispielsweise nicht mit einem BLEU-Score von 50 für Japanisch nach Englisch vergleichbar. Viele Übersetzungsexperten sind zu modellbasierten Messwertansätzen übergegangen, die eine höhere Korrelation mit Bewertungen durch Menschen haben und Fehler besser erkennen.

AutoML Translation unterstützt nur BLEU-Scores. Informationen zum Bewerten Ihres Übersetzungsmodells mit modellbasierten Messwerten finden Sie unter Gen AI Evaluation Service in Vertex AI.

Modell testen

Auch wenn der BLEU-Score eine gute Leistung ausweist, sollten Sie das Modell noch einmal prüfen, damit die Leistung Ihren Erwartungen entspricht. Denn wenn die Trainings- und Testdaten auf demselben fehlerhaften Textkorpus beruhen, ist ein guter BLEU-Score auch dann noch möglich, wenn die Übersetzung selbst unsinnig ist. Fügen Sie einige Beispiele als Eingabe über den Tab Vorhersagen hinzu und vergleichen Sie die Ergebnisse aus dem benutzerdefinierten Modell mit dem NMÜ-Basismodell von Google. Unter Umständen trifft Ihr Modell die gleichen Vorhersagen wie das Basismodell, speziell bei kurzen Segmenten oder bei einem kleineren Trainings-Datensatz. Das ist keine Überraschung – das Basismodell ist für eine Vielzahl von Anwendungsfällen bereits ziemlich gut geeignet. Versuchen Sie es mit längeren oder komplexeren Segmenten. Wenn jedoch alle Ihre Segmente mit den Vorhersagen des Basismodells übereinstimmen, kann das auf ein Problem mit den Daten hinweisen.

Wenn Sie Bedenken haben, dass Ihr Modell bestimmte Fehler ausgeben könnte (z. B. aufgrund einer Besonderheit des Sprachpaares, über die auch menschliche Übersetzer häufig stolpern, oder eines Übersetzungsfehlers, der Sie finanziell oder in Bezug auf Ihren Ruf teuer zu stehen kommen könnte), sollten Sie darauf achten, dass diese Fehler in Ihrem Test-Dataset oder im Rahmen des Testverfahrens ausreichend berücksichtigt sind, damit Sie das Modell später im Tagesgeschäft bedenkenlos einsetzen können.

Nächste Schritte

Wenn Sie ein eigenes Dataset und ein benutzerdefiniertes Modell erstellen möchten, finden Sie unter Trainingsdaten vorbereiten eine Anleitung zum Vorbereiten Ihrer Daten.