Features und Merkmale von AutoML Tables

Auf dieser Seite wird beschrieben, wie Sie und Ihr Team mithilfe von AutoML Tables leistungsstarke Modelle aus Ihren Tabellendaten erstellen können.

Auf der Seite Bekannte Probleme finden Sie aktuelle bekannte Probleme und erfahren, wie Sie diese vermeiden oder beheben können.

AutoML Tables ist ein Dienst, der den Datenverarbeitungs- und Sicherheitsbestimmungen von Google unterliegt.

Datenunterstützung

Mit AutoML Tables können Sie saubere, effektive Trainingsdaten erstellen. Die Anwendung liefert Informationen zu fehlenden Daten sowie der Korrelation, Kardinalität und Verteilung jedes Features. Da der Datenimport und das Anzeigen der zugehörigen Informationen kostenlos sind, fallen bis zum Trainingsstart des Modells keine Gebühren für AutoML Tables an.

Feature Engineering

Zu Beginn des Trainings werden in AutoML Tables automatisch unter anderem die folgenden allgemeinen Feature Engineering-Aufgaben ausgeführt:

  • Numerische Features normalisieren und kategorisieren
  • One-Hot-Codierungen und Einbettungen für kategoriale Features erstellen
  • Textfeatures grundlegend verarbeiten
  • Datums- und zeitbezogene Features aus Zeitstempelspalten extrahieren

Weitere Informationen finden Sie unter Datenvorbereitung, die AutoML Tables erledigt.

Modelltraining

Parallele Modelltests

Das Modell wird in AutoML Tables zu Beginn anhand Ihres Datasets gleichzeitig für mehrere Modellarchitekturen trainiert. Dieser Ansatz ermöglicht es AutoML Tables, die beste Modellarchitektur für Ihre Daten schnell zu ermitteln, ohne die vielen möglichen Modellarchitekturen nacheinander durchlaufen zu müssen. Die Modellarchitekturen der AutoML Tables-Tests umfassen Folgendes:

  • Linear
  • Neuronales Deep-Learning-Feed-Forward-Netzwerkmodel
  • Gradient Boosted-Entscheidungsbaum
  • AdaNet
  • Gruppen unterschiedlicher Modellarchitekturen

Neu von der Forschungscommunity entwickelte Modellarchitekturen werden nach ihrem Erscheinen ebenfalls einbezogen.

Modellbewertung und endgültige Modellerstellung

Anhand Ihrer Trainings- und Validierungs-Datasets ermitteln wir die beste Modellarchitektur für Ihre Daten. Anschließend trainieren wir zwei weitere Modelle mit den Parametern und der Architektur, die wir in der parallelen Testphase ermittelt haben:

  1. Ein Modell wird mit Ihren Trainings- und Validierungs-Datasets trainiert.

    Zur Bewertung des Modells verwenden wir Ihr Test-Dataset.

  2. Ein Modell wird mit Ihren Trainings-, Validierungs- und Test-Datasets trainiert.

    Dieses Modell stellen wir Ihnen für Ihre Vorhersagen bereit.

AutoML Tables oder BigQuery ML?

BigQuery ML empfiehlt sich, wenn Sie mithilfe von einfacheren Modelltypen schnell testen möchten, welche Daten in das Modell einbezogen werden sollen – beispielsweise für eine logistische Regression.

Wenn Sie die Datenauswahl bereits getroffen haben, können Sie in folgenden Fällen auch direkt auf der AutoML Tables-Benutzeroberfläche arbeiten:

  • Sie möchten eine maximale Modellqualität mit hoher Genauigkeit, niedrigem RMSE usw. erzielen, ohne dass ein manuelles Feature Engineering oder eine manuelle Modellauswahl, Gruppierung oder ähnliches erforderlich ist.

  • Sie sind bereit, die längere Wartezeit zur Erzielung der höheren Modellqualität in Kauf zu nehmen. Das Modelltraining in AutoML Tables dauert mindestens eine Stunde, da mit vielen Modellierungsoptionen experimentiert wird. Mit BigQuery ML erhalten Sie Modelle möglicherweise innerhalb weniger Minuten, da hierbei ausschließlich die von Ihnen vorgegebenen Modellarchitekturen, Parameterwerte und Bereiche verwendet werden.

  • Sie haben neben Zahlen und Klassen eine Vielzahl weiterer Features, die vom zusätzlichen automatisierten Feature-Engineering von AutoML Tables profitieren würden.

Modelltransparenz und Cloud Logging

Sie können die Struktur Ihres Modells für AutoML Tables mit Cloud Logging aufrufen. In Logging werden die endgültigen Modell-Hyperparameter sowie die Hyperparameter und Zielwerte angezeigt, die bei der Modellvalidierung verwendet wurden.

Weitere Informationen finden Sie unter Logging.

Erklärbarkeit

Wir wissen, dass Sie in der Lage sein müssen, zu erklären, wie sich Ihre Daten auf das endgültige Modell und die damit verbundenen Vorhersagen beziehen. Wir bieten Ihnen zwei grundlegende Möglichkeiten, um einen Einblick in Ihr Modell und seine Funktionsweise zu erhalten:

Datenexport testen

Sie können Ihr Test-Dataset zusammen mit den Vorhersagen exportieren, die Ihr Modell gemacht hat. Diese Voraussetzung gibt Aufschluss über die Leistung Ihres Modells in einzelnen Zeilen mit Trainingsdaten. Wenn Sie Ihre Testgruppe und ihre Ergebnisse untersuchen, können Sie besser verstehen, in welchen Arten von Vorhersagen Ihr Modell schlecht abschneidet. Außerdem erhalten Sie vielleicht Hinweise dazu, wie Sie Ihre Daten verbessern können, um ein qualitativ hochwertigeres Modell zu erhalten.