ML-Pipelines – Übersicht
Dieses Dokument bietet einen Überblick über die Dienste, die Sie zum Erstellen einer ML-Pipeline zum Verwalten Ihres BigQuery MLOps-Workflows verwenden können.
Eine ML-Pipeline ist eine Darstellung eines MLOps-Workflows, die aus einer Reihe von Pipelineaufgaben besteht. Jede Pipeline-Aufgabe führt einen bestimmten Schritt im MLOps-Workflow aus, um ein Modell zu trainieren und bereitzustellen. Wenn Sie jeden Schritt in eine standardisierte, wiederverwendbare Aufgabe unterteilen, können Sie wiederholbare Prozesse in Ihrer ML-Praxis automatisieren und überwachen.
Sie können einen der folgenden Dienste verwenden, um BigQuery ML-ML-Pipelines zu erstellen:
- Mit Vertex AI Pipelines können Sie portable, erweiterbare ML-Pipelines erstellen.
- Mit GoogleSQL-Abfragen können Sie weniger komplexe SQL-basierte ML-Pipelines erstellen.
- Mit Dataform können Sie komplexere SQL-basierte ML-Pipelines oder ML-Pipelines erstellen, für die Sie eine Versionskontrolle verwenden müssen.
Vertex AI Pipelines
In Vertex AI Pipelines ist eine ML-Pipeline als gerichteter azyklischer Graph (DAG) aus containerisierten Pipeline-Aufgaben strukturiert, die über Eingabe-/Ausgabeabhängigkeiten miteinander verbunden sind. Jede Pipeline-Aufgabe ist eine Instanz einer Pipeline-Komponente mit bestimmten Eingaben. Beim Definieren Ihrer ML-Pipeline verbinden Sie mehrere Pipeline-Aufgaben, um einen DAG zu bilden. Dazu leiten Sie die Ausgaben einer Pipeline-Aufgabe an die Eingaben für die nächste Pipeline-Aufgabe im ML-Workflow weiter. Sie können auch die ursprünglichen Eingaben in die ML-Pipeline als Eingaben für eine bestimmte Pipeline-Aufgabe verwenden.
Verwenden Sie die BigQuery ML-Komponenten des Google Cloud Pipeline Components SDK, um ML-Pipelines in Vertex AI Pipelines zu erstellen. In den folgenden Notebooks finden Sie Informationen zu den ersten Schritten mit BigQuery ML-Komponenten:
GoogleSQL-Abfragen
Mit der prozeduralen Programmiersprache GoogleSQL können Sie mehrere Anweisungen in einer Abfrage mit mehreren Anweisungen ausführen. Sie können eine Abfrage mit mehreren Anweisungen in folgenden Fällen verwenden:
- Mehrere Anweisungen in einer Abfolge mit gemeinsamem Status ausführen.
- Verwaltungsaufgaben wie das Erstellen oder Löschen von Tabellen automatisieren.
- Komplexe Logik mit Programmierkonstrukten wie
IF
undWHILE
implementieren.
Nachdem Sie eine Abfrage mit mehreren Anweisungen erstellt haben, können Sie sie speichern und planen, um das Modelltraining, die Inferenz und das Monitoring zu automatisieren.
Wenn Ihre ML-Pipeline die Verwendung der Funktion ML.GENERATE_TEXT
enthält, finden Sie weitere Informationen unter Kontingentfehler durch iteratives Aufrufen von ML.GENERATE_TEXT
verarbeiten, wie Sie mit SQL Aufrufe der Funktion iterieren. Durch iteratives Aufrufen der Funktion können Sie alle wiederholbaren Fehler beheben, die aufgrund der Überschreitung der Kontingente und Limits auftreten.
Dataform
Mit Dataform können Sie komplexe SQL-Workflows für die Datentransformation in BigQuery entwickeln, testen, versionieren und planen. Sie können Dataform für Aufgaben wie die Datentransformation im ELT-Prozess (Extract, Load, Transform) für die Datenintegration verwenden. Nachdem Rohdaten aus Quellsystemen extrahiert und in BigQuery geladen wurden, können Sie sie mit Dataform in eine klar definierte, getestete und dokumentierte Suite von Datentabellen umwandeln.
Wenn Ihre ML-Pipeline die Verwendung der Funktion ML.GENERATE_TEXT
enthält, können Sie die Beispielbibliothek für structured_table_ml.js
anpassen, um Aufrufe der Funktion zu iterieren. Durch iteratives Aufrufen der Funktion können Sie alle wiederholbaren Fehler beheben, die aufgrund der Überschreitung der für die Funktion geltenden Kontingente und Limits auftreten.