ML-Pipelines – Übersicht

Dieses Dokument bietet einen Überblick über die Dienste, die Sie zum Erstellen einer ML-Pipeline zum Verwalten Ihres BigQuery ML-MLOps-Workflows verwenden können.

Eine ML-Pipeline ist eine Darstellung eines MLOps-Workflows, die aus einer Reihe von Pipelineaufgaben besteht. Jede Pipeline-Aufgabe führt einen bestimmten Schritt im MLOps-Workflow aus, um ein Modell zu trainieren und bereitzustellen. Wenn Sie jeden Schritt in eine standardisierte, wiederverwendbare Aufgabe unterteilen, können Sie wiederholbare Prozesse in Ihrer ML-Praxis automatisieren und überwachen.

Sie können einen der folgenden Dienste verwenden, um BigQuery ML-ML-Pipelines zu erstellen:

  • Mit Vertex AI Pipelines können Sie portable, erweiterbare ML-Pipelines erstellen.
  • Verwenden Sie GoogleSQL-Abfragen, um weniger komplexe SQL-basierte ML-Pipelines zu erstellen.
  • Verwenden Sie Dataform, um komplexere SQL-basierte ML-Pipelines oder ML-Pipelines zu erstellen, für die Sie die Versionsverwaltung verwenden müssen.

Vertex AI Pipelines

In Vertex AI Pipelines ist eine ML-Pipeline als gerichteter azyklischer Graph (DAG) aus containerisierten Pipeline-Aufgaben strukturiert, die über Eingabe-/Ausgabeabhängigkeiten miteinander verbunden sind. Jede Pipelineaufgabe ist eine Instanziierung einer Pipeline-Komponente mit bestimmten Eingaben. Wenn Sie Ihre ML-Pipeline definieren, verbinden Sie mehrere Pipelineaufgaben, um einen DAG zu bilden. Dazu leiten Sie die Ausgaben einer Pipelineaufgabe an die Eingaben der nächsten Pipelineaufgabe im ML-Workflow weiter. Sie können auch die ursprünglichen Eingaben in die ML-Pipeline als Eingaben für eine bestimmte Pipeline-Aufgabe verwenden.

Verwenden Sie die BigQuery ML-Komponenten des Google Cloud Pipeline Components SDK, um ML-Pipelines in Vertex AI Pipelines zu erstellen. In den folgenden Notebooks finden Sie Informationen zu den ersten Schritten mit BigQuery ML-Komponenten:

GoogleSQL-Abfragen

Sie können die prozedurale GoogleSQL-Sprache verwenden, um mehrere Anweisungen in einer Abfrage mit mehreren Anweisungen auszuführen. Sie können eine Abfrage mit mehreren Anweisungen in folgenden Fällen verwenden:

  • Mehrere Anweisungen in einer Abfolge mit gemeinsamem Status ausführen.
  • Verwaltungsaufgaben wie das Erstellen oder Löschen von Tabellen automatisieren.
  • Komplexe Logik mit Programmierkonstrukten wie IF und WHILE implementieren.

Nachdem Sie eine Abfrage mit mehreren Anweisungen erstellt haben, können Sie sie speichern und planen, um das Modelltraining, die Inferenz und das Monitoring zu automatisieren.

Wenn Ihre ML-Pipeline die Verwendung der Funktion ML.GENERATE_TEXT enthält, finden Sie weitere Informationen unter Kontingentfehler durch iteratives Aufrufen von ML.GENERATE_TEXT verarbeiten, wie Sie mit SQL Aufrufe der Funktion iterieren. Durch iteratives Aufrufen der Funktion können Sie alle wiederholbaren Fehler beheben, die aufgrund des Überschreitens der Kontingente und Limits auftreten.

Dataform

Mit Dataform können Sie komplexe SQL-Workflows für die Datentransformation in BigQuery entwickeln, testen, versionieren und planen. Sie können Dataform für Aufgaben wie die Datentransformation im ELT-Prozess (Extrahieren, Laden und Transformieren) für die Datenintegration verwenden. Nachdem Rohdaten aus Quellsystemen extrahiert und in BigQuery geladen wurden, können Sie sie mit Dataform in eine klar definierte, getestete und dokumentierte Suite von Datentabellen umwandeln.

Wenn Ihre ML-Pipeline die Funktion ML.GENERATE_TEXT enthält, können Sie die Beispielbibliothek structured_table_ml.js anpassen. um Aufrufe der Funktion zu durchlaufen. Durch iteratives Aufrufen der Funktion können Sie alle wiederholbaren Fehler beheben, die aufgrund der Überschreitung der für die Funktion geltenden Kontingente und Limits auftreten.