Einführung in die Datentransformation

In diesem Dokument werden die verschiedenen Möglichkeiten beschrieben, wie Sie Daten in Ihren BigQuery-Tabellen transformieren können.

Weitere Informationen zu Datenintegrationen finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.

Methoden zur Datentransformation

Sie haben folgende Möglichkeiten, Daten in BigQuery zu transformieren:

  • Verwenden Sie die Datenbearbeitungssprache (DML), um Daten in Ihren BigQuery-Tabellen zu transformieren.
  • Mit materialisierten Ansichten können Sie die Ergebnisse einer Abfrage automatisch im Cache speichern, um die Leistung und Effizienz zu steigern.
  • Mit kontinuierlichen Abfragen können Sie eingehende Daten in Echtzeit analysieren und die Ausgabezeilen kontinuierlich in eine BigQuery-Tabelle einfügen oder nach Pub/Sub oder Bigtable exportieren.
  • Mit Dataform können Sie SQL-Workflows in BigQuery entwickeln, testen, Versionen verwalten und planen.
  • Verwenden Sie die Datenvorbereitung mit kontextbezogenen, KI-generierten Transformationsempfehlungen, um Daten für die Analyse zu bereinigen.

In der folgenden Tabelle sind die verschiedenen Eigenschaften der einzelnen Transformationsmethoden aufgeführt.

Transformationsmethode Transformationsziel Definition method Transformationshäufigkeit
Datenbearbeitungssprache (DML) Tabelle (vor Ort) SQL DML Vom Nutzer initiiert oder geplant
Materialisierte Ansichten Materialisierte Ansicht SQL-Abfrage Automatische oder manuelle Aktualisierung
Kontinuierliche Abfragen Tabelle, Pub/Sub-Thema, Bigtable-Tabelle SQL-Abfrage mit EXPORT DATA Kontinuierlich
Dataform Tabelle Dataform Core (SQLX) Geplant (Workflows)
Datenvorbereitung Tabelle Visueller Editor Geplant

Sie können auch den Änderungsverlauf einer BigQuery-Tabelle ansehen, um die Transformationen zu prüfen, die in einem bestimmten Zeitraum an einer Tabelle vorgenommen wurden.

Daten mit DML transformieren

Mit der Datenbearbeitungssprache (DML) können Sie Daten in Ihren BigQuery-Tabellen transformieren. DML-Anweisungen sind GoogleSQL-Abfragen, mit denen vorhandene Tabellendaten manipuliert werden, um Zeilen hinzuzufügen oder zu löschen, Daten in vorhandenen Zeilen zu ändern oder Daten mit Werten aus einer anderen Tabelle zusammenzuführen. DML-Transformationen werden auch in partitionierten Tabellen unterstützt.

Sie können mehrere DML-Anweisungen gleichzeitig ausführen. BigQuery stellt dann mehrere DML-Anweisungen in die Warteschlange, die Ihre Daten nacheinander transformieren. BigQuery verwaltet die Ausführung paralleler DML-Anweisungen basierend auf dem Transformationstyp.

Daten mit materialisierten Ansichten transformieren

Materialisierte Ansichten sind vorab berechnete Ansichten, die die Ergebnisse einer SQL-Abfrage regelmäßig im Cache speichern, um die Leistung und Effizienz zu steigern. BigQuery nutzt vorausberechnete Ergebnisse aus materialisierten Ansichten und liest nach Möglichkeit nur Änderungen aus den Basistabellen, um aktuelle Ergebnisse zu berechnen.

Materialisierte Ansichten werden im Hintergrund vorberechnet, wenn sich die Basistabellen ändern. Alle inkrementellen Datenänderungen aus den Basistabellen werden automatisch zu den materialisierten Ansichten hinzugefügt, ohne dass der Nutzer eingreifen muss.

Daten mit kontinuierlichen Abfragen transformieren

Kontinuierliche Abfragen sind SQL-Anweisungen, die kontinuierlich ausgeführt werden. Mit kontinuierlichen Abfragen können Sie eingehende Daten in BigQuery in Echtzeit analysieren. Sie können die von einer kontinuierlichen Abfrage generierten Ausgabezeilen in eine BigQuery-Tabelle einfügen oder nach Pub/Sub oder Bigtable exportieren.

Daten mit Dataform transformieren

Mit Dataform können Sie die Datentransformation im ELT-Prozess (Extract, Load, Transform) für die Datenintegration verwalten. Nachdem Sie Rohdaten aus Quellsystemen extrahiert und in BigQuery geladen haben, können Sie sie mit Dataform in eine organisierte, getestete und dokumentierte Sammlung von Tabellen umwandeln. In DML verwenden Sie zwar einen imperativen Ansatz, indem Sie BigQuery anweisen, wie Ihre Daten transformiert werden sollen, in Dataform schreiben Sie jedoch deklarative Anweisungen, wobei Dataform dann die Transformation bestimmt, die zum Erreichen dieses Status erforderlich ist.

In Dataform können Sie SQL-Workflows für die Datentransformation von Datenquellendeklarationen in Ausgabetabellen, Ansichten oder materialisierte Ansichten entwickeln, testen und einer Versionsverwaltung unterziehen. Sie können SQL-Workflows mit Dataform-Core oder reinem JavaScript entwickeln. Der Dataform-Core ist eine Open-Source-Metasprache, die SQL mit SQLX und JavaScript erweitert. Mit Dataform-Core können Sie Abhängigkeiten verwalten, automatisierte Datenqualitätstests einrichten und Tabellen- oder Spaltenbeschreibungen im Code dokumentieren.

Dataform speichert den SQL-Workflow-Code in Repositories und verwendet Git, um Dateiänderungen zu verfolgen. Mit Entwicklungsbereichen in Dataform können Sie an den Inhalten des Repositorys arbeiten, ohne die Arbeit anderer Nutzer zu beeinträchtigen, die im selben Repository arbeiten. Sie können Dataform-Repositories mit Git-Drittanbietern wie Azure DevOps Services, Bitbucket, GitHub und GitLab verbinden.

Sie können SQL-Workflows mit Dataform-Release- und Workflowkonfigurationen ausführen oder planen. Alternativ können Sie die Ausführung entweder mit Cloud Composer oder mit Workflows und Cloud Scheduler planen. Während der Ausführung führt Dataform SQL-Abfragen in BigQuery in der Reihenfolge der Objektabhängigkeiten in Ihrem SQL-Workflow aus. Nach der Ausführung können Sie die definierten Tabellen und Ansichten für Analysen in BigQuery verwenden.

Weitere Informationen zum Erstellen von SQL-Workflows für die Datentransformation in Dataform finden Sie unter Dataform – Übersicht und Dataform-Funktionen – Übersicht.

Daten in BigQuery vorbereiten

Um die Datenvorbereitung zu erleichtern, können Sie in BigQuery Daten mithilfe von Gemini-generierten Transformationsvorschlägen bereinigen. Die Datenvorbereitung in BigQuery bietet folgende Unterstützung:

  • Transformationen und Regeln für die Datenqualität anwenden
  • Daten standardisieren und ergänzen
  • Schemazuordnung automatisieren

Sie können die Ergebnisse in einer Vorschau Ihrer Daten prüfen, bevor Sie die Änderungen auf alle Daten anwenden.

Weitere Informationen finden Sie unter Einführung in die Datenvorbereitung in BigQuery.

Nächste Schritte