Einführung in die Datentransformation

In diesem Dokument werden die verschiedenen Möglichkeiten zum Transformieren von Daten in Ihren BigQuery-Tabellen beschrieben.

Weitere Informationen zu Datenintegrationen finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.

Methoden zum Transformieren von Daten

Sie haben folgende Möglichkeiten, Daten in BigQuery zu transformieren:

In der folgenden Tabelle sind die verschiedenen Merkmale der einzelnen Transformationsmethoden aufgeführt.

Transformationsmethode Transformationsziel Definitionsmethode Transformationshäufigkeit
Datenbearbeitungssprache (Data Manipulation Language, DML) Tabelle (in place) SQL DML Vom Nutzer initiiert oder geplant
Materialisierte Ansichten Materialisierte Ansicht SQL-Abfrage Automatische oder manuelle Aktualisierung
Kontinuierliche Abfragen Tabelle, Pub/Sub-Thema, Bigtable-Tabelle SQL-Abfrage mit EXPORT DATA Kontinuierlich
Dataform Tabelle Dataform Core (SQLX) Geplant (Pipelines)
BigQuery-Pipelines Tabelle BigQuery-Pipelines Geplant (Pipelines)
Datenvorbereitung Tabelle Visueller Editor Geplant

Sie können auch den Änderungsverlauf einer BigQuery-Tabelle aufrufen, um die Transformationen zu untersuchen, die an einer Tabelle in einem bestimmten Zeitraum vorgenommen wurden.

Daten mit DML transformieren

Mit der Datenbearbeitungssprache (Data Manipulation Language, DML) können Sie Daten in Ihren BigQuery-Tabellen transformieren. DML-Anweisungen sind GoogleSQL-Abfragen, mit denen vorhandene Tabellendaten bearbeitet werden, um Zeilen hinzuzufügen oder zu löschen, Daten in vorhandenen Zeilen zu ändern oder Daten mit Werten aus einer anderen Tabelle zusammenzuführen. DML-Transformationen werden auch in partitionierten Tabellen unterstützt.

Sie können mehrere DML-Anweisungen gleichzeitig ausführen. In diesem Fall stellt BigQuery mehrere DML-Anweisungen in die Warteschlange, die Ihre Daten nacheinander transformieren. BigQuery verwaltet die Ausführung gleichzeitiger DML-Anweisungen basierend auf dem Transformationstyp.

Daten mit materialisierten Ansichten transformieren

Materialisierte Ansichten sind vorausberechnete Ansichten, die die Ergebnisse einer SQL-Abfrage regelmäßig im Cache speichern, um die Leistung und Effizienz zu steigern. BigQuery nutzt vorausberechnete Ergebnisse aus materialisierten Ansichten und liest nach Möglichkeit nur Änderungen aus den Basistabellen, um aktuelle Ergebnisse zu berechnen.

Materialisierte Ansichten werden im Hintergrund vorberechnet, wenn sich die Basistabellen ändern. Alle inkrementellen Datenänderungen aus den Basistabellen werden automatisch zu den materialisierten Ansichten hinzugefügt, ohne dass der Nutzer eingreifen muss.

Daten mit kontinuierlichen Abfragen transformieren

Continuous Queries sind SQL-Anweisungen, die kontinuierlich ausgeführt werden. Mit kontinuierlichen Abfragen können Sie eingehende Daten in BigQuery in Echtzeit analysieren. Sie können die von einer kontinuierlichen Abfrage erstellten Ausgaberow in eine BigQuery-Tabelle einfügen oder in Pub/Sub oder Bigtable exportieren.

Daten mit Dataform transformieren

Mit Dataform können Sie die Datentransformation im ELT-Prozess (Extrahieren, Laden und Transformieren) für die Datenintegration verwalten. Nachdem Sie Rohdaten aus Quellsystemen extrahiert und in BigQuery geladen haben, können Sie sie mit Dataform in eine organisierte, getestete und dokumentierte Sammlung von Tabellen umwandeln. In DML verwenden Sie zwar einen imperativen Ansatz, indem Sie BigQuery anweisen, wie Ihre Daten transformiert werden sollen, in Dataform schreiben Sie jedoch deklarative Anweisungen, wobei Dataform dann die Transformation bestimmt, die zum Erreichen dieses Status erforderlich ist.

In Dataform können Sie SQL-Workflows für die Datentransformation von Datenquellendeklarationen in Ausgabetabellen, Ansichten oder materialisierte Ansichten entwickeln, testen und einer Versionsverwaltung unterziehen. Sie können SQL-Workflows mit Dataform-Core oder reinem JavaScript entwickeln. Der Dataform-Core ist eine Open-Source-Metasprache, die SQL mit SQLX und JavaScript erweitert. Mit Dataform-Core können Sie Abhängigkeiten verwalten, automatisierte Datenqualitätstests einrichten und Tabellen- oder Spaltenbeschreibungen im Code dokumentieren.

In Dataform wird Ihr SQL-Workflow-Code in Repositories gespeichert und Git wird verwendet, um Dateiänderungen zu verfolgen. Mit Entwicklungsarbeitsbereichen in Dataform können Sie an den Inhalten des Repositorys arbeiten, ohne die Arbeit anderer Nutzer zu beeinträchtigen, die im selben Repository arbeiten. Sie können Dataform-Repositories mit Git-Drittanbietern wie Azure DevOps Services, Bitbucket, GitHub und GitLab verbinden.

Sie können SQL-Workflows mit Dataform-Releasekonfigurationen und Workflowkonfigurationen ausführen oder planen. Alternativ können Sie Ausführungen entweder mit Cloud Composer oder mit Workflows und Cloud Scheduler planen. Während der Ausführung führt Dataform SQL-Abfragen in BigQuery in der Reihenfolge der Objektabhängigkeiten in Ihrem SQL-Workflow aus. Nach der Ausführung können Sie die definierten Tabellen und Ansichten für die Analyse in BigQuery verwenden.

Weitere Informationen zum Erstellen von SQL-Workflows für die Datentransformation in Dataform finden Sie unter Dataform – Übersicht und Dataform-Funktionen.

Daten mit BigQuery-Pipelines transformieren

BigQuery-Pipelines basieren auf Dataform und ermöglichen es Ihnen, Datentransformationen in ELT-Prozessen (Extrahieren, Laden, Transformieren) oder ETL-Prozessen (Extrahieren, Transformieren, Laden) zu erstellen und zu verwalten.

In BigQuery Studio können Sie BigQuery-Pipelines visuell erstellen und verwalten.

Weitere Informationen zum Erstellen von BigQuery-Pipelines finden Sie unter Pipelines erstellen.

Daten in BigQuery vorbereiten

Um den Aufwand für die Datenvorbereitung zu reduzieren, können Sie Daten in BigQuery mit von Gemini generierten Transformationsvorschlägen bereinigen. Die Datenvorbereitung in BigQuery bietet die folgenden Vorteile:

  • Transformationen und Regeln für Datenqualität anwenden
  • Daten standardisieren und anreichern
  • Schemazuordnung automatisieren

Sie können die Ergebnisse in einer Vorschau Ihrer Daten prüfen, bevor Sie die Änderungen auf alle Ihre Daten anwenden.

Weitere Informationen finden Sie unter Einführung in die BigQuery-Datenaufbereitung.

Nächste Schritte