Diese Seite wurde von der Cloud Translation API übersetzt.

Einführung in die Datentransformation

In diesem Dokument werden die verschiedenen Möglichkeiten zum Transformieren von Daten in Ihren BigQuery-Tabellen beschrieben.

Weitere Informationen zu Datenintegrationen finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.

Methoden zum Transformieren von Daten

Sie haben folgende Möglichkeiten, Daten in BigQuery zu transformieren:

Mit der Datenbearbeitungssprache (Data Manipulation Language, DML) können Sie Daten in Ihren BigQuery-Tabellen transformieren.
Verwenden Sie materialisierte Ansichten, um die Ergebnisse einer Abfrage automatisch im Cache zu speichern und so die Leistung und Effizienz zu steigern.
Mit kontinuierlichen Abfragen können Sie eingehende Daten in Echtzeit analysieren und die Ausgaberow kontinuierlich in eine BigQuery-Tabelle einfügen oder nach Pub/Sub oder Bigtable exportieren.
Mit BigQuery-Pipelines oder Dataform können Sie Pipelines in BigQuery entwickeln, testen, versionieren und planen.
Verwenden Sie Datenvorbereitungen mit kontextbezogenen, KI-generierten Transformationsempfehlungen, um Daten für die Analyse zu bereinigen. Die Datenaufbereitung basiert auf der Dataform API.

In der folgenden Tabelle sind die verschiedenen Merkmale der einzelnen Transformationsmethoden aufgeführt.

Transformationsmethode	Transformationsziel	Definitionsmethode	Transformationshäufigkeit
Datenbearbeitungssprache (Data Manipulation Language, DML)	Tabelle (in place)	SQL-DML	Vom Nutzer initiiert oder geplant
Materialisierte Ansichten	Materialisierte Ansicht	SQL-Abfrage	Automatische oder manuelle Aktualisierung
Kontinuierliche Abfragen	Tabelle, Pub/Sub-Thema, Bigtable-Tabelle	SQL-Abfrage mit EXPORT DATA	Kontinuierlich
Dataform	Tabelle	Dataform Core (SQLX)	Geplant (Pipelines)
BigQuery-Pipelines	Tabelle	BigQuery-Pipelines	Geplant (Pipelines)
Datenvorbereitung	Tabelle	Visueller Editor	Geplant

Sie können auch den Änderungsverlauf einer BigQuery-Tabelle aufrufen, um die Transformationen zu untersuchen, die an einer Tabelle in einem bestimmten Zeitraum vorgenommen wurden.

Daten mit DML transformieren

Mit der Datenbearbeitungssprache (Data Manipulation Language, DML) können Sie Daten in Ihren BigQuery-Tabellen transformieren. DML-Anweisungen sind GoogleSQL-Abfragen, mit denen vorhandene Tabellendaten bearbeitet werden, um Zeilen hinzuzufügen oder zu löschen, Daten in vorhandenen Zeilen zu ändern oder Daten mit Werten aus einer anderen Tabelle zusammenzuführen. DML-Transformationen werden auch in partitionierten Tabellen unterstützt.

Sie können mehrere DML-Anweisungen gleichzeitig ausführen. BigQuery stellt mehrere DML-Anweisungen, die Ihre Daten transformieren, nacheinander in die Warteschlange. BigQuery verwaltet die Ausführung gleichzeitiger DML-Anweisungen basierend auf dem Transformationstyp.

Daten mit materialisierten Ansichten transformieren

Materialisierte Ansichten sind vorausberechnete Ansichten, die die Ergebnisse einer SQL-Abfrage regelmäßig im Cache speichern, um die Leistung und Effizienz zu steigern. BigQuery nutzt vorausberechnete Ergebnisse aus materialisierten Ansichten und liest nach Möglichkeit nur Änderungen aus den Basistabellen, um aktuelle Ergebnisse zu berechnen.

Materialisierte Ansichten werden im Hintergrund vorberechnet, wenn sich die Basistabellen ändern. Alle inkrementellen Datenänderungen aus den Basistabellen werden automatisch zu den materialisierten Ansichten hinzugefügt, ohne dass der Nutzer eingreifen muss.

Daten mit kontinuierlichen Abfragen transformieren

Continuous Queries sind SQL-Anweisungen, die kontinuierlich ausgeführt werden. Mit kontinuierlichen Abfragen können Sie eingehende Daten in BigQuery in Echtzeit analysieren. Sie können die von einer kontinuierlichen Abfrage erstellten Ausgaberow in eine BigQuery-Tabelle einfügen oder in Pub/Sub oder Bigtable exportieren.

Daten mit Dataform transformieren

Mit Dataform können Sie die Datentransformation im ELT-Prozess (Extrahieren, Laden und Transformieren) für die Datenintegration verwalten. Nachdem Sie Rohdaten aus Quellsystemen extrahiert und in BigQuery geladen haben, können Sie sie mit Dataform in eine organisierte, getestete und dokumentierte Sammlung von Tabellen umwandeln. In DML verwenden Sie zwar einen imperativen Ansatz, indem Sie BigQuery anweisen, wie Ihre Daten transformiert werden sollen, in Dataform schreiben Sie jedoch deklarative Anweisungen, wobei Dataform dann die Transformation bestimmt, die zum Erreichen dieses Status erforderlich ist.

In Dataform können Sie SQL-Workflows für die Datentransformation von Datenquellendeklarationen in Ausgabetabellen, Ansichten oder materialisierte Ansichten entwickeln, testen und einer Versionsverwaltung unterziehen. Sie können SQL-Workflows mit Dataform-Core oder reinem JavaScript entwickeln. Der Dataform-Core ist eine Open-Source-Metasprache, die SQL mit SQLX und JavaScript erweitert. Mit Dataform-Core können Sie Abhängigkeiten verwalten, automatisierte Datenqualitätstests einrichten und Tabellen- oder Spaltenbeschreibungen im Code dokumentieren.

Dataform speichert Ihren SQL-Workflow-Code in Repositories und verwendet Git, um Dateiänderungen zu verfolgen. Mit Entwicklungsarbeitsbereichen in Dataform können Sie an den Inhalten des Repositorys arbeiten, ohne die Arbeit anderer Nutzer zu beeinträchtigen, die im selben Repository arbeiten. Sie können Dataform-Repositories mit Git-Drittanbietern wie Azure DevOps Services, Bitbucket, GitHub und GitLab verbinden.

Sie können SQL-Workflows mit Dataform-Releasekonfigurationen und Workflowkonfigurationen ausführen oder planen. Alternativ können Sie Ausführungen entweder mit Cloud Composer oder mit Workflows und Cloud Scheduler planen. Während der Ausführung führt Dataform SQL-Abfragen in BigQuery in der Reihenfolge der Objektabhängigkeiten in Ihrem SQL-Workflow aus. Nach der Ausführung können Sie die definierten Tabellen und Ansichten für die Analyse in BigQuery verwenden.

Weitere Informationen zum Erstellen von SQL-Workflows für die Datentransformation in Dataform finden Sie unter Dataform – Übersicht und Dataform-Funktionen.

Daten mit BigQuery-Pipelines transformieren

BigQuery-Pipelines basieren auf Dataform und ermöglichen es Ihnen, Datentransformationen in ELT-Prozessen (Extrahieren, Laden, Transformieren) oder ETL-Prozessen (Extrahieren, Transformieren, Laden) zu erstellen und zu verwalten.

In BigQuery Studio können Sie BigQuery-Pipelines visuell erstellen und verwalten.

Weitere Informationen zum Erstellen von BigQuery-Pipelines finden Sie unter Pipelines erstellen.

Daten in BigQuery vorbereiten

Um den Aufwand für die Datenvorbereitung zu reduzieren, können Sie Daten in BigQuery mit von Gemini generierten Transformationsvorschlägen bereinigen. Die Datenaufbereitung in BigQuery bietet folgende Unterstützung:

Transformationen und Regeln für Datenqualität anwenden
Daten standardisieren und anreichern
Schemazuordnung automatisieren

Sie können die Ergebnisse in einer Vorschau Ihrer Daten prüfen, bevor Sie die Änderungen auf alle Ihre Daten anwenden.

Weitere Informationen finden Sie unter Einführung in die BigQuery-Datenvorbereitung.

Nächste Schritte

Weitere Informationen zu DML finden Sie unter Daten mit Datenbearbeitungssprache (DML) transformieren.
Weitere Informationen zu Dataform finden Sie in der Dataform-Übersicht.