Einführung in die BigQuery-Datenvorbereitung
In diesem Dokument wird die KI-gestützte Datenvorbereitung in BigQuery beschrieben. Datenvorbereitungen sind Ressourcen in BigQuery Studio, mit denen Ihre Daten mithilfe von Gemini in BigQuery analysiert werden und intelligente Vorschläge zur Bereinigung, Transformation und Aufbereitung der Daten gemacht werden. Sie können den Zeit- und Arbeitsaufwand für die manuelle Datenaufbereitung erheblich reduzieren. Die Datenvorbereitung wird von Dataform orchestriert.
Vorteile
- Mit kontextbezogenen, von Gemini generierten Transformationsvorschlägen können Sie den Zeitaufwand für die Entwicklung der Datenpipeline reduzieren.
- Sie können die generierten Ergebnisse in einer Vorschau prüfen und mithilfe der automatischen Schemazuordnung Vorschläge zur Datenbereinigung und -anreicherung erhalten.
- Mit Dataform können Sie einen CI/CD-Prozess (Continuous Integration, Continuous Development) verwenden, der die bereichsübergreifende Zusammenarbeit bei Codeüberprüfungen und Versionskontrolle unterstützt.
Erforderliche Rollen
Nutzer, die die Daten vorbereiten, und die Dataform-Dienstkonten, in denen die Jobs ausgeführt werden, benötigen IAM-Rollen (Identity and Access Management). Weitere Informationen finden Sie unter Erforderliche Rollen und Gemini für BigQuery einrichten.
Einstiegspunkte für die Datenvorbereitung
Sie können Datenvorbereitungen auf der Seite BigQuery Studio erstellen und verwalten. Weitere Informationen finden Sie unter Datenvorbereitungseditor in BigQuery öffnen.
Wenn Sie eine Tabelle in der BigQuery-Datenvorbereitung öffnen, wird ein BigQuery-Job mit Ihren Anmeldedaten ausgeführt. Dabei werden Beispielzeilen aus der ausgewählten Tabelle erstellt und die Ergebnisse in eine temporäre Tabelle im selben Projekt geschrieben. Gemini verwendet die Beispieldaten und das Beispielschema, um Vorschläge zur Datenvorbereitung zu generieren, die im Editor für die Datenvorbereitung angezeigt werden.
Ansichten im Editor für die Datenvorbereitung
Die Datenvorbereitungen werden auf der Seite BigQuery Studio als Tabs angezeigt. Jeder Tab enthält mehrere Untertabs oder Ansichten für die Datenvorbereitung, in denen Sie Ihre Datenvorbereitungen entwerfen und verwalten.
Datenansicht
Wenn Sie eine neue Datenvorbereitung erstellen, wird der Tab „Datenvorbereitung bearbeiten“ mit der Datenansicht geöffnet, die eine repräsentative Stichprobe der Tabelle enthält. Bei vorhandenen Datenvorbereitungen können Sie die Datenansicht aufrufen, indem Sie in der Grafikansicht der Datenvorbereitungspipeline auf einen Knoten klicken.
In der Datenansicht haben Sie folgende Möglichkeiten:
- Interagieren Sie mit Ihren Daten, um Schritte zur Datenvorbereitung zu erstellen.
- Vorschläge von Gemini anwenden
- Sie können die Qualität der Gemini-Vorschläge verbessern, indem Sie Beispielwerte in die Zellen eingeben.
Über jeder Spalte in der Tabelle wird in einem statistischen Profil (Histogramm) die Anzahl der höchsten Werte jeder Spalte in den Vorschauzeilen angezeigt.
Diagrammansicht
Die Grafikansicht bietet eine visuelle Übersicht über die Datenvorbereitung. Er wird als Tab auf der Seite BigQuery Studio in der Console angezeigt, wenn Sie eine Datenvorbereitung öffnen. Das Diagramm enthält Knoten für alle Schritte in der Datenvorbereitungspipeline. Sie können einen Knoten im Diagramm auswählen, um die entsprechenden Schritte zur Datenvorbereitung zu konfigurieren.
Schemaansicht
In der Schemaansicht für die Datenvorbereitung wird das aktuelle Schema des aktiven Schritts der Datenvorbereitung angezeigt. Das angezeigte Schema entspricht den Spalten in der Datenansicht.
In der Schemaansicht können Sie spezielle Schemavorgänge ausführen, z. B. Spalten entfernen. Dadurch werden auch Schritte in der Liste Angewandte Schritte erstellt.
Vorschläge von Gemini
Gemini bietet kontextbezogene Vorschläge für die folgenden Aufgaben zur Datenvorbereitung:
- Transformationen und Regeln für die Datenqualität anwenden
- Daten standardisieren und ergänzen
- Schemazuordnung automatisieren
Jeder Vorschlag wird in der Vorschlagsliste des Editors für die Datenvorbereitung auf einer Karte angezeigt. Die Karte enthält die folgenden Informationen:
- Die übergeordnete Kategorie des Schritts, z. B. Zeilen beibehalten oder Transformation
- Eine Beschreibung des Schritts, z. B. Zeilen beibehalten, wenn
COLUMN_NAME
nichtNULL
ist - Der entsprechende SQL-Ausdruck, der zum Ausführen des Schritts verwendet wird
Sie können sich eine Vorschau der Vorschlagskarte ansehen, sie anwenden oder den Vorschlag optimieren. Sie können Schritte auch manuell hinzufügen. Weitere Informationen finden Sie unter Daten mit Gemini vorbereiten.
Wenn Sie die Vorschläge von Gemini optimieren möchten, geben Sie ein Beispiel dafür an, was in einer Spalte geändert werden soll.
Stichprobenerhebung
In BigQuery wird Stichprobenerhebung verwendet, um Ihnen eine Vorschau Ihrer Datenvorbereitung zu geben. Sie können sich die Stichprobe für jeden Knoten in der Datenansicht ansehen. Die Daten in der Stichprobe werden nicht automatisch aktualisiert. Weitere Informationen finden Sie unter Beispiele für die Datenvorbereitung aktualisieren.
Schreibmodus
Um Kosten und Verarbeitungszeit zu optimieren, können Sie die Einstellungen für den Schreibmodus ändern, um neue Daten aus der Quelle inkrementell zu verarbeiten. Wenn Sie beispielsweise eine Tabelle in BigQuery haben, in die täglich Einträge eingefügt werden, und ein Looker-Dashboard, das die geänderten Daten widerspiegeln muss, können Sie die BigQuery-Datenvorbereitung so planen, dass die neuen Einträge schrittweise aus der Quelltabelle gelesen und in die Zieltabelle übertragen werden.
Wie Sie die Schreibweise Ihrer vorbereiteten Daten in eine Zieltabelle konfigurieren, erfahren Sie unter Datenvorbereitung durch inkrementelle Datenverarbeitung optimieren.
Die folgenden Schreibmodi werden unterstützt:
Option für den Schreibmodus | Beschreibung |
---|---|
Vollständige Aktualisierung | Die vorbereiteten Daten werden eingefügt, um alle Daten in der Zieltabelle zu ersetzen. Die Tabelle wird neu erstellt und nicht gekürzt. Die vollständige Aktualisierung ist der Standardmodus beim Schreiben in eine Zieltabelle. |
Anhängen | Die vorbereiteten Daten werden in neue Zeilen in der Zieltabelle eingefügt. |
Inkrementell | Es werden nur die neuen oder, je nach Auswahl der inkrementellen Spalte, geänderten Daten in die Zieltabelle eingefügt. |
Unterstützte Schritte zur Datenvorbereitung
BigQuery unterstützt die folgenden Arten von Datenvorbereitungsschritten:
Schritttyp | Beschreibung |
---|---|
Quelle | Eine Quelle wird hinzugefügt, wenn Sie eine BigQuery-Tabelle auswählen, aus der gelesen werden soll, oder wenn Sie einen Join-Schritt hinzufügen. |
Transformation | Bereinigt und transformiert Daten mithilfe eines SQL-Ausdrucks. Sie erhalten Vorschlagskarten für die folgenden Ausdrücke:
Sie können auch beliebige gültige BigQuery-SQL-Ausdrücke in manuellen Transformationsschritten verwenden. Beispiel:
Weitere Informationen finden Sie unter Transformation hinzufügen. |
Filter | Entfernt Zeilen mithilfe der Syntax der WHERE -Klausel. Wenn Sie einen Filterschritt hinzufügen, können Sie ihn in einen Validierungsschritt umwandeln.
Weitere Informationen finden Sie unter Zeilen filtern. |
Validierung | Zeilen, die die Kriterien der Validierungsregel erfüllen, werden an eine Fehlertabelle gesendet.
Wenn Daten die Validierungsregel nicht erfüllen und keine Fehlertabelle konfiguriert ist, schlägt die Datenvorbereitung bei der Ausführung fehl.
Weitere Informationen finden Sie unter Fehlertabelle konfigurieren und Validierungsregel hinzufügen. |
Teilnehmen | Werte aus zwei Quellen werden zusammengeführt. Die Tabellen müssen sich am selben Speicherort befinden.
Join-Schlüsselspalten müssen denselben Datentyp haben. Bei der Datenvorbereitung werden die folgenden Join-Vorgänge unterstützt:
Weitere Informationen finden Sie unter Join-Vorgang hinzufügen. |
Ziel | Hier wird ein Ziel für die Ausgabe der Schritte zur Datenvorbereitung definiert. Wenn Sie eine Zieltabelle eingeben, die nicht vorhanden ist, wird in der Datenvorbereitung eine neue Tabelle mit den aktuellen Schemainformationen erstellt. Weitere Informationen finden Sie unter Zieltabelle hinzufügen oder ändern. |
Spalten löschen | Löscht Spalten aus dem Schema. Sie führen diesen Schritt über die Schemaansicht aus.
Weitere Informationen finden Sie unter Spalte löschen. |
Ausführungen der Datenvorbereitung planen
Um die Schritte zur Datenvorbereitung auszuführen und die vorbereiteten Daten in die Zieltabelle zu laden, planen Sie einen einmaligen oder wiederkehrenden Lauf der Datenvorbereitung. Sie können Datenvorbereitungen im Editor für die Datenvorbereitung planen und auf der BigQuery-Seite Orchestrierung verwalten. Weitere Informationen finden Sie unter Datenvorbereitungen planen.
APIs
Die BigQuery-Datenvorbereitung hat keine eigene API. Weitere Informationen zur Verwendung der BigQuery-Datenvorbereitung mit Dataform erhalten Sie unter bq-datapreparation-feedback@google.com.
Beschränkungen
Die Datenvorbereitung ist mit folgenden Einschränkungen verfügbar:
- Alle Quell- und Ziel-Datasets der BigQuery-Datenvorbereitung einer bestimmten Datenvorbereitung müssen sich am selben Speicherort befinden. Weitere Informationen finden Sie unter Unterstützte Standorte.
- Während der Bearbeitung der Pipeline werden Daten und Interaktionen zur Verarbeitung an ein Rechenzentrum in den USA gesendet. Weitere Informationen finden Sie unter Unterstützte Standorte.
- Die Datenvorbereitung unterstützt nicht die Generierung von SQL-Abfrage in natürlicher Sprache.
- Bei BigQuery-Datenvorbereitungen ist das Ansehen, Vergleichen oder Wiederherstellen von Versionen der Datenvorbereitung nicht möglich.
- Die Antworten von Gemini basieren auf einer Stichprobe des Datasets, das Sie beim Entwerfen der Datenvorbereitungspipeline angeben. Weitere Informationen finden Sie unter So nutzt Gemini für Google Cloud Ihre Daten und in den Nutzungsbedingungen für das Gemini für Google Cloud Trusted Tester-Programm.
Standorte
Die Datenvorbereitung unterstützt die Datenverarbeitung an allen BigQuery-Standorten. Die Quell- und Ziel-Datasets einer bestimmten Datenvorbereitung müssen sich am selben Speicherort befinden.
Preise
Für die Datenvorbereitung und das Erstellen von Datenvorschauproben werden BigQuery-Ressourcen verwendet, die gemäß den in der Preisübersicht für BigQuery angegebenen Preisen in Rechnung gestellt werden.
Die Datenvorbereitung ist in den Gemini in BigQuery-Preisen enthalten. Während der Vorabversion können Sie die BigQuery-Datenvorbereitung kostenlos nutzen. Weitere Informationen finden Sie unter Gemini in BigQuery einrichten.
Kontingente
Weitere Informationen finden Sie in der Gemini-Quota-Liste in Google Cloud.
Nächste Schritte
- Weitere Informationen zum Vorbereiten von Daten mit Gemini in BigQuery
- Informationen zum Verwalten der Bereitstellung und Ausführung von Datenvorbereitungen