Unterschiede zwischen Legacy-Dataform und Dataform in Google Cloud
Dataform ist ein serverloser Dienst, mit dem Datenanalysten Tabellen, inkrementelle Tabellen oder Ansichten in BigQuery entwickeln und bereitstellen können. Dataform bietet eine Webumgebung für die SQL-Workflow-Entwicklung, die Verbindung zu GitHub, GitLab, Bitbucket und Azure DevOps Services sowie kontinuierliche Integration, kontinuierliche Bereitstellung und Workflowausführung.
Dataform in Google Cloud unterscheidet sich in folgenden Punkten vom Legacy-Dataform:
- Dataform in Google Cloud unterstützt die Verbindung von Dataform-Repositories mit Bitbucket-Repositories.
- Die Zugriffssteuerung basiert auf IAM.
Die Konfiguration eines Limits für die Nebenläufigkeit von Abfragen (
concurrentQueryLimit
) indataform.json
wird entfernt.Im Legacy-Dataform wurde durch Gleichzeitigkeitslimits verhindert, dass Dataform zu viele Abfragen gleichzeitig an BigQuery sendete. Zum Verwalten der Nebenläufigkeit in Dataform in Google Cloud empfehlen wir, BigQuery-Abfragewarteschlangen zu aktivieren.
Legacy-Umgebungen werden durch Release-Konfigurationen ersetzt.
Legacy-Zeitpläne werden durch Workflowkonfigurationen ersetzt.
Workflowfehlerbenachrichtigungen werden in Cloud Logging konfiguriert.
Dataform in Google Cloud und das Legacy-Dataform verwenden unterschiedliche NPM-Versionen und verschiedene
package-lock.json
-Formate.Wenn Sie einen SQL-Workflow sowohl in Legacy-Dataform als auch in Dataform in Google Cloud entwickeln möchten, verwenden Sie für die Paketinstallation das Legacy-Format
package-lock.json
. Installieren Sie erst dann Pakete in Dataform in Google Cloud, wenn Sie vollständig zu Dataform in Google Cloud migriert sind.
Weitere Informationen zu den Features von Dataform in Google Cloud finden Sie unter Übersicht über Dataform-Features.
Legacy-Dataform-Features werden in Google Cloud derzeit nicht unterstützt
Die folgenden Features des Legacy-Dataform werden in Dataform in Google Cloud derzeit nicht unterstützt:
- Manuelles Ausführen von Einheitentests.
Es wird in Entwicklungsarbeitsbereichen nach Dateiinhalten gesucht.
Diese Liste wird laufend aktualisiert, sobald neue Features von Dataform in Google Cloud veröffentlicht werden.
Bekannte Einschränkungen
Dataform in Google Cloud hat die folgenden bekannten Einschränkungen:
Dataform in Google Cloud wird in einer einfachen V8-Laufzeit ausgeführt und unterstützt keine zusätzlichen Funktionen und Module, die von Node.js bereitgestellt werden. Wenn Ihre vorhandene Codebasis Node.js-Module erfordert, müssen Sie diese Abhängigkeiten entfernen.
Projekte ohne Namensfeld in
package.json
generieren bei jeder Installation von Paketen Unterschiede beipackage-lock.json
. Um dies zu vermeiden, müssen Sie inpackage.json
einename
-Eigenschaft hinzufügen.git
+https://
URLs für Abhängigkeiten inpackage.json
werden nicht unterstützt.Konvertieren Sie solche URLs in einfache
https://
-Archiv-URLs, z. B.git+https://github.com/dataform-co/dataform-segment.git#1.5
inhttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.
Hinweise
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
BigQuery and Dataform APIs aktivieren.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
BigQuery and Dataform APIs aktivieren.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataform Admin (roles/dataform.admin
) für Repositories zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Importieren eines Legacy-Projekts benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Legacy-Projekt importieren
So importieren Sie ein Legacy-Projekt in Dataform in Google Cloud in der Google Cloud Console:
- Sorgen Sie dafür, dass Ihr Dataform-Projekt in
app.dataform.co
mit GitHub oder GitLab verbunden ist. Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Verbinden Sie das Repository mit dem Remote-Git-Repository, in dem sich Ihr Legacy-Projekt befindet.
Importiertes Dataform-Projekt konfigurieren
So passen Sie Ihr Legacy-Projekt an Dataform in Google Cloud an:
Rufen Sie in der Google Cloud Console die Seite Dataform auf.
Wählen Sie Ihr Repository aus.
Rufen Sie den Entwicklungsarbeitsbereich auf.
Fügen Sie in
dataform.json
den ParameterdefaultLocation
hinzu. Dieser Parameter wird vonapp.dataform.co
ignoriert."defaultLocation": "DATASET_LOCATION",
Ersetzen Sie DATASET_LOCATION durch den Standardspeicherort Ihres BigQuery-Datasets, z. B.
US
,EU
oderus-east1
.Löschen Sie
package-lock.json
.Führen Sie in
package.json
die folgenden Schritte aus:- Führen Sie ein Upgrade von
@dataform/core
auf3.0.0-beta.2
oder höher aus. Fügen Sie einen Paketnamen im folgenden Format hinzu:
{ "name": "PACKAGE_NAME", "dependencies": { "@dataform/core": "^3.0.0-beta.2" } }
Ersetzen Sie PACKAGE_NAME durch einen Namen für das Dataform-Paket, z. B. Ihren Projektnamen.
Konvertieren Sie
git+https://
-URLs inpackage.json
-Abhängigkeiten in einfachehttps://
-Archiv-URLs.Konvertieren Sie beispielsweise
git+https://github.com/dataform-co/dataform-segment.git#1.5
inhttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.Wenn Sie
git+https://
-URLs in vordefinierten Dataform-Paketen verwenden, lesen Sie die aktualisierte Installationsanleitung für diese Pakete auf den zugehörigen Release-Seiten, z. B. auf der Release-Seite für Dataform-Segmente.
- Führen Sie ein Upgrade von
Konfigurieren Sie die BigQuery-Berechtigungen und Nutzerberechtigungen.
Migrieren Sie Umgebungen von
environments.json
, um Konfigurationen zu veröffentlichen.Migrieren Sie Zeitpläne von
environments.json
zu Workflowkonfigurationen.
Nächste Schritte
- Informationen zum Migrieren von Legacy-Umgebungen und -Zeitplänen zu Dataform in Google Cloud finden Sie unter Legacy-Umgebungen und -Zeitpläne migrieren.
- Weitere Informationen zu Dataform in Google Cloud finden Sie unter Dataform-Übersicht.
- Weitere Informationen zu den Features von Dataform in Google Cloud finden Sie unter Übersicht über Dataform-Features.
- Informationen zum Erstellen eines Repositorys finden Sie unter Dataform-Repository erstellen.
- Weitere Informationen zum Codelebenszyklus in Dataform und zu dessen Konfiguration finden Sie unter Einführung in den Codelebenszyklus in Dataform.