Migration von Snowflock zu BigQuery
Dieses Dokument bietet einen technischen Hintergrund für die Migration von Daten von Snowflock zu BigQuery. Es werden die grundlegenden Unterschiede zwischen Snowflake und BigQuery behandelt. Außerdem finden Sie hier Informationen für eine erfolgreiche Migration, z. B. dazu:
- Welche Schemaänderungen erforderlich sind
- Welche Migrationstools und -optionen verfügbar sind
- Wie Daten migriert werden (mit einem Beispielexportprozess)
Verwenden Sie die Batch-SQL-Übersetzung, um Ihre SQL-Skripts im Bulk zu migrieren, oder die interaktive SQL-Übersetzung, um Ad-hoc-Abfragen zu übersetzen. Snowflake SQL wird von beiden Tools in der Vorabversion unterstützt.
Terminologie
In diesem Dokument wird die Snowflake- und BigQuery-Terminologie verwendet, um die Funktionen der einzelnen Produkte zu beschreiben. In der folgenden Tabelle werden Snowflake-Begriffe den entsprechenden BigQuery-Begriffen zugeordnet:
Snowflake | BigQuery |
---|---|
Datenbank | Dataset |
Schema | Schema |
Sitzungsspezifische temporäre oder transiente Tabelle | Anonyme oder temporäre Tabelle |
Anzeigen | Anzeigen |
Sichere Ansichten | Autorisierte Ansichten |
Virtuelles Warehouse | Reservierung |
Materialisierte Ansicht | Materialisierte Ansicht |
Kein Äquivalent für die Partitionierung (da die Mikropartitionierung verwendet wird) | Partitionierung |
Clustering | Clustering |
Sicherheitsoptimierte benutzerdefinierte Funktionen (UDFs) | Autorisierte UDFs |
Architekturvergleich
Snowflake und BigQuery sind beide analytische Data Warehouses, haben aber einige wichtige Architekturunterschiede.
Die Architektur in Snowflake ist eine Mischung aus Datenbankarchitekturen mit freigegebenen Laufwerken und Shared-Nothing-Datenbankarchitekturen. Wie bei Shared-Nothing-Architekturen werden Daten in Snowflake in einem separaten Cloud-Objektspeicherdienst verwaltet. Wie bei einer Architektur mit freigegebenen Laufwerken verwenden Abfragen in Snowflake dedizierte Computing-Cluster. In Snowflake verwaltet jeder Cluster im Cache gespeicherte Teile des gesamten Datasets, um die Abfrageleistung zu beschleunigen. Weitere Informationen finden Sie in der Snowflake-Architektur.
Die Architektur von BigQuery unterscheidet sich erheblich von knotenbasierten Cloud Data Warehouse-Lösungen oder MPP-Systemen. Es entkoppelt Speicherung und Computing, sodass sie unabhängig nach Bedarf skaliert werden können. Weitere Informationen finden Sie unter BigQuery.
Vergleich der Benutzeroberfläche
Die Web-UI von Snowflake spiegelt die Snowflake-Befehlszeile (CLI) wider. Mit beiden Oberflächen können Sie Folgendes tun:
- Datenbanken verwalten
- Warehouses verwalten
- Abfragen und Arbeitsblätter verwalten
- Historische Abfragen aufrufen
In der Weboberfläche können Sie auch das Snowflake-Passwort und die Nutzereinstellungen verwalten.
Der Snowflake-CLI-Client verwendet SnowSQL, um eine Verbindung zu Snowflake herzustellen, um SQL-Abfragen und andere Vorgänge auszuführen.
Die BigQuery-Benutzeroberfläche ist in die Google Cloud Console eingebunden und enthält eine Liste der BigQuery-Ressourcen, die Sie aufrufen können:
- Im Abschnitt BigQuery Studio werden Ihre Datasets, Tabellen, Ansichten und andere BigQuery-Ressourcen angezeigt. Hier können Sie Abfragen erstellen und ausführen, mit Tabellen und Ansichten arbeiten, sich Ihren BigQuery-Jobverlauf ansehen und andere gängige BigQuery-Aufgaben ausführen.
- Im Abschnitt Datenübertragungen wird die BigQuery Data Transfer Service-Seite geöffnet.
- Im Abschnitt Geplante Abfragen werden die geplanten Abfragen angezeigt.
- Im Abschnitt Kapazitätsverwaltung werden Slot-Zusicherungen, Reservierungen und Reservierungszuweisungen angezeigt.
- Der Abschnitt BI Engine öffnet die Seite "BigQuery BI Engine".
BigQuery verfügt auch über ein Befehlszeilentool, das auf Python basiert. Weitere Informationen finden Sie unter bq-Befehlszeilentool verwenden.
Sicherheit
Bei der Migration von Snowflake zu BigQuery müssen Sie berücksichtigen, wie die Sicherheit bei Google Cloud im Allgemeinen und BigQuery im Speziellen anders als bei Snowflake gewährleistet wird.
Snowflake hat verschiedene sicherheitsbezogene Features wie die folgenden:
- Netzwerk- und Websitezugriff
- Konto- und Nutzerauthentifizierung
- Objektsicherheit
- Datensicherheit
- Sicherheitsvalidierungen
Die Sicherheit in Snowflake basiert auf den Features Ihres Cloud-Anbieters. Sie bietet detaillierte Kontrolle über den Zugriff auf Objekte und Objektvorgänge und darüber, wer Zugriffssteuerungsrichtlinien erstellen oder ändern kann.
Die zu den Zugriffssteuerungsberechtigungen in Snowflake parallelen BigQuery-Berechtigungen sind IAM-Rollen (Identity and Access Management) in Google Cloud. Diese Berechtigungen bestimmen, welche Vorgänge für eine Ressource zulässig sind. Berechtigungen werden auf Google Cloud-Ebene erzwungen.
Verschlüsselung
In Snowflake wird die Sicherheit auf Spaltenebene in der Enterprise-Version unterstützt. Vom Kunden verwaltete Verschlüsselungsschlüssel werden in der Business Critical-Version unterstützt. Diese Versionen haben unterschiedliche Preise. In BigQuery werden alle Features und erweiterten Sicherheitsmaßnahmen ohne zusätzliche Kosten als Standardfeatures angeboten.
Snowflake bietet eine End-to-End-Verschlüsselung, bei der alle gespeicherten Daten automatisch verschlüsselt werden. Google Cloud bietet dasselbe Feature, indem standardmäßig alle Daten im ruhenden Zustand und bei der Übertragung verschlüsselt werden.
Ähnlich wie die Snowflake Business Critical-Version unterstützt BigQuery vom Kunden verwaltete Verschlüsselungsschlüssel für Nutzer, die Schlüsselverschlüsselungsschlüssel in Cloud Key Management Service steuern und verwalten möchten. BigQuery ermöglicht auch die Verschlüsselung auf Spaltenebene. Weitere Informationen zur Verschlüsselung in Google Cloud finden Sie unter Verschlüsselung ruhender Daten in Google Cloud und Verschlüsselung bei der Übertragung in Google Cloud.
Rollen
Rollen sind die Entitäten, für die Berechtigungen für sicherbare Objekte gewährt und widerrufen werden können.
Snowflake unterstützt die folgenden zwei Arten von Rollen:
- Systemdefinierte Rollen: Diese Rollen bestehen aus system- und sicherheitsbezogenen Berechtigungen und werden mit Berechtigungen erstellt, die sich auf die Kontoverwaltung beziehen.
- Benutzerdefinierte Rollen: Sie können diese Rollen mit den
SECURITYADMIN
-Rollen oder einer beliebigen Rolle mit der BerechtigungCREATE ROLE
erstellen. Jede benutzerdefinierte Rolle in Snowflake besteht aus Berechtigungen.
In IAM werden Berechtigungen in Rollen gruppiert. IAM bietet drei Arten von Rollen:
- Einfache Rollen: Diese Rollen umfassen die Rollen "Inhaber", "Bearbeiter" und "Betrachter". Sie können diese Rollen auf Projekt- oder Dienstressourcenebene mithilfe der Google Cloud Console, der Identity and Access Management API oder der
gcloud CLI
anwenden. Für die höchste Sicherheit empfehlen wir im Allgemeinen, BigQuery-spezifische Rollen zu verwenden, um dem Prinzip der geringsten Berechtigung zu folgen. - Vordefinierte Rollen: Diese Rollen ermöglichen einen detaillierteren Zugriff auf Features in einem Produkt wie BigQuery und sollen allgemeine Anwendungsfälle und Zugriffssteuerungsmuster unterstützen.
- Benutzerdefinierte Rollen: Diese Rollen bestehen aus benutzerdefinierten Berechtigungen.
Zugriffssteuerung
Mit Snowflake können Sie anderen Rollen Rollen zuweisen und so eine Hierarchie von Rollen erstellen. IAM unterstützt keine Rollenhierarchie, implementiert jedoch eine Ressourcenhierarchie. Die IAM-Hierarchie umfasst die Organisationsebene, die Ordnerebene, die Projektebene und die Ressourcenebene. Sie können IAM-Rollen auf jeder Hierarchieebene festlegen und Ressourcen übernehmen alle Richtlinien der ihnen übergeordneten Ressourcen.
Sowohl Snowflake als auch BigQuery unterstützen die Zugriffssteuerung auf Tabellenebene. Berechtigungen auf Tabellenebene bestimmen, welche Nutzer, Gruppen und Dienstkonten auf eine Tabelle oder Ansicht zugreifen können. Sie können einem Nutzer Zugriff auf bestimmte Tabellen oder Ansichten geben, ohne dadurch Zugriff auf das gesamte Dataset zu gewähren.
Snowflake verwendet außerdem Sicherheit auf Zeilenebene und Sicherheit auf Spaltenebene.
IAM bietet in BigQuery eine Zugriffssteuerung auf Tabellenebene. Für einen detaillierteren Zugriff können Sie auch die Zugriffssteuerung auf Spaltenebene oder die Sicherheit auf Zeilenebene verwenden. Diese Art der Steuerung bietet mithilfe von Richtlinien-Tags oder typbasierten Datenklassifizierungen einen differenzierten Zugriff auf vertrauliche Spalten.
Sie können auch autorisierte Ansichten erstellen, um den Datenzugriff für eine detailliertere Zugriffssteuerung zu beschränken, sodass bestimmte Nutzer eine Ansicht abfragen können, ohne Lesezugriff auf die zugrunde liegenden Tabellen zu haben.
Bei der Migration zu berücksichtigende Punkte
Es gibt einige Snowflake-Features, die Sie nicht direkt nach BigQuery portieren können. BigQuery bietet beispielsweise für die folgenden Szenarien keine integrierte Unterstützung. In diesen Szenarien müssen Sie möglicherweise andere Dienste in Google Cloud verwenden.
Zeitreisen: In BigQuery können Sie mit Zeitreisen auf Daten jedes Zeitpunkts innerhalb der letzten sieben Tage zugreifen. Wenn Sie über sieben Tage hinaus auf Daten zugreifen müssen, sollten Sie den Export regelmäßig geplanter Snapshots in Betracht ziehen. Snowflake bietet Zugriff auf Verlaufsdaten (Daten, die geändert oder gelöscht wurden) für beliebige Zeitpunkte innerhalb eines festgelegten Zeitraums. Sie können diesen Zeitraum auf einen beliebigen Wert zwischen 0 und 90 Tagen festlegen.
Streams: BigQuery unterstützt Change Data Capture (CDC) mit Datastream. Sie können auch CDC-Software wie Debezium verwenden, um Datensätze mit Dataflow in BigQuery zu schreiben. Weitere Informationen zum manuellen Entwerfen einer CDC-Pipeline mit BigQuery finden Sie unter Data Warehouses zu BigQuery migrieren: Change Data Capture (CDC). In Snowflake zeichnet ein Streamobjekt Änderungen der Datenbearbeitungssprache auf, die an Tabellen vorgenommen wurden, sowie Metadaten zu jeder Änderung, damit Sie Aktionen mit den geänderten Daten ausführen können.
Aufgaben: Mit BigQuery können Sie Abfragen und Streams oder die Integration von Streams in Abfragen mit Datastream planen. Snowflake kann Aufgaben mit Tabellenstreams kombinieren und so Workflows kontinuierlich extrahieren, laden und übertragen, um kürzlich geänderte Tabellenzeilen zu verarbeiten.
Externe Funktionen: BigQuery unterstützt externe Funktionsaufrufe über Cloud Run Functions. Sie können außerdem benutzerdefinierte Funktionen (UDF) wie SQL UDF verwenden, aber diese Funktionen werden nicht außerhalb von BigQuery ausgeführt. In Snowflake ruft eine externe Funktion Code auf, der außerhalb von Snowflake ausgeführt wird. Beispielsweise werden Informationen, die an einen Remotedienst gesendet werden, in der Regel über einen Proxydienst weitergeleitet.
Daten von Snowflake zu BigQuery migrieren
In diesem Abschnitt wird beschrieben, wie Sie die Migration von Snowflake zu BigQuery auf Basis des unter Data Warehouses zu BigQuery migrieren: Was und wie migriert wird beschriebenen Frameworks konfigurieren und initiieren.
Architektur
Zum Starten der Migration führen Sie sowohl Snowflake als auch BigQuery aus. Das folgende Diagramm zeigt eine Architektur, die vorhandene Vorgänge nur minimal beeinflusst. Durch die Übertragung sauberer Daten mit kontrollierter Qualität können Sie vorhandene Tools und Prozesse wiederverwenden, während Sie Arbeitslasten zu BigQuery verlagern. Sie können Berichte und Dashboards auch mit alten Versionen validieren. Da OLAP-Daten jedoch an redundanten Orten gespeichert werden, ist dieser Vorgang nicht kostengünstig. Außerdem wird die Verarbeitungszeit verlängert.
- Punkt 1 zeigt Daten, die von Snowflake zu Cloud Storage verschoben werden.
- Punkt 2 zeigt die Persistenz der Daten in BigQuery.
- Punkt 3 zeigt, wie die Daten an den Endnutzer gesendet werden.
Sie können Berichte und Dashboards mit alten Iterationen validieren. Weitere Informationen finden Sie unter Data Warehouses zu BigQuery migrieren: Überprüfen und Validieren.
Die endgültige Architektur für Ihre Data-Warehouse-Migration speichert alle Daten aus Quellsystemen direkt in Google Cloud. Abhängig von der Anzahl und Komplexität der Quellsysteme kann die Bereitstellung dieser Architektur in weitere Schritte aufgeteilt werden, indem die Quellsysteme nacheinander abhängig von ihrer Priorität, von Interdependenzen, Integrationsrisiken oder anderen geschäftlichen Faktoren angegangen werden.
Im folgenden Diagramm wird von der Migration der Datenpipelines und der Aufnahme in Google Cloud ausgegangen.
- Punkt 1 zeigt sowohl synchrone als auch asynchrone Integrationspunkte. Die synchrone Integration erfolgt beispielsweise zwischen Datenquellen und App Engine, wenn es um Anwendungsfälle geht, in denen als Teil des Ablaufs explizite Nutzeraktionen erforderlich sind.
- Punkt 2 zeigt die Verwendung von Pub/Sub für große Mengen gleichzeitiger Ereignisdaten.
- Punkt 3 zeigt die Persistenz von Daten mit einem oder mehreren Google Cloud-Produkten, je nach Art der Daten.
- Punkt 4 zeigt den ETL-Prozess (Extrahieren, Transformieren und Laden) in BigQuery.
Cloud Storage-Umgebung vorbereiten
Google Cloud bietet verschiedene Möglichkeiten, Ihre Daten mit anderen ETL-Tools an BigQuery zu übertragen. Das Muster sieht so aus:
Daten aus der Quelle extrahieren: Kopieren Sie die extrahierten Dateien aus der Quelle in den Staging-Speicher in Ihrer lokalen Umgebung. Weitere Informationen finden Sie unter Data Warehouses zu BigQuery migrieren: Quelldaten extrahieren.
Daten in einen Cloud Storage-Staging-Bucket übertragen: Nachdem Sie Daten aus Ihrer Quelle extrahiert haben, übertragen Sie sie in einen temporären Bucket in Cloud Storage. Je nach der übertragenen Datenmenge und der verfügbaren Netzwerkbandbreite haben Sie mehrere Optionen.
Es ist wichtig, dass sich der Speicherort Ihres BigQuery-Datasets und Ihrer externen Datenquelle oder Ihres Cloud Storage-Buckets in derselben Region befinden. Weitere Informationen zu geografischen Überlegungen zum Laden von Daten aus Cloud Storage finden Sie unter Daten im Batch laden.
Daten aus dem Cloud Storage-Bucket in BigQuery laden: Ihre Daten befinden sich jetzt in einem Cloud Storage-Bucket näher am Ziel. Es gibt verschiedene Möglichkeiten, die Daten in BigQuery hochzuladen. Diese Optionen hängen davon ab, wie stark die Daten transformiert werden müssen. Alternativ können Sie Ihre Daten in BigQuery mithilfe des ETL-Ansatzes transformieren.
Wenn Sie mehrere Daten aus einer JSON-Datei, einer Avro-Datei oder einer CSV-Datei importieren, erkennt BigQuery das Schema automatisch. Sie müssen es also nicht vordefinieren. Eine detaillierte Übersicht über den Schemamigrationsprozess für EDW-Arbeitslasten finden Sie unter Schema- und Datenmigrationsprozess.
Unterstützte Datentypen, Attribute und Dateiformate
Snowflake und BigQuery unterstützen größtenteils dieselben Datentypen, obwohl sie manchmal unterschiedliche Namen verwenden. Eine vollständige Liste der unterstützten Datentypen in Snowflake und BigQuery finden Sie im Abschnitt Datentypen der SQL-Übersetzungsreferenz von Snowflake. Sie können auch den Batch-SQL-Übersetzer zum Übersetzen verwenden. Weitere Informationen zu den von BigQuery unterstützten Datentypen finden Sie unter GoogleSQL-Datentypen.
Snowflake kann Daten in den folgenden Dateiformaten exportieren. Sie können die Formate direkt in BigQuery laden:
- CSV: Weitere Informationen finden Sie unter CSV-Daten aus Cloud Storage laden.
- Parquet: Weitere Informationen finden Sie unter Parquet-Daten aus Cloud Storage laden.
- JSON (durch Zeilenumbruch getrennt): Weitere Informationen finden Sie unter JSON-Daten aus Cloud Storage laden.
Schemaänderungen
Wenn Sie Schemaänderungen bei der Migration zu BigQuery planen, empfehlen wir, dass Sie zuerst Ihr Schema unverändert migrieren. BigQuery unterstützt eine breite Palette von Datenmodell-Designmustern, z. B. Sternschema oder Snowflake-Schema. Aufgrund dieser Unterstützung müssen Sie Ihre vorgelagerten Datenpipelines nicht für ein neues Schema aktualisieren und können automatisierte Migrationstools verwenden, um Ihre Daten und Ihr Schema zu übertragen.
Schema aktualisieren
Sobald sich die Daten in BigQuery befinden, können Sie das Schema jederzeit aktualisieren, indem Sie beispielsweise der Schemadefinition Spalten hinzufügen oder den Modus einer Spalte von REQUIRED
zu NULLABLE
lockern.
BigQuery verwendet für den Tabellennamen Namenskonventionen, bei denen die Groß- und Kleinschreibung berücksichtigt wird, während Snowflake Namensmuster ohne Berücksichtigung der Groß- und Kleinschreibung verwendet. Diese Konvention bedeutet, dass Sie möglicherweise alle Inkonsistenzen in den Namenskonventionen für Tabellen, die in Snowflake vorhanden sein können, noch einmal prüfen und alle Inkonsistenzen, die während der Migration zu BigQuery aufgetreten sind, korrigieren müssen. Weitere Informationen zur Schemaänderung finden Sie unter Tabellenschemas ändern.
Einige Schemaänderungen werden in BigQuery nicht direkt unterstützt und erfordern manuelle Problemumgehungen, einschließlich:
- Name einer Spalte ändern
- Datentyp einer Spalte ändern
- Modus einer Spalte ändern (außer zum Lockern von
REQUIRED
zuNULLABLE
)
Eine genaue Anleitung zum manuellen Implementieren dieser Schemaänderungen finden Sie unter Tabellenschemas manuell ändern.
Optimierung
Nach der Schemamigration können Sie die Leistung testen und anhand der Ergebnisse Optimierungen vornehmen. Sie können beispielsweise die Partitionierung einführen, um die Daten effizienter zu verwalten und abzufragen. Die Partitionierung in BigQuery bezieht sich auf eine spezielle Tabelle, die in Segmente unterteilt ist, die als Partitionen bezeichnet werden. Die Partitionierung unterscheidet sich von der Mikropartitionierung in Snowflake, die automatisch beim Laden von Daten erfolgt. Mit der Partitionierung von BigQuery können Sie die Abfrageleistung und die Kostenkontrolle durch Partitionierung nach Aufnahmezeit, Zeitstempel oder Ganzzahlbereich verbessern. Weitere Informationen finden Sie unter Einführung in partitionierte Tabellen.
Geclusterte Tabellen
Geclusterte Tabellen sind eine weitere Schemaoptimierung. Mit BigQuery können Sie, wie bei Snowflake, Tabellen gruppieren, um Tabellendaten anhand des Inhalts einer oder mehrerer Spalten im Tabellenschema automatisch zu organisieren. BigQuery verwendet die von Ihnen angegebenen Spalten, um verwandte Daten am selben Ort zu platzieren. Clustering kann die Leistung bestimmter Abfragetypen verbessern, z. B. Abfragen, die Filterklauseln verwenden, oder Abfragen, die Daten aggregieren. Weitere Informationen zur Funktionsweise geclusterter Tabellen in BigQuery finden Sie unter Einführung in geclusterte Tabellen.
Migrationstools
In der folgenden Liste werden die Tools beschrieben, mit denen Sie Daten von Snowflake zu BigQuery migrieren können. Diese Tools werden im Abschnitt Beispiele für die Migration mit Pipelines kombiniert, um End-to-End-Migrationspipelines zu erstellen.
- Befehl
COPY INTO <location>
: Verwenden Sie diesen Befehl in Snowflake, um Daten aus einer Snowflake-Tabelle direkt in einen bestimmten Cloud Storage-Bucket zu entladen. Ein End-to-End-Beispiel finden Sie unter Snowflake zu BigQuery (snowflake2bq) auf GitHub. - Apache Sqoop: Wenn Sie Daten aus Snowflake in HDFS oder Cloud Storage extrahieren möchten, senden Sie Hadoop-Jobs mit dem JDBC-Treiber von Sqoop und Snowflake. Sqoop wird in einer Dataproc-Umgebung ausgeführt.
- Snowflake-JDBC: Verwenden Sie diesen Treiber mit den meisten Clienttools oder Anwendungen, die JDBC unterstützen.
Mit den folgenden generischen Tools können Sie Daten von Snowflake zu BigQuery migrieren:
- BigQuery Data Transfer Service: Führen Sie mit diesem vollständig verwalteten Dienst eine automatisierte Batchübertragung von Cloud Storage-Daten nach BigQuery durch. Bei diesem Tool müssen Sie zuerst die Snowflake-Daten nach Cloud Storage exportieren.
- Google Cloud CLI: Mit diesem Befehlszeilentool können Sie heruntergeladene Snowflake-Dateien in Cloud Storage kopieren.
- bq-Befehlszeilentool: Über dieses Befehlszeilentool können Sie mit BigQuery interagieren. Gängige Anwendungsfälle sind z. B. das Erstellen von BigQuery-Tabellenschemas, das Laden von Cloud Storage-Daten in Tabellen und das Ausführen von Abfragen.
- Cloud Storage-Clientbibliotheken: Kopieren Sie heruntergeladene Snowflake-Dateien mit einem benutzerdefinierten Tool, das die Cloud Storage-Clientbibliotheken verwendet, in Cloud Storage.
- BigQuery-Clientbibliotheken: Interagieren Sie mit BigQuery mit einem benutzerdefinierten Tool, das auf der BigQuery-Clientbibliothek basiert.
- BigQuery-Abfrageplaner: Planen Sie wiederkehrende SQL-Abfragen mit diesem integrierten BigQuery-Feature.
- Cloud Composer: Verwenden Sie diese vollständig verwaltete Apache Airflow-Umgebung, um BigQuery-Ladejobs und -Transformationen zu orchestrieren.
Weitere Informationen zum Laden von Daten in BigQuery finden Sie unter Daten in BigQuery laden.
Beispiele für die Migration mit Pipelines
In den folgenden Abschnitten finden Sie Beispiele dafür, wie Sie Ihre Daten mit drei verschiedenen Techniken von Snowflake zu BigQuery migrieren: Extrahieren und Laden, ETL und Partnertools.
Extrahieren und Laden
Die Techniken mit Extrahieren und Laden bietet zwei Methoden:
- Pipeline zum Entladen von Daten aus Snowflake verwenden
- Pipeline und JDBC-Treiber zum Exportieren von Daten aus Snowflake verwenden
Pipeline zum Entladen von Daten aus Snowflake verwenden
Wenn Sie Daten aus Snowflake direkt nach Cloud Storage entladen möchten (empfohlen) oder Daten herunterladen und mithilfe der gcloud CLI oder mit Cloud Storage-Clientbibliotheken in Cloud Storage kopieren möchten, verwenden Sie das snowflake2bq-Tool, um Daten mit dem Snowflake-Befehl COPY INTO <location>
zu migrieren.
Anschließend laden Sie Cloud Storage-Daten mit einem der folgenden Tools in BigQuery:
- BigQuery Data Transfer Service
bq
-Befehlszeilentool- BigQuery API-Clientbibliotheken
Pipeline und JDBC-Treiber zum Exportieren von Daten aus Snowflake verwenden
Verwenden Sie eines der folgenden Produkte, um Snowflake-Daten mit dem JDBC-Treiber aus Snowflake zu exportieren:
- Dataflow
- Cloud Data Fusion
- Dataproc
- BigQuery mit Apache Spark
- Snowflake-Connector für Spark
- BigQuery-Connector für Spark und Hadoop
- Der JDBC-Treiber von Snowflake und Sqoop zum Extrahieren von Daten aus Snowflake in Cloud Storage:
Extrahieren, Transformieren und Laden
Wenn Sie die Daten transformieren möchten, bevor Sie sie in BigQuery laden, können Sie einen Transformationsschritt in die Pipelines einfügen, der im vorherigen Abschnitt Extrahieren und Laden beschrieben wurde.
Snowflake-Daten transformieren
Um Ihre Daten vor dem Laden in BigQuery zu transformieren, entladen Sie die Daten entweder direkt aus Snowflake nach Cloud Storage oder kopieren Sie Daten mit der gcloud CLI, wie im vorherigen Abschnitt Extrahieren und Laden beschrieben.
Snowflake-Daten laden
Nach der Transformation Ihrer Daten haben Sie die Möglichkeit, die Daten mit einer der folgenden Methoden in BigQuery zu laden:
- Dataproc
- Mit Apache Spark aus Cloud Storage lesen
- Mit Apache Spark in BigQuery schreiben
- Hadoop-Cloud Storage-Connector
- Hadoop-BigQuery-Connector
- Dataflow
- Aus Cloud Storage lesen
- In BigQuery schreiben
- Von Google bereitgestellte Vorlage: Cloud Storage-Text nach BigQuery
- Cloud Data Fusion
- Dataprep von Trifacta
Pipeline und JDBC-Treiber zum Transformieren und Exportieren von Daten aus Snowflake verwenden
Fügen Sie in den folgenden Pipelineoptionen einen Transformationsschritt hinzu, wie im vorherigen Abschnitt Extrahieren und Laden beschrieben.
- Dataflow
- Klonen Sie den Code der von Google bereitgestellten JDBC-zu-BigQuery-Vorlage und ändern Sie die Vorlage, um Apache Beam-Transformationen hinzuzufügen.
- Cloud Data Fusion
- Transformieren Sie Ihre Daten mithilfe der CDAP-Plug-ins.
- Dataproc
- Transformieren Sie Ihre Daten mit Spark SQL oder benutzerdefiniertem Code in einer der unterstützten Spark-Sprachen (Scala, Java, Python oder R).
Vielleicht haben Sie einen Anwendungsfall zum Extrahieren, Laden und Transformieren, um die Daten aus Snowflake in BigQuery zu laden und dann zu transformieren. Wenn Sie diese Aufgabe ausführen möchten, laden Sie die Daten aus Snowflake in eine BigQuery-Staging-Tabelle. Verwenden Sie dazu eine der Methoden im vorherigen Abschnitt Extrahieren und Laden. Anschließend führen Sie SQL-Abfragen für die Staging-Tabelle aus und schreiben die Ausgabe in die endgültige Produktionstabelle in BigQuery.
Partnertools für die Migration
Es gibt mehrere Anbieter, die sich auf den EDW-Migrationsraum spezialisiert haben. Eine Liste der wichtigsten Partner und ihrer Lösungen finden Sie unter BigQuery-Partner.
Beispiele für den Exportprozess
In den folgenden Abschnitten wird ein Beispiel für den Export von Daten von Snowflake nach BigQuery gezeigt, bei dem der Befehl COPY INTO <location>
von Snowflake verwendet wird.
Eine detaillierte Schritt-für-Schritt-Anleitung, die Codebeispiele enthält, finden Sie im Artikel zum Tool „Snowflake to BigQuery“ der Google Cloud-Dienstleistungen.
Auf Export vorbereiten
Verwenden Sie zum Entladen die Snowflake-SQL-Anweisungen, um eine benannte Dateiformatspezifikation zu erstellen.
In dieser Anleitung wird my_parquet_unload_format
für das Dateiformat verwendet. Sie können jedoch auch einen anderen Namen verwenden.
create or replace file format my_parquet_unload_format
type = 'PARQUET'
field_delimiter = '|'
Snowflake-Daten exportieren
Nachdem Sie Ihre Daten vorbereitet haben, müssen Sie sie in Google Cloud verschieben. Sie können diesen Schritt über eine der beiden folgenden Methoden ausführen:
- Exportieren Ihrer Daten direkt von Snowflake nach Cloud Storage
- Staging Ihrer Snowflake-Daten in einem Amazon Simple Storage Service-Bucket (Amazon S3) oder in Azure Blob Storage
Sie können Ihre Daten direkt exportieren, um einen zusätzlichen Daten-Hop zu vermeiden.
Snowflake-Daten direkt nach Cloud Storage exportieren
In der folgenden Anleitung wird gezeigt, wie Sie mit dem Snowflake-Befehl COPY
Daten von Snowflake nach Cloud Storage entladen:
Konfigurieren Sie in Snowflake ein Speicherintegrationsobjekt, damit Snowflake in einen Cloud Storage-Bucket schreiben kann, auf den in einer externen Cloud Storage-Phase verwiesen wird.
Dieser Schritt umfasst mehrere Unterschritte.
Erstellen Sie eine Integration mit dem Befehl
CREATE STORAGE INTEGRATION
:create storage integration gcs_int type = external_stage storage_provider = gcs enabled = true storage_allowed_locations = ('gcs://mybucket/unload/')
Rufen Sie das Cloud Storage-Dienstkonto für Snowflake mit dem Befehl
DESCRIBE INTEGRATION
ab und gewähren Sie dem Dienstkonto Berechtigungen für den Zugriff auf den Cloud Storage-Bucket, der als Staging-Bereich ausgewählt ist:desc storage integration gcs_int;
+-----------------------------+---------------+-----------------------------------------------------------------------------+------------------+ | property | property_type | property_value | property_default | +-----------------------------+---------------+-----------------------------------------------------------------------------+------------------| | ENABLED | Boolean | true | false | | STORAGE_ALLOWED_LOCATIONS | List | gcs://mybucket1/path1/,gcs://mybucket2/path2/ | [] | | STORAGE_BLOCKED_LOCATIONS | List | gcs://mybucket1/path1/sensitivedata/,gcs://mybucket2/path2/sensitivedata/ | [] | | STORAGE_GCP_SERVICE_ACCOUNT | String | service-account-id@project1-123456.iam.gserviceaccount.com | | +-----------------------------+---------------+--------------------------------------------------------- --------------------+------------------+
Erstellen Sie eine externe Cloud Storage-Phase, die auf die Integration verweist, die Sie mit dem Befehl
CREATE STAGE
erstellt haben:create or replace stage my_ext_unload_stage url='gcs://mybucket/unload' storage_integration = gcs_int file_format = my_parquet_unload_format;
Verwenden Sie den Befehl
COPY INTO <location>
, um Daten aus der Snowflake-Datenbank in einen Cloud Storage-Bucket zu kopieren. Geben Sie dazu das Objekt der externen Phase an, das Sie im vorherigen Schritt erstellt haben:copy into @my_ext_unload_stage/d1 from mytable;
Snowflake-Daten über Storage Transfer Service von Amazon S3 nach Cloud Storage exportieren
Das folgende Beispiel zeigt, wie Sie mit dem Befehl COPY
Daten aus einer Snowflake-Tabelle in einen Amazon S3-Bucket entladen:
Konfigurieren Sie in Snowflake ein Speicherintegrationsobjekt, damit Snowflake in einen Amazon S3-Bucket schreiben kann, auf den in einer externen Cloud Storage-Phase verwiesen wird.
Dieser Schritt umfasst die Konfiguration von Zugriffsberechtigungen für den Amazon S3-Bucket, das Erstellen der AWS IAM-Rolle und das Erstellen einer Speicherintegration in Snowflake mit dem Befehl
CREATE STORAGE INTEGRATION
:create storage integration s3_int type = external_stage storage_provider = s3 enabled = true storage_aws_role_arn = 'arn:aws:iam::001234567890:role/myrole' storage_allowed_locations = ('s3://unload/files/')
Rufen Sie den AWS IAM-Nutzer mit dem Befehl
DESCRIBE INTEGRATION
ab:desc integration s3_int;
+---------------------------+---------------+================================================================================+------------------+ | property | property_type | property_value | property_default | +---------------------------+---------------+================================================================================+------------------| | ENABLED | Boolean | true | false | | STORAGE_ALLOWED_LOCATIONS | List | s3://mybucket1/mypath1/,s3://mybucket2/mypath2/ | [] | | STORAGE_BLOCKED_LOCATIONS | List | s3://mybucket1/mypath1/sensitivedata/,s3://mybucket2/mypath2/sensitivedata/ | [] | | STORAGE_AWS_IAM_USER_ARN | String | arn:aws:iam::123456789001:user/abc1-b-self1234 | | | STORAGE_AWS_ROLE_ARN | String | arn:aws:iam::001234567890:role/myrole | | | STORAGE_AWS_EXTERNAL_ID | String | MYACCOUNT_SFCRole=
| | +---------------------------+---------------+================================================================================+------------------+ Gewähren Sie dem AWS IAM-Nutzer Berechtigungen zum Zugriff auf den Amazon S3-Bucket und erstellen Sie eine externe Phase mit dem Befehl
CREATE STAGE
:create or replace stage my_ext_unload_stage url='s3://unload/files/' storage_integration = s3_int file_format = my_parquet_unload_format;
Kopieren Sie mit dem Befehl
COPY INTO <location>
die Daten aus der Snowflake-Datenbank in den Amazon S3-Bucket, indem Sie das Objekt der externen Phase angeben, das Sie zuvor erstellt haben:copy into @my_ext_unload_stage/d1 from mytable;
Übertragen Sie die exportierten Dateien mit Storage Transfer Service nach Cloud Storage.
Exportieren Sie Snowflake-Daten über andere Cloud-Anbieter nach Cloud Storage:
Azure Blob Storage: Führen Sie die Schritte unter In Microsoft Azure entladen aus. Übertragen Sie dann die exportierten Dateien mit Storage Transfer Service nach Cloud Storage.
Amazon S3-Bucket: Folgen Sie der Anleitung unter In Amazon S3 entladen. Übertragen Sie dann die exportierten Dateien mithilfe von Storage Transfer Service nach Cloud Storage.
Nächste Schritte
- Leistung und Optimierung nach der Migration.
- Referenzarchitekturen, Diagramme und Best Practices zu Google Cloud kennenlernen. Weitere Informationen zu Cloud Architecture Center