Schritt 3: Integrationsmechanismus festlegen
Auf dieser Seite wird der dritte Schritt zur Bereitstellung der Cortex Framework Data Foundation beschrieben, dem Kern des Cortex-Frameworks. In diesem Schritt konfigurieren Sie die Integration mit der ausgewählten Datenquelle. Wenn Sie Beispieldaten verwenden, überspringen Sie diesen Schritt.
Überblick über die Integration
Mit Cortex Framework können Sie Daten aus verschiedenen Quellen und anderen Plattformen zentralisieren. So entsteht eine zentrale Datenquelle für Ihre Daten. Cortex Data Foundation lässt sich auf unterschiedliche Weise in jede Datenquelle einbinden. Die meisten davon folgen jedoch einem ähnlichen Verfahren:
- Ebene „Quelle bis Rohdaten“:Daten mithilfe von APIs aus der Datenquelle in den Rohdatensatz aufnehmen. Dazu werden Dataflow-Pipelines verwendet, die über Cloud Composer-DAGs ausgelöst werden.
- Rohdatenebene in CDC-Ebene: Wenden Sie die CDC-Verarbeitung auf den Rohdatensatz an und speichern Sie die Ausgabe im CDC-Datensatz. Dazu werden BigQuery-SQLs in Cloud Composer-DAGs ausgeführt.
- CDC-Ebene in Berichtsebene:Hiermit werden endgültige Berichtstabellen aus CDC-Tabellen im Berichtsdatensatz erstellt. Je nach Konfiguration können Sie dazu entweder Laufzeitansichten auf CDC-Tabellen erstellen oder Cloud Composer-DAGs für materialisierte Daten in BigQuery-Tabellen ausführen. Weitere Informationen zur Konfiguration finden Sie unter Datei mit Berichtseinstellungen anpassen.
In der Datei config.json
werden die Einstellungen konfiguriert, die für die Verbindung zu Datenquellen zur Übertragung von Daten aus verschiedenen Arbeitslasten erforderlich sind. Informationen zu den Integrationsoptionen für die einzelnen Datenquellen finden Sie in den folgenden Ressourcen.
- Betriebsbereit:
- Marketing:
- Nachhaltigkeit:
Weitere Informationen zu den Entitäts-Beziehungs-Diagrammen, die von den einzelnen Datenquellen unterstützt werden, finden Sie im Ordner docs
im Cortex Framework Data Foundation-Repository.
K9-Bereitstellung
Der K9-Bereitsteller vereinfacht die Integration verschiedener Datenquellen. Der K9-Bereitsteller ist ein vordefinierter Datensatz in der BigQuery-Umgebung, der für die Aufnahme, Verarbeitung und Modellierung von Komponenten verantwortlich ist, die für verschiedene Datenquellen wiederverwendet werden können.
Die Dimension time
kann beispielsweise für alle Datenquellen wiederverwendet werden, in denen Tabellen Analyseergebnisse auf der Grundlage eines gregorianischen Kalenders enthalten müssen. Der K9-Bereitsteller kombiniert externe Daten wie Wetter oder Google Trends mit anderen Datenquellen (z. B. SAP, Salesforce, Marketing). Dieser angereicherte Datensatz ermöglicht aussagekräftigere Informationen und umfassendere Analysen.
Das folgende Diagramm zeigt den Datenfluss von verschiedenen Rohdatenquellen zu verschiedenen Berichtsebenen:
Im Diagramm enthält das Quellprojekt die Rohdaten aus den ausgewählten Datenquellen (SAP, Salesforce und Marketing). Das Zielprojekt enthält verarbeitete Daten, die aus dem CDC-Prozess (Change Data Capture) stammen.
Der K9-Vorverarbeitungsschritt wird ausgeführt, bevor alle Arbeitslasten bereitgestellt werden. Die wiederverwendbaren Modelle sind daher während der Bereitstellung verfügbar. In diesem Schritt werden Daten aus verschiedenen Quellen transformiert, um einen einheitlichen und wiederverwendbaren Datensatz zu erstellen.
Die K9-Schritte der Nachverarbeitung werden ausgeführt, nachdem die Berichtsmodelle für alle Arbeitslasten bereitgestellt wurden, um arbeitslastübergreifende Berichte zu ermöglichen, oder die Modelle erweitert wurden, um die erforderlichen Abhängigkeiten innerhalb der einzelnen Berichtsdatensätze zu ermitteln.
K9-Bereitstellung konfigurieren
Konfigurieren Sie die gerichteten azyklischen Graphen (DAGs) und Modelle, die in der K9-Konfigurationsdatei generiert werden sollen.
Der K9-Vorverarbeitungsschritt ist wichtig, da er dafür sorgt, dass alle Arbeitslasten innerhalb der Datenpipeline auf konsistent aufbereitete Daten zugreifen können. So wird Redundanz reduziert und für Datenkonsistenz gesorgt.
Weitere Informationen zum Konfigurieren externer Datensätze für K9 finden Sie unter Externe Datensätze für K9 konfigurieren.
Nächste Schritte
Fahren Sie nach Abschluss dieses Schritts mit den folgenden Bereitstellungsschritten fort:
- Arbeitslasten festlegen
- Repository klonen
- Integrationsmechanismus festlegen (diese Seite)
- Komponenten einrichten
- Bereitstellung konfigurieren
- Bereitstellung ausführen