Schritt 5: Bereitstellung konfigurieren
Auf dieser Seite wird der fünfte Schritt zur Bereitstellung der Cortex Framework Data Foundation beschrieben, dem Kern des Cortex-Frameworks. In diesem Schritt ändern Sie die Konfigurationsdatei im Cortex Framework Data Foundation-Repository entsprechend Ihren Anforderungen.
Konfigurationsdatei
Das Verhalten der Bereitstellung wird durch die Konfigurationsdatei config.json
in der Cortex Framework Data Foundation gesteuert. Diese Datei enthält die globale Konfiguration und die Konfiguration für jede Arbeitslast.
Bearbeiten Sie die Datei config.json
wie unten beschrieben:
- Öffnen Sie die Datei
config.json
in Cloud Shell. Bearbeiten Sie die Datei
config.json
gemäß den folgenden Parametern:Parameter Bedeutung Standardwert Beschreibung testData
Testdaten bereitstellen true
Projekt, in dem sich das Quell-Dataset befindet und der Build ausgeführt wird. Hinweis: Die Bereitstellung von Testdaten wird nur ausgeführt, wenn der Rohdatensatz leer ist und keine Tabellen enthält. deploySAP
SAP bereitstellen true
Führen Sie die Bereitstellung für die SAP-Arbeitslast (ECC oder S/4HANA) aus. deploySFDC
Salesforce bereitstellen true
Führen Sie die Bereitstellung für die Salesforce-Arbeitslast aus. deployMarketing
Marketing bereitstellen true
Implementieren Sie die Bereitstellung für Marketingquellen (Google Ads, CM360 und TikTok). deployOracleEBS
Oracle EBS bereitstellen true
Führen Sie die Bereitstellung für die Oracle EBS-Arbeitslast aus. deployDataMesh
Data Mesh bereitstellen true
Führen Sie die Bereitstellung für Data Mesh aus. Weitere Informationen finden Sie im Data Mesh-Nutzerhandbuch. turboMode
Bereitstellung im Turbomodus true
Alle Builds für Ansichten als Schritt im selben Cloud Build-Prozess parallel ausführen, um die Bereitstellung zu beschleunigen. Wenn false
festgelegt ist, wird jede Berichtsdatenansicht in einem eigenen sequenziellen Build-Schritt generiert. Wir empfehlen, diesen Wert nur dann auftrue
festzulegen, wenn Sie Testdaten verwenden oder alle Abweichungen zwischen Berichtsspalten und den Quelldaten behoben wurden.projectIdSource
Quellprojekt-ID - Projekt, in dem sich das Quell-Dataset befindet und der Build ausgeführt wird. projectIdTarget
ID des Zielprojekts - Zielprojekt für nutzerorientierte Datensätze (Berichts- und ML-Datensätze). targetBucket
Ziel-Bucket zum Speichern generierter DAG-Scripts - Zurzeit vorhandener Bucket, in dem DAGs (und Dataflow-Temporärdateien) generiert werden. Verwenden Sie nicht den eigentlichen Airflow-Bucket. location
Standort oder Region "US"
Speicherort des BigQuery-Datasets und der Cloud Storage-Buckets. Weitere Informationen finden Sie unter BigQuery-Datensatzstandorte.
testDataProject
Quelle für Test-Harnisch kittycorn-public
Quelle der Testdaten für Demo-Bereitstellungen. Gilt, wenn testData
true
ist.Ändern Sie diesen Wert nur, wenn Sie einen eigenen Test-Harness haben.
k9.datasets.processing
K9-Datasets – Verarbeitung "K9_PROCESSING"
Führen Sie arbeitslastübergreifende Vorlagen (z. B. Datumsdimension) aus, wie in der K9-Konfigurationsdatei definiert. Diese Vorlagen werden normalerweise von den Downstream-Arbeitslasten benötigt. k9.datasets.reporting
K9-Datasets – Berichte "K9_REPORTING"
Ausführen von arbeitslastübergreifenden Vorlagen und externen Datenquellen (z. B. Wetter), wie in der K9-Konfigurationsdatei definiert. Standardmäßig auskommentiert. DataMesh.deployDescriptions
Data Mesh – Asset-Beschreibungen true
BigQuery-Asset-Schemabeschreibungen bereitstellen DataMesh.deployLakes
Data Mesh – Lakes und Zonen false
Die Bereitstellung von Dataplex-Lakes und ‑Zonen, in denen Tabellen nach Verarbeitungsebene organisiert werden, erfordert eine Konfiguration, bevor sie aktiviert werden können. DataMesh.deployCatalog
Data Mesh – Katalog-Tags und ‑Vorlagen false
Data Catalog-Tags bereitstellen, die benutzerdefinierte Metadaten für BigQuery-Assets oder ‑Felder zulassen. Vor der Aktivierung ist eine Konfiguration erforderlich. DataMesh.deployACLs
Data Mesh – Zugriffssteuerung false
Zugriffssteuerung auf Asset-, Zeilen- oder Spaltenebene für BigQuery-Assets bereitstellen. Muss vor der Aktivierung konfiguriert werden. Konfigurieren Sie die erforderlichen Arbeitslasten nach Bedarf. Sie müssen sie nicht konfigurieren, wenn der Bereitstellungsparameter (z. B.
deploySAP
oderdeployMarketing
) für die Arbeitslast aufFalse
festgelegt ist. Weitere Informationen finden Sie unter Schritt 3: Integrationsmechanismus bestimmen.
Die folgenden optionalen Schritte können Sie ausführen, um Ihre Bereitstellung weiter anzupassen:
- Telemetrie deaktivieren
- Konfiguration externer Datensätze für K9
- Prüfen Sie, ob
CORTEX-CUSTOMER
-Tags vorhanden sind.
Leistungsoptimierung für Berichtsaufrufe
Berichtsartefakte können als Ansichten oder als Tabellen erstellt werden, die regelmäßig über DAGs aktualisiert werden. Bei Ansichten werden die Daten bei jeder Ausführung einer Abfrage berechnet, sodass die Ergebnisse immer aktuell sind. In der Tabelle werden die Berechnungen dagegen nur einmal ausgeführt und die Ergebnisse können mehrmals abgefragt werden, ohne dass höhere Rechenkosten anfallen und die Laufzeit schneller wird. Jeder Kunde erstellt seine eigene Konfiguration entsprechend seinen Anforderungen.
Die materialisierten Ergebnisse werden in einer Tabelle aktualisiert. Diese Tabellen können durch Partitionierung und Clustering weiter optimiert werden.
Die Konfigurationsdateien für jede Arbeitslast befinden sich im Cortex Framework Data Foundation-Repository unter den folgenden Pfaden:
Datenquelle | Dateien mit Einstellungen |
Betrieb – SAP | src/SAP/SAP_REPORTING/reporting_settings_ecc.yaml
|
Operativ – Salesforce Sales Cloud | src/SFDC/config/reporting_settings.yaml
|
Operativ – Oracle EBS | src/oracleEBS/config/reporting_settings.yaml
|
Marketing – Google Ads | src/marketing/src/GoogleAds/config/reporting_settings.yaml
|
Marketing – CM360 | src/marketing/src/CM360/config/reporting_settings.yaml
|
Marketing – Meta | src/marketing/src/Meta/config/reporting_settings.yaml
|
Marketing – Salesforce Marketing Cloud | src/marketing/src/SFMC/config/reporting_settings.yaml
|
Marketing – TikTok | src/marketing/src/TikTok/config/reporting_settings.yaml
|
Marketing – YouTube (mit DV360) | src/marketing/src/DV360/config/reporting_settings.yaml
|
Marketing – Google Analytics 4 | src/marketing/src/GA4/config/reporting_settings.yaml
|
Marketing – Erkenntnisse zu medienübergreifenden und produktbezogenen Daten | src/marketing/src/CrossMedia/config/reporting_settings.yaml
|
Datei mit Berichtseinstellungen anpassen
Die reporting_settings
-Dateien legen fest, wie die BigQuery-Objekte (Tabellen oder Ansichten) für Berichtsdatensätze erstellt werden. Passen Sie die Datei anhand der folgenden Parameterbeschreibungen an. Angenommen, diese Datei enthält zwei Abschnitte:
bq_independent_objects
: Alle BigQuery-Objekte, die unabhängig voneinander erstellt werden können, ohne andere Abhängigkeiten. WennTurbo mode
aktiviert ist, werden diese BigQuery-Objekte während der Bereitstellung parallel erstellt, was den Bereitstellungsprozess beschleunigt.bq_dependent_objects
: Alle BigQuery-Objekte, die aufgrund von Abhängigkeiten von anderen BigQuery-Objekten in einer bestimmten Reihenfolge erstellt werden müssen.Turbo mode
gilt nicht für diesen Abschnitt.
Der Entwickler erstellt zuerst alle in bq_independent_objects
aufgeführten BigQuery-Objekte und dann alle in bq_dependent_objects
aufgeführten Objekte. Definieren Sie für jedes Objekt die folgenden Eigenschaften:
sql_file
: Name der SQL-Datei, mit der ein bestimmtes Objekt erstellt wird.type
: Typ des BigQuery-Objekts. Mögliche Werte:view
: Wenn das Objekt eine BigQuery-Ansicht sein soll.table
: Wenn das Objekt eine BigQuery-Tabelle sein soll.script
: Damit können andere Objekttypen erstellt werden, z. B. BigQuery-Funktionen und gespeicherte Prozesse.
- Wenn
type
auftable
gesetzt ist, können die folgenden optionalen Properties definiert werden:load_frequency
: Häufigkeit, mit der ein Composer-DAG ausgeführt wird, um diese Tabelle zu aktualisieren. Weitere Informationen zu den möglichen Werten finden Sie in der Airflow-Dokumentation.partition_details
: Wie die Tabelle partitioniert werden soll. Dieser Wert ist optional. Weitere Informationen finden Sie im Abschnitt Tabellenpartition.cluster_details
: Wie die Tabelle gruppiert werden soll. Dieser Wert ist optional. Weitere Informationen finden Sie im Abschnitt Clustereinstellungen.
Tabellenpartition
Mit bestimmten Konfigurationsdateien können Sie materialisierte Tabellen mit benutzerdefinierten Clustering- und Partitionierungsoptionen konfigurieren. Dies kann die Abfrageleistung für große Datenmengen erheblich verbessern. Diese Option gilt nur für SAP cdc_settings.yaml
- und alle reporting_settings.yaml
-Dateien.
Die Tabellenpartitionierung kann durch Angabe der folgenden Optionen aktiviert werden:partition_details
- base_table: vbap
load_frequency: "@daily"
partition_details: {
column: "erdat", partition_type: "time", time_grain: "day" }
Mit den folgenden Parametern können Sie die Partitionierungsdetails für eine bestimmte Tabelle steuern:
Attribut | Beschreibung | Wert |
column
|
Spalte, nach der die CDC-Tabelle partitioniert ist. | Spaltenname. |
partition_type
|
Partitionstyp. | "time" für die zeitbasierte Partitionierung. Weitere Informationen finden Sie unter Nach Zeitstempel partitionierte Tabellen.
"integer_range" für eine ganzzahlbasierte Partition. Weitere Informationen finden Sie in der Dokumentation zu Ganzzahlbereichen.
|
time_grain
|
Uhrzeitteil, mit dem partitioniert werden soll. Ist für partition_type = "time" erforderlich.
|
"hour" , "day" , "month" oder "year" .
|
integer_range_bucket
|
Bucket-Bereich
Erforderlich, wenn partition_type = "integer_range"
|
"start" = Startwert, "end" = Endwert und "interval " = Intervall des Bereichs.
|
Weitere Informationen zu den Optionen und zugehörigen Einschränkungen finden Sie unter BigQuery-Tabellenpartition.
Clustereinstellungen
Das Tabellen-Clustering kann aktiviert werden, indem cluster_details
angegeben wird:
- base_table: vbak
load_frequency: "@daily"
cluster_details: {columns: ["vkorg"]}
Mit den folgenden Parametern können Sie Clusterdetails für eine bestimmte Tabelle steuern:
Attribut | Beschreibung | Wert |
columns
|
Spalten, nach denen eine Tabelle gruppiert wird. | Liste der Spaltennamen. Beispiel: "mjahr" und "matnr" .
|
Weitere Informationen zu Optionen und zugehörigen Einschränkungen finden Sie in der Dokumentation zu Tabellenclustern.
Nächste Schritte
Fahren Sie nach Abschluss dieses Schritts mit dem nächsten Schritt der Bereitstellung fort:
- Arbeitslasten festlegen
- Repository klonen
- Integrationsmechanismus festlegen
- Komponenten einrichten
- Bereitstellung konfigurieren (diese Seite)
- Bereitstellung ausführen