Schritt 5: Bereitstellung konfigurieren

Auf dieser Seite wird der fünfte Schritt zur Bereitstellung der Cortex Framework Data Foundation beschrieben, dem Kern des Cortex-Frameworks. In diesem Schritt ändern Sie die Konfigurationsdatei im Cortex Framework Data Foundation-Repository entsprechend Ihren Anforderungen.

Konfigurationsdatei

Das Verhalten der Bereitstellung wird durch die Konfigurationsdatei config.json in der Cortex Framework Data Foundation gesteuert. Diese Datei enthält die globale Konfiguration und die Konfiguration für jede Arbeitslast. Bearbeiten Sie die Datei config.json wie unten beschrieben:

  1. Öffnen Sie die Datei config.json in Cloud Shell.
  2. Bearbeiten Sie die Datei config.json gemäß den folgenden Parametern:

    Parameter Bedeutung Standardwert Beschreibung
    testData Testdaten bereitstellen true Projekt, in dem sich das Quell-Dataset befindet und der Build ausgeführt wird. Hinweis: Die Bereitstellung von Testdaten wird nur ausgeführt, wenn der Rohdatensatz leer ist und keine Tabellen enthält.
    deploySAP SAP bereitstellen true Führen Sie die Bereitstellung für die SAP-Arbeitslast (ECC oder S/4HANA) aus.
    deploySFDC Salesforce bereitstellen true Führen Sie die Bereitstellung für die Salesforce-Arbeitslast aus.
    deployMarketing Marketing bereitstellen true Implementieren Sie die Bereitstellung für Marketingquellen (Google Ads, CM360 und TikTok).
    deployOracleEBS Oracle EBS bereitstellen true Führen Sie die Bereitstellung für die Oracle EBS-Arbeitslast aus.
    deployDataMesh Data Mesh bereitstellen true Führen Sie die Bereitstellung für Data Mesh aus. Weitere Informationen finden Sie im Data Mesh-Nutzerhandbuch.
    turboMode Bereitstellung im Turbomodus true Alle Builds für Ansichten als Schritt im selben Cloud Build-Prozess parallel ausführen, um die Bereitstellung zu beschleunigen. Wenn false festgelegt ist, wird jede Berichtsdatenansicht in einem eigenen sequenziellen Build-Schritt generiert. Wir empfehlen, diesen Wert nur dann auf true festzulegen, wenn Sie Testdaten verwenden oder alle Abweichungen zwischen Berichtsspalten und den Quelldaten behoben wurden.
    projectIdSource Quellprojekt-ID - Projekt, in dem sich das Quell-Dataset befindet und der Build ausgeführt wird.
    projectIdTarget ID des Zielprojekts - Zielprojekt für nutzerorientierte Datensätze (Berichts- und ML-Datensätze).
    targetBucket Ziel-Bucket zum Speichern generierter DAG-Scripts - Zurzeit vorhandener Bucket, in dem DAGs (und Dataflow-Temporärdateien) generiert werden. Verwenden Sie nicht den eigentlichen Airflow-Bucket.
    location Standort oder Region "US" Speicherort des BigQuery-Datasets und der Cloud Storage-Buckets.

    Weitere Informationen finden Sie unter BigQuery-Datensatzstandorte.

    testDataProject Quelle für Test-Harnisch kittycorn-public Quelle der Testdaten für Demo-Bereitstellungen. Gilt, wenn testData true ist.

    Ändern Sie diesen Wert nur, wenn Sie einen eigenen Test-Harness haben.

    k9.datasets.processing K9-Datasets – Verarbeitung "K9_PROCESSING" Führen Sie arbeitslastübergreifende Vorlagen (z. B. Datumsdimension) aus, wie in der K9-Konfigurationsdatei definiert. Diese Vorlagen werden normalerweise von den Downstream-Arbeitslasten benötigt.
    k9.datasets.reporting K9-Datasets – Berichte "K9_REPORTING" Ausführen von arbeitslastübergreifenden Vorlagen und externen Datenquellen (z. B. Wetter), wie in der K9-Konfigurationsdatei definiert. Standardmäßig auskommentiert.
    DataMesh.deployDescriptions Data Mesh – Asset-Beschreibungen true BigQuery-Asset-Schemabeschreibungen bereitstellen
    DataMesh.deployLakes Data Mesh – Lakes und Zonen false Die Bereitstellung von Dataplex-Lakes und ‑Zonen, in denen Tabellen nach Verarbeitungsebene organisiert werden, erfordert eine Konfiguration, bevor sie aktiviert werden können.
    DataMesh.deployCatalog Data Mesh – Katalog-Tags und ‑Vorlagen false Data Catalog-Tags bereitstellen, die benutzerdefinierte Metadaten für BigQuery-Assets oder ‑Felder zulassen. Vor der Aktivierung ist eine Konfiguration erforderlich.
    DataMesh.deployACLs Data Mesh – Zugriffssteuerung false Zugriffssteuerung auf Asset-, Zeilen- oder Spaltenebene für BigQuery-Assets bereitstellen. Muss vor der Aktivierung konfiguriert werden.
  3. Konfigurieren Sie die erforderlichen Arbeitslasten nach Bedarf. Sie müssen sie nicht konfigurieren, wenn der Bereitstellungsparameter (z. B. deploySAP oder deployMarketing) für die Arbeitslast auf False festgelegt ist. Weitere Informationen finden Sie unter Schritt 3: Integrationsmechanismus bestimmen.

Die folgenden optionalen Schritte können Sie ausführen, um Ihre Bereitstellung weiter anzupassen:

Leistungsoptimierung für Berichtsaufrufe

Berichtsartefakte können als Ansichten oder als Tabellen erstellt werden, die regelmäßig über DAGs aktualisiert werden. Bei Ansichten werden die Daten bei jeder Ausführung einer Abfrage berechnet, sodass die Ergebnisse immer aktuell sind. In der Tabelle werden die Berechnungen dagegen nur einmal ausgeführt und die Ergebnisse können mehrmals abgefragt werden, ohne dass höhere Rechenkosten anfallen und die Laufzeit schneller wird. Jeder Kunde erstellt seine eigene Konfiguration entsprechend seinen Anforderungen.

Die materialisierten Ergebnisse werden in einer Tabelle aktualisiert. Diese Tabellen können durch Partitionierung und Clustering weiter optimiert werden.

Die Konfigurationsdateien für jede Arbeitslast befinden sich im Cortex Framework Data Foundation-Repository unter den folgenden Pfaden:

Datenquelle Dateien mit Einstellungen
Betrieb – SAP src/SAP/SAP_REPORTING/reporting_settings_ecc.yaml
Operativ – Salesforce Sales Cloud src/SFDC/config/reporting_settings.yaml
Operativ – Oracle EBS src/oracleEBS/config/reporting_settings.yaml
Marketing – Google Ads src/marketing/src/GoogleAds/config/reporting_settings.yaml
Marketing – CM360 src/marketing/src/CM360/config/reporting_settings.yaml
Marketing – Meta src/marketing/src/Meta/config/reporting_settings.yaml
Marketing – Salesforce Marketing Cloud src/marketing/src/SFMC/config/reporting_settings.yaml
Marketing – TikTok src/marketing/src/TikTok/config/reporting_settings.yaml
Marketing – YouTube (mit DV360) src/marketing/src/DV360/config/reporting_settings.yaml
Marketing – Google Analytics 4 src/marketing/src/GA4/config/reporting_settings.yaml
Marketing – Erkenntnisse zu medienübergreifenden und produktbezogenen Daten src/marketing/src/CrossMedia/config/reporting_settings.yaml

Datei mit Berichtseinstellungen anpassen

Die reporting_settings-Dateien legen fest, wie die BigQuery-Objekte (Tabellen oder Ansichten) für Berichtsdatensätze erstellt werden. Passen Sie die Datei anhand der folgenden Parameterbeschreibungen an. Angenommen, diese Datei enthält zwei Abschnitte:

  1. bq_independent_objects: Alle BigQuery-Objekte, die unabhängig voneinander erstellt werden können, ohne andere Abhängigkeiten. Wenn Turbo mode aktiviert ist, werden diese BigQuery-Objekte während der Bereitstellung parallel erstellt, was den Bereitstellungsprozess beschleunigt.
  2. bq_dependent_objects: Alle BigQuery-Objekte, die aufgrund von Abhängigkeiten von anderen BigQuery-Objekten in einer bestimmten Reihenfolge erstellt werden müssen. Turbo mode gilt nicht für diesen Abschnitt.

Der Entwickler erstellt zuerst alle in bq_independent_objects aufgeführten BigQuery-Objekte und dann alle in bq_dependent_objects aufgeführten Objekte. Definieren Sie für jedes Objekt die folgenden Eigenschaften:

  1. sql_file: Name der SQL-Datei, mit der ein bestimmtes Objekt erstellt wird.
  2. type: Typ des BigQuery-Objekts. Mögliche Werte:
    • view : Wenn das Objekt eine BigQuery-Ansicht sein soll.
    • table: Wenn das Objekt eine BigQuery-Tabelle sein soll.
    • script: Damit können andere Objekttypen erstellt werden, z. B. BigQuery-Funktionen und gespeicherte Prozesse.
  3. Wenn type auf table gesetzt ist, können die folgenden optionalen Properties definiert werden:
    • load_frequency: Häufigkeit, mit der ein Composer-DAG ausgeführt wird, um diese Tabelle zu aktualisieren. Weitere Informationen zu den möglichen Werten finden Sie in der Airflow-Dokumentation.
    • partition_details: Wie die Tabelle partitioniert werden soll. Dieser Wert ist optional. Weitere Informationen finden Sie im Abschnitt Tabellenpartition.
    • cluster_details: Wie die Tabelle gruppiert werden soll. Dieser Wert ist optional. Weitere Informationen finden Sie im Abschnitt Clustereinstellungen.

Tabellenpartition

Mit bestimmten Konfigurationsdateien können Sie materialisierte Tabellen mit benutzerdefinierten Clustering- und Partitionierungsoptionen konfigurieren. Dies kann die Abfrageleistung für große Datenmengen erheblich verbessern. Diese Option gilt nur für SAP cdc_settings.yaml- und alle reporting_settings.yaml-Dateien.

Die Tabellenpartitionierung kann durch Angabe der folgenden Optionen aktiviert werden:partition_details

- base_table: vbap
  load_frequency: "@daily"
  partition_details: {
    column: "erdat", partition_type: "time", time_grain: "day" }

Mit den folgenden Parametern können Sie die Partitionierungsdetails für eine bestimmte Tabelle steuern:

Attribut Beschreibung Wert
column Spalte, nach der die CDC-Tabelle partitioniert ist. Spaltenname.
partition_type Partitionstyp. "time" für die zeitbasierte Partitionierung. Weitere Informationen finden Sie unter Nach Zeitstempel partitionierte Tabellen. "integer_range" für eine ganzzahlbasierte Partition. Weitere Informationen finden Sie in der Dokumentation zu Ganzzahlbereichen.
time_grain Uhrzeitteil, mit dem partitioniert werden soll. Ist für partition_type = "time" erforderlich. "hour", "day", "month" oder "year".
integer_range_bucket Bucket-Bereich Erforderlich, wenn partition_type = "integer_range" "start" = Startwert, "end" = Endwert und "interval" = Intervall des Bereichs.

Weitere Informationen zu den Optionen und zugehörigen Einschränkungen finden Sie unter BigQuery-Tabellenpartition.

Clustereinstellungen

Das Tabellen-Clustering kann aktiviert werden, indem cluster_details angegeben wird:

  - base_table: vbak
    load_frequency: "@daily"
    cluster_details: {columns: ["vkorg"]}

Mit den folgenden Parametern können Sie Clusterdetails für eine bestimmte Tabelle steuern:

Attribut Beschreibung Wert
columns Spalten, nach denen eine Tabelle gruppiert wird. Liste der Spaltennamen. Beispiel: "mjahr" und "matnr".

Weitere Informationen zu Optionen und zugehörigen Einschränkungen finden Sie in der Dokumentation zu Tabellenclustern.

Nächste Schritte

Fahren Sie nach Abschluss dieses Schritts mit dem nächsten Schritt der Bereitstellung fort:

  1. Arbeitslasten festlegen
  2. Repository klonen
  3. Integrationsmechanismus festlegen
  4. Komponenten einrichten
  5. Bereitstellung konfigurieren (diese Seite)
  6. Bereitstellung ausführen