Passaggio 5: configura il deployment

Questa pagina descrive il quinto passaggio per eseguire il deployment di Cortex Framework Data Foundation, il nucleo di Cortex Framework. In questo passaggio, modifichi il file di configurazione nel repository Data Foundation di Cortex Framework in base ai tuoi requisiti.

File di configurazione

Il comportamento del deployment è controllato dal file di configurazione config.json nella Cortex Framework Data Foundation. Questo file contiene la configurazione globale e la configurazione specifica per ogni carico di lavoro. Modifica il file config.json in base alle tue esigenze seguendo questi passaggi:

  1. Apri il file config.json da Cloud Shell.
  2. Modifica il file config.json in base ai seguenti parametri:

    Parametro Significato Valore predefinito Descrizione
    testData Esegui il deployment dei dati di test. true Progetto in cui si trova il set di dati di origine e viene eseguita la compilazione. Nota: il deployment dei dati di test verrà eseguito solo se il set di dati non elaborato è vuoto e non contiene tabelle.
    deploySAP Esegui il deployment di SAP true Esegui il deployment per il workload SAP (ECC o S/4 HANA).
    deploySFDC Esegui il deployment di Salesforce true Esegui il deployment per il carico di lavoro Salesforce.
    deployMarketing Esegui il deployment del marketing true Esegui il deployment per le origini marketing (Google Ads, CM360 e TikTok).
    deployOracleEBS Esegui il deployment di Oracle EBS true Esegui il deployment per il workload Oracle EBS.
    deployDataMesh Esegui il deployment di Data Mesh true Esegui il deployment per Data Mesh. Per ulteriori informazioni, consulta la Guida dell'utente di Data Mesh.
    turboMode Esegui il deployment in modalità Turbo. true Esegui tutte le build delle visualizzazioni come un passaggio nella stessa procedura di Cloud Build, in parallelo per un deployment più rapido. Se impostato su false, ogni visualizzazione dei report viene generata nel proprio passaggio di compilazione sequenziale. Ti consigliamo di impostarlo su true solo se utilizzi dati di test o dopo aver risolto eventuali mancata corrispondenza tra le colonne dei report e i dati di origine.
    projectIdSource ID progetto di origine - Progetto in cui si trova il set di dati di origine e viene eseguita la compilazione.
    projectIdTarget ID progetto di destinazione - Progetto di destinazione per i set di dati rivolti agli utenti (set di dati di generazione di report e ML).
    targetBucket Bucket di destinazione per gli script DAG generati in archiviazione - Bucket creato in precedenza dove vengono generati i DAG (e i file temporanei di Dataflow). Evita di utilizzare il bucket Airflow effettivo.
    location Località o regione "US" Posizione in cui si trovano il set di dati BigQuery e i bucket Cloud Storage.

    Consulta le limitazioni elencate in Località dei set di dati BigQuery.

    testDataProject Origine del test harness kittycorn-public Origine dei dati di test per i deployment di demo. Si applica quando testData è true.

    Non modificare questo valore, a meno che tu non disponga del tuo proprio framework di test.

    k9.datasets.processing Set di dati K9 - Elaborazione "K9_PROCESSING" Esegui modelli di più carichi di lavoro (ad esempio, dimensione data) come definito nel file di configurazione K9. Questi modelli sono in genere richiesti dai carichi di lavoro a valle.
    k9.datasets.reporting Set di dati K9 - Report "K9_REPORTING" Esegui modelli per più carichi di lavoro e origini dati esterne (ad esempio meteo) come definito nel file di configurazione K9. Commentato per impostazione predefinita.
    DataMesh.deployDescriptions Data Mesh - Descrizioni delle risorse true Esegui il deployment delle descrizioni dello schema degli asset BigQuery.
    DataMesh.deployLakes Data mesh: lake e zone false Il deployment di Dataplex Lakes e delle zone che organizzano le tabelle in base al livello di elaborazione richiede la configurazione prima dell'attivazione.
    DataMesh.deployCatalog Data Mesh - Tag e modelli di cataloghi false Il deployment dei tag del catalogo di dati che consentono metadati personalizzati su asset o campi BigQuery richiede la configurazione prima dell'attivazione.
    DataMesh.deployACLs Data Mesh - Controllo dell'accesso false Il controllo dell'accesso a livello di asset, riga o colonna negli asset BigQuery richiede la configurazione prima dell'abilitazione.
  3. Configura i workload richiesti in base alle esigenze. Non è necessario configurarli se il parametro di deployment (ad esempio deploySAP o deployMarketing) per il carico di lavoro è impostato su False. Per ulteriori informazioni, consulta Passaggio 3: determina il meccanismo di integrazione.

Per una migliore personalizzazione del deployment, consulta i seguenti passaggi facoltativi:

Ottimizzazione del rendimento per le visualizzazioni dei report

Gli elementi di reporting possono essere creati come visualizzazioni o come tabelle aggiornate regolarmente tramite i DAG. Da un lato, le visualizzazioni calcolano i dati su ogni esecuzione di una query, mantenendo sempre aggiornati i risultati. D'altra parte, la tabella esegue i calcoli una volta e i risultati possono essere sottoposti a query più volte senza costi di calcolo più elevati e con un tempo di esecuzione più rapido. Ogni cliente crea la propria configurazione in base alle proprie esigenze.

I risultati materializzati vengono aggiornati in una tabella. Queste tabelle possono essere perfezionate ulteriormente aggiungendo il partizionamento e il clustering.

I file di configurazione per ogni carico di lavoro si trovano nei seguenti percorsi all'interno del repository Cortex Framework Data Foundation:

Origine dati File di impostazioni
Operativo - SAP src/SAP/SAP_REPORTING/reporting_settings_ecc.yaml
Operativo - Salesforce Sales Cloud src/SFDC/config/reporting_settings.yaml
Operativo - Oracle EBS src/oracleEBS/config/reporting_settings.yaml
Marketing - Google Ads src/marketing/src/GoogleAds/config/reporting_settings.yaml
Marketing - CM360 src/marketing/src/CM360/config/reporting_settings.yaml
Marketing - Meta src/marketing/src/Meta/config/reporting_settings.yaml
Marketing - Salesforce Marketing Cloud src/marketing/src/SFMC/config/reporting_settings.yaml
Marketing - TikTok src/marketing/src/TikTok/config/reporting_settings.yaml
Marketing - YouTube (con DV360) src/marketing/src/DV360/config/reporting_settings.yaml
Marketing - Google Analytics 4 src/marketing/src/GA4/config/reporting_settings.yaml
Marketing - Approfondimenti su cross media e prodotti collegati src/marketing/src/CrossMedia/config/reporting_settings.yaml

Personalizzazione del file delle impostazioni dei report

I file reporting_settings determinano la modalità di creazione degli oggetti BigQuery (tabelle o viste) per i set di dati dei report. Personalizza il file con le seguenti descrizioni dei parametri. Considera che questo file contiene due sezioni:

  1. bq_independent_objects: tutti gli oggetti BigQuery che possono essere creati in modo indipendente, senza altre dipendenze. Quando Turbo mode è abilitato, questi oggetti BigQuery vengono creati in parallelo durante il deployment, accelerando la procedura di deployment.
  2. bq_dependent_objects: tutti gli oggetti BigQuery che devono essere creati in un ordine specifico a causa di dipendenze da altri oggetti BigQuery. Turbo mode non si applica a questa sezione.

Il deployer crea prima tutti gli oggetti BigQuery elencati in bq_independent_objects e poi tutti gli oggetti elencati in bq_dependent_objects. Definisci le seguenti proprietà per ogni oggetto:

  1. sql_file: nome del file SQL che crea un determinato oggetto.
  2. type: tipo di oggetto BigQuery. Valori possibili:
    • view : se vuoi che l'oggetto sia una vista BigQuery.
    • table: se vuoi che l'oggetto sia una tabella BigQuery.
    • script: per creare altri tipi di oggetti (ad esempio funzioni e processi archiviati di BigQuery).
  3. Se type è impostato su table, possono essere definite le seguenti proprietà facoltative:
    • load_frequency: frequenza con cui viene eseguito un DAG di Composer per aggiornare questa tabella. Per informazioni dettagliate sui possibili valori, consulta la documentazione di Airflow.
    • partition_details: la modalità di partizione della tabella. Questo valore è facoltativo. Per ulteriori informazioni, consulta la sezione Partizione della tabella.
    • cluster_details: la modalità di raggruppamento della tabella. Questo valore è facoltativo. Per ulteriori informazioni, consulta la sezione Impostazioni del cluster.

Partizione della tabella

Alcuni file di impostazioni consentono di configurare le tabelle materializzate con opzioni di clustering e partizione personalizzate. In questo modo, è possibile migliorare notevolmente le prestazioni delle query per set di dati di grandi dimensioni. Questa opzione si applica solo per SAP cdc_settings.yaml e per tutti i file reporting_settings.yaml.

Il partizionamento delle tabelle può essere attivato specificando quanto seguepartition_details:

- base_table: vbap
  load_frequency: "@daily"
  partition_details: {
    column: "erdat", partition_type: "time", time_grain: "day" }

Utilizza i seguenti parametri per controllare i dettagli della partizione per una determinata tabella:

Proprietà Descrizione Valore
column Colonna in base alla quale è partizionata la tabella CDC. Nome colonna.
partition_type Tipo di partizione. "time" per la partizione basata sul tempo. Per ulteriori informazioni, consulta Tabelle partizionate per timestamp. "integer_range" per la partizione basata su numeri interi. Per ulteriori informazioni, consulta la documentazione relativa all'intervallo di interi.
time_grain Parte dell'ora con cui eseguire la partizione Obbligatorio quando partition_type = "time". "hour", "day", "month" o "year".
integer_range_bucket Intervallo dei bucket Obbligatorio quando partition_type = "integer_range" "start" = valore iniziale, "end" = valore finale e "interval" = intervallo dell'intervallo.

Per ulteriori informazioni sulle opzioni e sui limiti correlati, consulta Partizione della tabella BigQuery.

Impostazioni cluster

Il clustering delle tabelle può essere attivato specificando cluster_details:

  - base_table: vbak
    load_frequency: "@daily"
    cluster_details: {columns: ["vkorg"]}

Utilizza i seguenti parametri per controllare i dettagli del cluster per una determinata tabella:

Proprietà Descrizione Valore
columns Colonne in base alle quali una tabella è raggruppata. Elenco dei nomi delle colonne. Ad esempio, "mjahr" e "matnr".

Per ulteriori informazioni sulle opzioni e sulle limitazioni correlate, consulta la documentazione relativa ai cluster di tabelle.

Passaggi successivi

Dopo aver completato questo passaggio, vai al passaggio di deployment successivo:

  1. Definire i carichi di lavoro.
  2. Clona il repository.
  3. Determina il meccanismo di integrazione.
  4. Configura i componenti.
  5. Configurare il deployment (questa pagina).
  6. Esegui il deployment.