Passaggio 5: configura il deployment
Questa pagina descrive il quinto passaggio per eseguire il deployment di Cortex Framework Data Foundation, il nucleo di Cortex Framework. In questo passaggio, modifichi il file di configurazione nel repository Data Foundation di Cortex Framework in base ai tuoi requisiti.
File di configurazione
Il comportamento del deployment è controllato dal file di configurazione config.json
nella Cortex Framework Data Foundation. Questo file contiene la configurazione globale e la configurazione specifica per ogni carico di lavoro.
Modifica il file config.json
in base alle tue esigenze seguendo questi passaggi:
- Apri il file
config.json
da Cloud Shell. Modifica il file
config.json
in base ai seguenti parametri:Parametro Significato Valore predefinito Descrizione testData
Esegui il deployment dei dati di test. true
Progetto in cui si trova il set di dati di origine e viene eseguita la compilazione. Nota: il deployment dei dati di test verrà eseguito solo se il set di dati non elaborato è vuoto e non contiene tabelle. deploySAP
Esegui il deployment di SAP true
Esegui il deployment per il workload SAP (ECC o S/4 HANA). deploySFDC
Esegui il deployment di Salesforce true
Esegui il deployment per il carico di lavoro Salesforce. deployMarketing
Esegui il deployment del marketing true
Esegui il deployment per le origini marketing (Google Ads, CM360 e TikTok). deployOracleEBS
Esegui il deployment di Oracle EBS true
Esegui il deployment per il workload Oracle EBS. deployDataMesh
Esegui il deployment di Data Mesh true
Esegui il deployment per Data Mesh. Per ulteriori informazioni, consulta la Guida dell'utente di Data Mesh. turboMode
Esegui il deployment in modalità Turbo. true
Esegui tutte le build delle visualizzazioni come un passaggio nella stessa procedura di Cloud Build, in parallelo per un deployment più rapido. Se impostato su false
, ogni visualizzazione dei report viene generata nel proprio passaggio di compilazione sequenziale. Ti consigliamo di impostarlo sutrue
solo se utilizzi dati di test o dopo aver risolto eventuali mancata corrispondenza tra le colonne dei report e i dati di origine.projectIdSource
ID progetto di origine - Progetto in cui si trova il set di dati di origine e viene eseguita la compilazione. projectIdTarget
ID progetto di destinazione - Progetto di destinazione per i set di dati rivolti agli utenti (set di dati di generazione di report e ML). targetBucket
Bucket di destinazione per gli script DAG generati in archiviazione - Bucket creato in precedenza dove vengono generati i DAG (e i file temporanei di Dataflow). Evita di utilizzare il bucket Airflow effettivo. location
Località o regione "US"
Posizione in cui si trovano il set di dati BigQuery e i bucket Cloud Storage. Consulta le limitazioni elencate in Località dei set di dati BigQuery.
testDataProject
Origine del test harness kittycorn-public
Origine dei dati di test per i deployment di demo. Si applica quando testData
ètrue
.Non modificare questo valore, a meno che tu non disponga del tuo proprio framework di test.
k9.datasets.processing
Set di dati K9 - Elaborazione "K9_PROCESSING"
Esegui modelli di più carichi di lavoro (ad esempio, dimensione data) come definito nel file di configurazione K9. Questi modelli sono in genere richiesti dai carichi di lavoro a valle. k9.datasets.reporting
Set di dati K9 - Report "K9_REPORTING"
Esegui modelli per più carichi di lavoro e origini dati esterne (ad esempio meteo) come definito nel file di configurazione K9. Commentato per impostazione predefinita. DataMesh.deployDescriptions
Data Mesh - Descrizioni delle risorse true
Esegui il deployment delle descrizioni dello schema degli asset BigQuery. DataMesh.deployLakes
Data mesh: lake e zone false
Il deployment di Dataplex Lakes e delle zone che organizzano le tabelle in base al livello di elaborazione richiede la configurazione prima dell'attivazione. DataMesh.deployCatalog
Data Mesh - Tag e modelli di cataloghi false
Il deployment dei tag del catalogo di dati che consentono metadati personalizzati su asset o campi BigQuery richiede la configurazione prima dell'attivazione. DataMesh.deployACLs
Data Mesh - Controllo dell'accesso false
Il controllo dell'accesso a livello di asset, riga o colonna negli asset BigQuery richiede la configurazione prima dell'abilitazione. Configura i workload richiesti in base alle esigenze. Non è necessario configurarli se il parametro di deployment (ad esempio
deploySAP
odeployMarketing
) per il carico di lavoro è impostato suFalse
. Per ulteriori informazioni, consulta Passaggio 3: determina il meccanismo di integrazione.
Per una migliore personalizzazione del deployment, consulta i seguenti passaggi facoltativi:
- Disattivazione della telemetria.
- Configurazione dei set di dati esterni per K9.
- Controlla la presenza di tag
CORTEX-CUSTOMER
.
Ottimizzazione del rendimento per le visualizzazioni dei report
Gli elementi di reporting possono essere creati come visualizzazioni o come tabelle aggiornate regolarmente tramite i DAG. Da un lato, le visualizzazioni calcolano i dati su ogni esecuzione di una query, mantenendo sempre aggiornati i risultati. D'altra parte, la tabella esegue i calcoli una volta e i risultati possono essere sottoposti a query più volte senza costi di calcolo più elevati e con un tempo di esecuzione più rapido. Ogni cliente crea la propria configurazione in base alle proprie esigenze.
I risultati materializzati vengono aggiornati in una tabella. Queste tabelle possono essere perfezionate ulteriormente aggiungendo il partizionamento e il clustering.
I file di configurazione per ogni carico di lavoro si trovano nei seguenti percorsi all'interno del repository Cortex Framework Data Foundation:
Origine dati | File di impostazioni |
Operativo - SAP | src/SAP/SAP_REPORTING/reporting_settings_ecc.yaml
|
Operativo - Salesforce Sales Cloud | src/SFDC/config/reporting_settings.yaml
|
Operativo - Oracle EBS | src/oracleEBS/config/reporting_settings.yaml
|
Marketing - Google Ads | src/marketing/src/GoogleAds/config/reporting_settings.yaml
|
Marketing - CM360 | src/marketing/src/CM360/config/reporting_settings.yaml
|
Marketing - Meta | src/marketing/src/Meta/config/reporting_settings.yaml
|
Marketing - Salesforce Marketing Cloud | src/marketing/src/SFMC/config/reporting_settings.yaml
|
Marketing - TikTok | src/marketing/src/TikTok/config/reporting_settings.yaml
|
Marketing - YouTube (con DV360) | src/marketing/src/DV360/config/reporting_settings.yaml
|
Marketing - Google Analytics 4 | src/marketing/src/GA4/config/reporting_settings.yaml
|
Marketing - Approfondimenti su cross media e prodotti collegati | src/marketing/src/CrossMedia/config/reporting_settings.yaml
|
Personalizzazione del file delle impostazioni dei report
I file reporting_settings
determinano la modalità di creazione degli oggetti BigQuery
(tabelle o viste) per i set di dati dei report. Personalizza il file con le seguenti descrizioni dei parametri. Considera che questo file contiene due sezioni:
bq_independent_objects
: tutti gli oggetti BigQuery che possono essere creati in modo indipendente, senza altre dipendenze. QuandoTurbo mode
è abilitato, questi oggetti BigQuery vengono creati in parallelo durante il deployment, accelerando la procedura di deployment.bq_dependent_objects
: tutti gli oggetti BigQuery che devono essere creati in un ordine specifico a causa di dipendenze da altri oggetti BigQuery.Turbo mode
non si applica a questa sezione.
Il deployer crea prima tutti gli oggetti BigQuery elencati
in bq_independent_objects
e poi tutti gli oggetti elencati in
bq_dependent_objects
. Definisci le seguenti proprietà per ogni oggetto:
sql_file
: nome del file SQL che crea un determinato oggetto.type
: tipo di oggetto BigQuery. Valori possibili:view
: se vuoi che l'oggetto sia una vista BigQuery.table
: se vuoi che l'oggetto sia una tabella BigQuery.script
: per creare altri tipi di oggetti (ad esempio funzioni e processi archiviati di BigQuery).
- Se
type
è impostato sutable
, possono essere definite le seguenti proprietà facoltative:load_frequency
: frequenza con cui viene eseguito un DAG di Composer per aggiornare questa tabella. Per informazioni dettagliate sui possibili valori, consulta la documentazione di Airflow.partition_details
: la modalità di partizione della tabella. Questo valore è facoltativo. Per ulteriori informazioni, consulta la sezione Partizione della tabella.cluster_details
: la modalità di raggruppamento della tabella. Questo valore è facoltativo. Per ulteriori informazioni, consulta la sezione Impostazioni del cluster.
Partizione della tabella
Alcuni file di impostazioni consentono di configurare le tabelle materializzate con opzioni di clustering e partizione personalizzate. In questo modo, è possibile migliorare notevolmente le prestazioni delle query per set di dati di grandi dimensioni. Questa opzione si applica solo per SAP cdc_settings.yaml
e per tutti i file reporting_settings.yaml
.
Il partizionamento delle tabelle può essere attivato specificando quanto seguepartition_details
:
- base_table: vbap
load_frequency: "@daily"
partition_details: {
column: "erdat", partition_type: "time", time_grain: "day" }
Utilizza i seguenti parametri per controllare i dettagli della partizione per una determinata tabella:
Proprietà | Descrizione | Valore |
column
|
Colonna in base alla quale è partizionata la tabella CDC. | Nome colonna. |
partition_type
|
Tipo di partizione. | "time" per la partizione basata sul tempo. Per ulteriori informazioni, consulta Tabelle partizionate per timestamp.
"integer_range" per la partizione basata su numeri interi. Per ulteriori informazioni, consulta la documentazione relativa all'intervallo di interi.
|
time_grain
|
Parte dell'ora con cui eseguire la partizione
Obbligatorio quando partition_type = "time" .
|
"hour" , "day" , "month" o "year" .
|
integer_range_bucket
|
Intervallo dei bucket
Obbligatorio quando partition_type = "integer_range"
|
"start" = valore iniziale,
"end" = valore finale e "interval " = intervallo dell'intervallo.
|
Per ulteriori informazioni sulle opzioni e sui limiti correlati, consulta Partizione della tabella BigQuery.
Impostazioni cluster
Il clustering delle tabelle può essere attivato specificando cluster_details
:
- base_table: vbak
load_frequency: "@daily"
cluster_details: {columns: ["vkorg"]}
Utilizza i seguenti parametri per controllare i dettagli del cluster per una determinata tabella:
Proprietà | Descrizione | Valore |
columns
|
Colonne in base alle quali una tabella è raggruppata. | Elenco dei nomi delle colonne. Ad esempio,
"mjahr" e "matnr" .
|
Per ulteriori informazioni sulle opzioni e sulle limitazioni correlate, consulta la documentazione relativa ai cluster di tabelle.
Passaggi successivi
Dopo aver completato questo passaggio, vai al passaggio di deployment successivo:
- Definire i carichi di lavoro.
- Clona il repository.
- Determina il meccanismo di integrazione.
- Configura i componenti.
- Configurare il deployment (questa pagina).
- Esegui il deployment.