Passaggio 3: determina il meccanismo di integrazione

Questa pagina descrive il terzo passaggio per eseguire il deployment di Cortex Framework Data Foundation, il nucleo di Cortex Framework. In questo passaggio, configuri l'integrazione con l'origine dati scelta. Se utilizzi dati di esempio, salta questo passaggio.

Panoramica sull'integrazione

Cortex Framework ti aiuta a centralizzare i dati provenienti da varie origini, nonché da altre piattaforme. In questo modo viene creata un'unica fonte attendibile per i dati. Cortex Data Foundation si integra con ogni origine dati in modi diversi, ma la maggior parte segue una procedura simile:

  • Livello Origine a non elaborato:importa i dati dall'origine dati al set di dati non elaborato utilizzando le API. Questo viene ottenuto utilizzando le pipeline Dataflow attivate tramite i DAG di Cloud Composer.
  • Livello non elaborato al livello CDC: applica l'elaborazione CDC al set di dati non elaborato e memorizza l'output nel set di dati CDC. Questo viene ottenuto tramite i DAG di Cloud Composer che eseguono SQL di BigQuery.
  • Livello CDC al livello Report:crea le tabelle di report finali dalle tabelle CDC nel set di dati Report. Questo viene ottenuto creando visualizzazioni di runtime sulle tabelle CDC o eseguendo DAG di Cloud Composer per i dati materializzati nelle tabelle BigQuery, a seconda della configurazione. Per ulteriori informazioni sulla configurazione, consulta Personalizzare il file delle impostazioni dei report.

Il file config.json configura le impostazioni necessarie per connettersi alle origini dati per il trasferimento dei dati da vari workload. Consulta le opzioni di integrazione per ogni origine dati nelle seguenti risorse.

Per ulteriori informazioni sui diagrammi di entità-relazione supportati da ogni origine dati, consulta la cartella docs nel repository Data Foundation di Cortex Framework.

Deployment di K9

K9 Deployer semplifica l'integrazione di diverse origini dati. K9 Deployer è un set di dati predefinito all'interno dell'ambiente BigQuery responsabile dell'importazione, dell'elaborazione e della definizione del modello di componenti riutilizzabili in diverse origini dati.

Ad esempio, la dimensione time è riutilizzabile in tutte le origini dati in cui le tabelle potrebbero dover acquisire risultati di analisi in base a un calendario gregoriano. Il deployment di K9 combina dati esterni come il meteo o Google Trends con altre origini dati (ad esempio SAP, Salesforce, marketing). Questo set di dati arricchito consente di ottenere approfondimenti più approfonditi e analisi più complete.

Il seguente diagramma mostra il flusso di dati da diverse origini non elaborate a vari livelli di generazione di report:

Set di dati di cani da rilevamento

Figura 1. Set di dati K9.

Nel diagramma, il progetto di origine contiene i dati non elaborati delle origini dati scelte (SAP, Salesforce e Marketing). mentre il progetto di destinazione contiene i dati elaborati, derivati dal processo Change Data Capture (CDC).

Il passaggio K9 di pre-elaborazione viene eseguito prima dell'inizio del deployment di tutti i carichi di lavoro, pertanto i modelli riutilizzabili sono disponibili durante il deployment. Questo passaggio trasforma i dati provenienti da varie origini per creare un set di dati coerente e riutilizzabile.

I passaggi di post-elaborazione di K9 vengono eseguiti dopo che tutti i carichi di lavoro hanno implementato i propri modelli di generazione di report per abilitare i report su più carichi di lavoro o i modelli di potenziamento per trovare le dipendenze necessarie all'interno di ogni singolo set di dati dei report.

Configura il deployment di K9

Configura i grafici aciclici diretti (DAG) e i modelli da generare nel file di configurazione K9.

Il passaggio di preelaborazione di K9 è importante perché garantisce che tutti i carichi di lavoro all'interno della pipeline di dati abbiano accesso a dati preparati in modo coerente. In questo modo riduci la ridondanza e garantisci la coerenza dei dati.

Per ulteriori informazioni su come configurare i set di dati esterni per K9, consulta Configurare i set di dati esterni per K9.

Passaggi successivi

Dopo aver completato questo passaggio, vai ai seguenti passaggi di deployment:

  1. Definire i carichi di lavoro.
  2. Clona il repository.
  3. Determina il meccanismo di integrazione (questa pagina).
  4. Configura i componenti.
  5. Configura il deployment.
  6. Esegui il deployment.