Étape 3: Déterminez le mécanisme d'intégration
Cette page décrit la troisième étape du déploiement de Cortex Framework Data Foundation, le cœur de Cortex Framework. Dans cette étape, vous configurez l'intégration avec la source de données de votre choix. Si vous utilisez des exemples de données, ignorez cette étape.
Présentation de l'intégration
Cortex Framework vous aide à centraliser les données provenant de différentes sources, ainsi que d'autres plates-formes. Vous disposez ainsi d'une source unique de référence pour vos données. Cortex Data Foundation s'intègre à chaque source de données de différentes manières, mais la plupart d'entre elles suivent une procédure similaire:
- Couche source-données brutes:ingère les données de la source de données dans l'ensemble de données brut à l'aide d'API. Pour ce faire, utilisez des pipelines Dataflow déclenchés via des DAG Cloud Composer.
- Couche brute vers couche CDC: appliquez le traitement CDC à l'ensemble de données brut et stockez la sortie dans l'ensemble de données CDC. Pour ce faire, les DAG Cloud Composer exécutent des requêtes SQL BigQuery.
- Couche CDC vers la couche de reporting:crée des tableaux de reporting finaux à partir des tables CDC de l'ensemble de données de reporting. Pour ce faire, vous pouvez créer des vues d'exécution au-dessus des tables CDC ou exécuter des DAG Cloud Composer pour les données matérialisées dans des tables BigQuery, en fonction de la configuration. Pour en savoir plus sur la configuration, consultez Personnaliser le fichier de paramètres de création de rapports.
Le fichier config.json
configure les paramètres requis pour se connecter aux sources de données afin de transférer des données à partir de différentes charges de travail. Pour connaître les options d'intégration de chaque source de données, consultez les ressources suivantes.
- Fonctionnement :
- Marketing :
- Durabilité :
Pour en savoir plus sur les diagrammes des entités-relations compatibles avec chaque source de données, consultez le dossier docs
du dépôt Cortex Framework Data Foundation.
Déploiement K9
Le déploiement K9 simplifie l'intégration de diverses sources de données. Le déploiement K9 est un ensemble de données prédéfini dans l'environnement BigQuery chargé d'ingérer, de traiter et de modéliser des composants réutilisables dans différentes sources de données.
Par exemple, la dimension time
est réutilisable dans toutes les sources de données où les tables peuvent avoir besoin de prendre des résultats d'analyse basés sur un calendrier grégorien. Le déploiement K9 combine des données externes telles que la météo ou Google Trends avec d'autres sources de données (par exemple, SAP, Salesforce, Marketing). Cet ensemble de données enrichi permet d'obtenir des insights plus approfondis et une analyse plus complète.
Le diagramme suivant illustre le flux de données à partir de différentes sources brutes vers différentes couches de reporting:
Dans le diagramme, le projet source contient les données brutes des sources de données choisies (SAP, Salesforce et Marketing). Le projet cible contient des données traitées, dérivées du processus de capture des données modifiées (CDC).
L'étape de prétraitement K9 s'exécute avant le début du déploiement de toutes les charges de travail. Les modèles réutilisables sont donc disponibles pendant leur déploiement. Cette étape transforme les données de différentes sources pour créer un ensemble de données cohérent et réutilisable.
Les étapes de post-traitement K9 se produisent après que tous les workloads ont déployé leurs modèles de création de rapports pour permettre la création de rapports multi-charges de travail ou l'ajout de modèles pour trouver les dépendances nécessaires dans chaque ensemble de données de création de rapports.
Configurer le déploiement K9
Configurez les graphes orientés acycliques (DAG) et les modèles à générer dans le fichier de configuration K9.
L'étape de prétraitement K9 est importante, car elle garantit que tous les charges de travail du pipeline de données ont accès à des données préparées de manière cohérente. Cela réduit la redondance et garantit la cohérence des données.
Pour savoir comment configurer des ensembles de données externes pour K9, consultez Configurer des ensembles de données externes pour K9.
Étapes suivantes
Une fois cette étape terminée, passez aux étapes de déploiement suivantes:
- Définir les charges de travail
- Clonez le dépôt.
- Déterminez le mécanisme d'intégration (cette page).
- Configurez les composants.
- Configurez le déploiement.
- Exécutez le déploiement.