Étape 1: Définir les charges de travail

Cette page vous guide dans la première étape de configuration de votre infrastructure de données, qui est le cœur de Cortex Framework. Basée sur le stockage BigQuery, la fondation de données organise vos données entrantes provenant de diverses sources. Ces données organisées sont plus faciles à analyser et à utiliser pour le développement de l'IA.

Configurer l'intégration de données

Commencez par définir des paramètres clés qui serviront de modèle pour organiser et utiliser efficacement vos données dans Cortex Framework. N'oubliez pas que ces paramètres peuvent varier en fonction de la charge de travail spécifique, du flux de données choisi et du mécanisme d'intégration. Le diagramme suivant présente une vue d'ensemble de l'intégration des données dans la fondation de données Cortex Framework:

Structure des paramètres

Figure 1 Cortex Framework Data Foundation: présentation de l'intégration des données.

Définissez les paramètres suivants avant le déploiement pour une utilisation efficace et efficace des données dans Cortex Framework.

Projets

  • Projet source:projet dans lequel se trouvent vos données brutes. Vous avez besoin d'au moins un projet Google Cloud pour stocker les données et exécuter le processus de déploiement.
  • Project target (facultatif) : projet dans lequel Cortex Framework Data Foundation stocke ses modèles de données traités. Il peut s'agir du même projet source ou d'un autre, en fonction de vos besoins.

Si vous souhaitez disposer d'ensembles de projets et d'ensembles de données distincts pour chaque charge de travail (par exemple, un ensemble de projets sources et cibles pour SAP et un autre ensemble de projets sources et cibles pour Salesforce), exécutez des déploiements distincts pour chaque charge de travail. Pour en savoir plus, consultez la section Utiliser différents projets pour ségréguer l'accès dans la section "Étapes facultatives".

Modèle de données

  • Déployer des modèles:indiquez si vous devez déployer des modèles pour toutes les charges de travail ou un seul ensemble de modèles (par exemple, SAP, Salesforce et Meta). Pour en savoir plus, consultez les sources de données et charges de travail disponibles.

Ensembles de données BigQuery

  • Ensemble de données source (brut) : ensemble de données BigQuery dans lequel les données sources sont répliquées ou où les données de test sont créées. Nous vous recommandons de créer des ensembles de données distincts, un pour chaque source de données. Par exemple, un ensemble de données brut pour SAP et un ensemble de données brut pour Google Ads. Cet ensemble de données appartient au projet source.
  • Ensemble de données CDC:ensemble de données BigQuery dans lequel les données traitées par le CDC enregistrent les derniers enregistrements disponibles. Certaines charges de travail permettent la mise en correspondance des noms de champs. Nous vous recommandons de disposer d'un jeu de données distinct du CDC pour chaque source. Par exemple, un ensemble de données CDC pour SAP et un ensemble de données CDC pour Salesforce. Cet ensemble de données appartient au projet source.
  • Ensemble de données de reporting cible:ensemble de données BigQuery dans lequel les modèles de données prédéfinis de Data Foundation sont déployés. Nous vous recommandons de créer un ensemble de données de reporting distinct pour chaque source. Par exemple, un ensemble de données de reporting pour SAP et un ensemble de données de reporting pour Salesforce. Cet ensemble de données est créé automatiquement lors du déploiement s'il n'existe pas. Cet ensemble de données appartient au projet Target.
  • Ensemble de données K9 de prétraitement:ensemble de données BigQuery dans lequel des composants DAG réutilisables et multi-charges de travail, tels que les dimensions time, peuvent être déployés. Les charges de travail dépendent de cet ensemble de données, sauf si elles sont modifiées. Cet ensemble de données est créé automatiquement lors du déploiement s'il n'existe pas. Cet ensemble de données appartient au projet source.
  • Ensemble de données K9 de post-traitement:ensemble de données BigQuery dans lequel des rapports inter-charges de travail et des DAG de sources externes supplémentaires (par exemple, l'ingestion Google Trends) peuvent être déployés. Cet ensemble de données est créé automatiquement lors du déploiement s'il n'existe pas. Cet ensemble de données appartient au projet Target.

Facultatif: Générer des exemples de données

Cortex Framework peut générer des exemples de données et de tableaux pour vous si vous n'avez pas accès à vos propres données, ou si vous ne disposez pas d'outils de réplication pour configurer des données, ou même si vous souhaitez simplement voir comment Cortex Framework fonctionne. Toutefois, vous devez toujours créer et identifier les ensembles de données CDC et bruts à l'avance.

Créez des ensembles de données BigQuery pour les données brutes et le CDC par source de données, en suivant les instructions ci-dessous.

Console

  1. Ouvrez la page BigQuery dans la console Google Cloud.

    Accéder à BigQuery

  2. Dans le panneau Explorer, sélectionnez le projet dans lequel vous souhaitez créer l'ensemble de données.

  3. Développez l'option Actions, puis cliquez sur Créer un ensemble de données :

    Utilisez le menu d'action du projet pour créer un ensemble de données.

  4. Sur la page Créer un ensemble de données, procédez comme suit :

    • Pour ID de l'ensemble de données, indiquez le nom d'un ensemble de données unique.
    • Dans Type d'emplacement, sélectionnez un emplacement géographique pour l'ensemble de données. Une fois l'ensemble de données créé, l'emplacement ne peut plus être modifié.

    • Facultatif. Pour en savoir plus sur la personnalisation de votre ensemble de données, consultez la section Créer des ensembles de données: console.

  5. Cliquez sur Créer un ensemble de données.

bq

  1. Créez un ensemble de données pour les données brutes en copiant la commande suivante:

       bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
    

    Remplacez les éléments suivants :

    • LOCATION avec l'emplacement de l'ensemble de données.
    • SOURCE_PROJECT par l'ID de votre projet source.
    • DATASET_RAW par le nom de votre ensemble de données pour les données brutes. Exemple :CORTEX_SFDC_RAW
  2. Créez un ensemble de données pour les données du CDC en copiant la commande suivante:

      bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
    

    Remplacez les éléments suivants :

    • LOCATION avec l'emplacement de l'ensemble de données.
    • SOURCE_PROJECT par l'ID de votre projet source.
    • DATASET_CDC par le nom de votre ensemble de données pour les données du CDC. Exemple :CORTEX_SFDC_CDC
  3. Vérifiez que les ensembles de données ont été créés à l'aide de la commande suivante:

        bq ls
    
  4. Facultatif. Pour en savoir plus sur la création d'ensembles de données, consultez la page Créer des ensembles de données.

Étapes suivantes

Une fois cette étape terminée, passez aux étapes de déploiement suivantes:

  1. Définir des charges de travail (cette page).
  2. Clonez le dépôt.
  3. Déterminer le mécanisme d'intégration
  4. Configurez les composants.
  5. Configurez le déploiement.
  6. Exécutez le déploiement.