Configurer des ensembles de données externes
Cette page décrit une étape facultative pour configurer des ensembles de données externes pour le déploiement de la Data Foundation du framework Cortex. Certains cas d'utilisation avancés peuvent nécessiter des ensembles de données externes pour compléter un système d'enregistrement d'entreprise. En plus des échanges externes consommés à partir de Analytics Hub, certains ensembles de données peuvent nécessiter des méthodes personnalisées ou adaptées pour ingérer des données et les associer aux modèles de reporting.
Pour activer les ensembles de données externes suivants, définissez k9.deployDataset
sur True
si vous souhaitez que l'ensemble de données soit déployé.
Pour configurer les graphes orientés acycliques (DAG) des ensembles de données externes compatibles, procédez comme suit:
Agenda des jours fériés:ce DAG récupère les dates spéciales à partir de PyPi Holidays.
- Ajustez la liste des pays, la liste des années, ainsi que d'autres paramètres DAG pour récupérer les jours fériés dans
holiday_calendar.ini
.
- Ajustez la liste des pays, la liste des années, ainsi que d'autres paramètres DAG pour récupérer les jours fériés dans
Tendances: ce DAG récupère l'intérêt au fil du temps pour un ensemble spécifique de termes à partir des tendances de recherche Google. Vous pouvez configurer les conditions dans
trends.ini
.- Après une exécution initiale, ajustez
start_date
sur'today 7-d'
danstrends.ini
. - Familiarisez-vous avec les résultats des différents termes pour ajuster les paramètres.
- Nous vous recommandons de partitionner de grandes listes en plusieurs copies de ce DAG exécutées à différents moments.
- Pour en savoir plus sur la bibliothèque sous-jacente utilisée, consultez Pytrends.
- Après une exécution initiale, ajustez
Météo: par défaut, ce DAG utilise l'ensemble de données de test
BigQuery-public-data.geo_openstreetmap.planet_layers
, accessible au public. La requête repose également sur un ensemble de données NOAA disponible uniquement via Analytics Hub:noaa_global_forecast_system
.Cet ensemble de données doit être créé dans la même région que les autres ensembles de données avant l'exécution du déploiement. Si les ensembles de données ne sont pas disponibles dans votre région, vous pouvez suivre les instructions suivantes pour transférer les données dans la région choisie:
- Accédez à BigQuery Analytics Hub.
- Cliquez sur Rechercher des fiches.
- Recherchez NOAA Global Forecast System (Système de prévision global de la NOAA).
- Cliquez sur Ajouter un ensemble de données au projet.
- Lorsque vous y êtes invité, conservez
noaa_global_forecast_system
comme nom de l'ensemble de données. Si nécessaire, ajustez le nom de l'ensemble de données et de la table dans les clauses FROM deweather_daily.sql
. - Répétez la recherche de fiches pour l'ensemble de données
OpenStreetMap Public Dataset
. - Ajustez les clauses
FROM
contenant :BigQuery-public-data.geo_openstreetmap.planet_layers
danspostcode.sql
.
Insights sur la durabilité et les ESG: Cortex Framework combine les données de performances des fournisseurs SAP avec des insights ESG avancés pour comparer les performances de livraison, la durabilité et les risques de manière plus globale dans l'ensemble des opérations mondiales. Pour en savoir plus, consultez la source de données Dun & Bradstreet.
Éléments généraux à prendre en compte
Analytics Hub n'est disponible que dans les emplacements de l'UE et des États-Unis. Certains ensembles de données, comme les prévisions mondiales de la NOAA, ne sont proposés que dans un seul emplacement multirégional.
Si vous ciblez un emplacement différent de celui disponible pour l'ensemble de données requis, nous vous recommandons de créer une requête planifiée pour copier les nouveaux enregistrements de l'ensemble de données associé Analytics Hub, puis un service de transfert pour copier ces nouveaux enregistrements dans un ensemble de données situé dans la même zone géographique ou région que le reste de votre déploiement. Vous devez ensuite ajuster les fichiers SQL.
Avant de copier ces DAG dans Cloud Composer, ajoutez les modules Python requis en tant que dépendances:
Required modules: pytrends~=4.9.2 holidays