Présentation d'Analytics Hub

Analytics Hub est une plate-forme d'échange de données qui vous permet de partager des données et des insights à grande échelle à travers les limites organisationnelles grâce à un framework de sécurité et de confidentialité robuste. Avec Analytics Hub, vous pouvez découvrir une bibliothèque de données préparées par différents fournisseurs de données et y accéder. Cette bibliothèque inclut également des ensembles de données fournis par Google.

Par exemple, en utilisant Analytics Hub, vous pouvez enrichir vos initiatives d'analyse et de ML avec des ensembles de données tiers ou fournis par Google.

En tant qu'utilisateur d'Analytics Hub, vous pouvez effectuer les tâches suivantes :

  • En tant qu'éditeur Analytics Hub, vous pouvez monétiser vos données en les partageant avec votre réseau partenaire ou au sein de votre propre organisation en temps réel. Les fiches vous permettent de partager des données sans les répliquer. Vous pouvez créer un catalogue de sources de données prêtes pour l'analyse, avec des autorisations précises qui vous permettent de fournir les données au public auxquelles elles sont destinées.

  • En tant qu'abonné Analytics Hub, vous pouvez découvrir les données que vous recherchez, combiner des données partagées avec vos données existantes et exploiter les fonctionnalités intégrées de BigQuery. Lorsque vous vous abonnez à une fiche, un ensemble de données associé est créé dans votre projet.

  • En tant que lecteur Analytics Hub, vous pouvez parcourir les ensembles de données auxquels vous avez accès dans Analytics Hub et demander à l'éditeur l'accès aux données partagées.

  • En tant qu'administrateur Analytics Hub, vous pouvez créer des échanges de données permettant le partage de données, puis accorder des autorisations aux éditeurs et aux abonnés pour accéder à ces échanges de données.

Pour en savoir plus sur les rôles utilisateur Analytics Hub, consultez la section Configurer les rôles Analytics Hub.

Architecture

Analytics Hub est basé sur un modèle de publication et d'abonnement à des ensembles de données BigQuery. La séparation du calcul et du stockage dans l'architecture de BigQuery permet aux éditeurs de données de partager des données avec autant d'abonnés qu'ils le souhaitent sans avoir à effectuer plusieurs copies des données. Le stockage des données est facturé aux éditeurs, tandis que les abonnés ne paient que pour les requêtes exécutées sur les données partagées. Les workflows pour les éditeurs et pour les abonnés dans Analytics Hub sont expliqués en détail dans les sections suivantes.

Workflow pour les éditeurs

Le schéma suivant décrit la façon dont les éditeurs interagissent avec Analytics Hub :

Interaction entre les éditeurs Analytics Hub et Analytics Hub.
Figure 1. Workflow pour les éditeurs Analytics Hub.

Dans la figure 1, les fonctionnalités suivantes sont associées à des libellés : "Shared dataset" (ensemble de données partagé), "Data exchange" (échange de données) et "Listing" (fiche).

Ensembles de données partagés
Un ensemble de données partagé est un ensemble de données BigQuery qui représente l'unité de partage de données dans Analytics Hub. En tant qu'éditeur, vous créez un ensemble de données BigQuery ou en utilisez un existant dans votre projet avec la collection d'objets, tels que les tables et les vues, que vous souhaitez fournir à vos abonnés.
Échanges de données
Un échange de données est un conteneur qui permet le partage de données en libre-service. Il contient les fiches qui font référence à des ensembles de données partagés. Avec Analytics Hub, les éditeurs et les administrateurs peuvent accorder l'accès aux abonnés au niveau des échanges et des fiches. Cette méthode permet d'éviter d'accorder explicitement l'accès aux ensembles de données partagés sous-jacents. Un abonné Analytics Hub peut parcourir les échanges de données, découvrir des données auxquelles il peut accéder, et s'abonner aux ensembles de données partagés. Un échange de données peut être des types suivants :
  • Échange de données privé. Par défaut, un échange de données est privé et seuls les utilisateurs ou les groupes ayant accès à cet échange peuvent afficher les données ou s'y abonner.
  • Échange de données public. Par défaut, un échange de données est privé et seuls les utilisateurs ou les groupes ayant accès à cet échange peuvent afficher les fiches associées ou s'y abonner. Toutefois, vous pouvez choisir de rendre un échange de données public. Les fiches des échanges de données publics peuvent être découvertes et faire l'objet d'abonnements par les utilisateurs Google Cloud (utilisateurs allauthenticated). Pour en savoir plus sur les échanges de données publics, consultez la section Rendre un échange de données public.

En tant qu'administrateur Analytics Hub, vous pouvez créer plusieurs échanges de données dans Analytics Hub et gérer les autres utilisateurs Analytics Hub.

Fiches
Une fiche est une référence à un ensemble de données partagé qu'un éditeur répertorie dans un échange de données. En tant qu'éditeur, vous pouvez créer une fiche et spécifier la description de l'ensemble de données, des exemples de requêtes à exécuter sur celui-ci, des liens vers toute documentation pertinente et toute information supplémentaire pouvant aider les abonnés à utiliser votre ensemble de données. Pour en savoir plus, consultez la section Gérer les fiches. Une fiche peut être de deux types selon la stratégie IAM (Identity and Access Management) définie pour la fiche et le type d'échange de données qui la contient :
  • Fiche publique. Elle est partagée avec tous les utilisateurs Google Cloud (utilisateurs allauthenticated). Les fiches d'un échange de données public sont des fiches publiques. Ces fiches peuvent faire référence à un ensemble de données public gratuit ou à un ensemble de données commercial. Si la fiche correspond à un ensemble de données commercial, les abonnés peuvent demander l'accès à la fiche, et le fournisseur de données contacte ces abonnés directement.
  • Fiche privée. Elle est partagée directement avec des individus ou des groupes. Par exemple, une fiche privée peut référencer un ensemble de données de métriques marketing que vous partagez avec d'autres équipes internes de votre entreprise.

Workflow pour les abonnés

Le schéma suivant décrit la façon dont les abonnés interagissent avec Analytics Hub :

Interaction entre les abonnés Analytics Hub et Analytics Hub.
Figure 2. Workflow pour les abonnés Analytics Hub.

Dans la figure 2, les fonctionnalités Analytics Hub suivantes sont associées à des libellés : "Shared dataset" (ensemble de données partagé), "Data exchange" (échange de données), "Listing" (fiche) et "Linked dataset" (ensemble de données associé).

Ensembles de données associés
Un ensemble de données associé est un ensemble de données BigQuery en lecture seule qui sert de lien symbolique vers un ensemble de données partagé. L'abonnement à une fiche crée un ensemble de données associé dans votre projet, et non une copie de l'ensemble de données. Les abonnés peuvent donc lire les données, mais ne peuvent pas lui ajouter des objets ni mettre à jour les objets qu'il contient. Lorsque vous interrogez des objets tels que des tables et des vues via un ensemble de données associé, les données renvoyées sont celles de l'ensemble de données partagé. Pour plus d'informations sur les ensembles de données associés, consultez la section Afficher les fiches et s'y abonner. Les ensembles de données associés sont autorisés à accéder aux tables et aux vues d'un ensemble de données partagé. Les abonnés ayant des ensembles de données associés accèdent aux tables et aux vues d'un ensemble de données partagé sans nécessiter d'autorisation IAM (Identity and Access Management) supplémentaire.

Limites

Analytics Hub présente les limites suivantes :

  • Le service Analytics Hub n'est disponible que dans les emplacements multirégionaux US et EU.

  • Les propriétaires d'ensembles de données partagés et d'échanges de données ne peuvent pas consulter les métriques d'abonnement.

  • Si un projet est supprimé, les échanges de données qu'il contient ne sont pas supprimés. Vous devez supprimer ces échanges de données manuellement avant de supprimer le projet.

  • Si vous supprimez un ensemble de données partagé comportant des abonnés, les ensembles de données associés ne sont pas supprimés. Les abonnés doivent supprimer manuellement ces ensembles de données associés de leurs projets.

  • Un ensemble de données partagé peut contenir au maximum 1 000 ensembles de données associés. Tous les abonnés combinés peuvent posséder un maximum de 1 000 ensembles de données associés par ensemble de données partagé.

  • Les objets BigQuery suivants peuvent être partagés à l'aide d'Analytics Hub :

    Un ensemble de données contenant des ressources non compatibles ne peut pas être sélectionné en tant qu'ensemble de données partagé lorsque vous créez une fiche.

  • Si vous êtes éditeur, l'interopérabilité BigQuery suivante s'applique à votre cas :

    • Utiliser Insertions en flux continu ou l'API BigQuery Storage Write pour insérer des données en flux continu dans un ensemble de données partagé peut poser problème pour les ensembles de données associés.

    • Les ensembles de données partagés sont compatibles avec la sécurité au niveau des colonnes et la sécurité au niveau des lignes.

    • Si une vue de l'ensemble de données partagé ne contient pas de références URI complètes à ses données sources, les abonnés n'obtiendront pas le résultat correct lorsqu'ils interrogeront cet ensemble de données. Pour éviter ce problème, utilisez une référence complète, par exemple PROJECT_NAME.DATASET_NAME.TABLE_NAME.

    • Les ensembles de données partagés sont indexés dans Data Catalog. Les mises à jour d'un ensemble de données partagé, telles que l'ajout de tables ou de vues, sont mises à la disposition des abonnés sans délai. Toutefois, dans certains cas, par exemple lorsqu'un ensemble de données partagé contient plus de 100 abonnés ou tables, les mises à jour peuvent prendre jusqu'à 18 heures pour être indexées dans Data Catalog. En raison du délai d'indexation, les abonnés ne peuvent pas rechercher immédiatement dans la console Cloud ces ressources mises à jour.

  • Si vous êtes abonné, l'interopérabilité BigQuery suivante s'applique à votre cas :

    • Il n'est pas possible d'utiliser l'API BigQuery Storage Read sur les ressources d'ensemble de données associés.

    • La fonctionnalité temporelle n'est pas compatible avec les ressources d'ensemble de données associé.

    • Les vues matérialisées faisant référence à des tables de l'ensemble de données associé ne sont pas acceptées.

    • Il n'est pas possible de prendre des instantanés de tables d'ensembles de données associés.

  • Si les ensembles de données associés ne sont pas colocalisés avec l'ensemble de données partagé, les opérations de lecture vers les tables d'ensembles de données associés avec une taille de requête supérieure à 5 Gio peuvent échouer. Cette erreur peut se résoudre automatiquement. Vous pouvez également contacter l'assistance pour résoudre ce problème.

  • Vous ne pouvez pas utiliser de qualificatifs de région avec des vues INFORMATION_SCHEMA pour afficher les métadonnées des tables de votre ensemble de données associé.

Locations

Le service Analytics Hub n'est disponible que dans les emplacements multirégionaux US et EU.

Exemple d'utilisation

Cette section explique comment utiliser Analytics Hub.

Supposons que vous êtes un revendeur et que votre organisation dispose de données de prévision de la demande en temps réel dans un projet Google Cloud nommé Forecasting. Vous souhaitez partager ces données de prévision de la demande avec des centaines de fournisseurs de votre système de chaîne d'approvisionnement. Voici comment partager vos données avec vos fournisseurs via Analytics Hub :

Administrateurs Analytics Hub

En tant que propriétaire du projet Forecasting, vous devez d'abord activer l'API Analytics Hub, puis attribuer le rôle Administrateur Analytics Hub à un utilisateur chargé de gérer l'échange de données dans le projet. Les utilisateurs disposant du rôle Administrateur Analytics Hub sont appelés administrateurs Analytics Hub.

Un administrateur Analytics Hub peut effectuer les tâches suivantes :

  • Créer, mettre à jour, supprimer et partager l'échange de données dans le projet de Forecasting de votre organisation.

  • Gérer d'autres administrateurs Analytics Hub.

  • Gérer les éditeurs en attribuant le rôle d'éditeur Analytics Hub aux employés de votre organisation. Si vous souhaitez que certains employés puissent uniquement mettre à jour, supprimer et partager des fiches, mais pas les créer, vous pouvez leur attribuer le rôle d'administrateur de fiches Analytics Hub.

  • Gérer les abonnés en attribuant le rôle d'abonné Analytics Hub à un groupe Google composé de tous les fournisseurs. Si vous souhaitez que certains fournisseurs ne puissent accéder qu'en lecture aux échanges de données et aux fiches disponibles, vous pouvez leur attribuer le rôle de lecteur Analytics Hub. Ces fournisseurs ne pourront pas s'abonner aux fiches.

Pour en savoir plus, consultez la section Gérer les échanges de données.

Éditeurs Analytics Hub

Les éditeurs créent les fiches suivantes pour leurs ensembles de données dans le projet de Forecasting ou dans un projet différent :

  • Fiche A : ensemble de données de prévision de la demande 1
  • Fiche B : ensemble de données de prévision de la demande 2
  • Fiche C : ensemble de données de prévision de la demande 3

Pour en savoir plus, consultez la section Gérer les fiches.

Abonnés Analytics Hub

Les abonnés peuvent parcourir les fiches auxquelles ils ont accès dans les échanges de données. Ils peuvent également s'abonner à ces fiches et ajouter ces ensembles de données à leurs projets en créant un ensemble de données associé. Les fournisseurs peuvent ensuite exécuter des requêtes sur ces ensembles de données associés et obtenir des résultats en temps réel.

Pour en savoir plus, consultez la section Afficher les fiches et s'y abonner.

Tarifs

La gestion des échanges de données et des fiches n'entraîne aucun coût supplémentaire. Le stockage des données est facturé aux éditeurs Analytics Hub, tandis que les abonnés paient pour les requêtes exécutées sur les données partagées selon un modèle de tarification à la demande ou forfaitaire. Pour en savoir plus sur les tarifs, consultez la section Tarifs de BigQuery.

Quotas

Pour en savoir plus sur les quotas Analytics Hub, consultez la section Quotas et limites.

Étape suivante