Accéder au contenu
Analyse de données

Gouvernance de données dans le cloud – Partie 2 – Les outils

26 avril 2022
https://storage.googleapis.com/gweb-cloudblog-publish/images/8AHnthXVMvRWXfu.max-1100x1100.png
Imad Qureshi

Customer Engineer, Google Cloud

Essayer GCP

Les nouveaux clients peuvent explorer et évaluer Google Cloud avec des conditions exceptionnelles.

Essayer

Seconde partie d’une série dédiée à la « data governance », ce billet se focalise sur les technologies et outils permettant d’implémenter une gouvernance des données dans le cloud, telle que nous l’avons décrite dans la première partie.

Au-delà d’une nécessaire politique de gouvernance à l’échelle de l’entreprise et de la création d’une équipe dédiée au sujet, la mise en œuvre d’un programme de gouvernance efficace des données doit aussi s’appuyer sur les bons outils. Sécurisation des données à l'automatisation de la surveillance et des alertes, préservation et reporting des audits, découverte des données ou le suivi de leur parcours (data lineage)… de nombreuses technologies doivent être intégrées pour gérer le cycle de vie des données dans sa globalité.

Google Cloud propose un ensemble très complet d’outils qui permettent aux entreprises de gérer leurs données en toute sécurité, d’en assurer la gouvernance et d’en orchestrer la démocratisation. Ces outils se répartissent en plusieurs catégories :

Sécurité des données

Une vraie sécurité des données impose d’assurer leur protection à toutes les étapes de leur cycle de vie, autrement dit lorsqu’elles sont générées, acquises, transmises, stockées et même retirées en fin de vie. De multiples stratégies soutenues par différents outils sont utilisées pour à la fois sécuriser les données et identifier/corriger les vulnérabilités à mesure qu’elles se déplacent dans le pipeline de données.

Le Security Command Center de Google Cloud est un service centralisé de signalement des menaces et des vulnérabilités. Intégré à la plateforme Google Cloud, il aide les entreprises à prévenir, détecter les menaces et corriger les vulnérabilités. Security Command Center peut aussi identifier les mauvaises configurations de sécurité et de conformité de vos ressources Google Cloud et fournir des recommandations essentielles pour résoudre les problèmes mis en évidence.

Chiffrement des données

Dans Google Cloud, toute donnée est chiffrée par défaut, qu’elle soit en transit ou au repos. Tout le trafic entre les machines virtuelles, toutes les connexions à BigQuery, Spark ou Google Functions, et toutes les communications avec les services Google Cloud au sein d’un VPC (et entre VPC) sont également chiffrés par défaut.

Outre ce chiffrement par défaut fourni d’emblée, les clients peuvent également renforcer la sécurité des données en gérant leurs propres clés de chiffrement dans Cloud KMS. Et pour aller encore plus loin, le chiffrement côté client est aussi disponible permettant aux entreprises de garder un total contrôle de leurs clés de chiffrement.

Masquage de données et Tokenisation

Si le chiffrement des données garantit que les données sont stockées et circulent sous une forme indéchiffrable, les utilisateurs finaux authentifiés sont eux toujours en mesure de voir les données sensibles lorsqu'ils interrogent la base de données ou affichent le contenu d’un fichier.

Plusieurs règlements internationaux exigent une désidentification ou une tokenisation des données privées ou sensibles. C’est typiquement le cas du RGPD qui recommande une pseudonymisation des données privées pour « réduire les risques sur les personnes concernées ». Les données désidentifiées réduisent les obligations de l'organisation en matière de traitement et d'utilisation des données.

La « tokenisation », autre méthode de brouillage (obfuscation) des données, permet d'effectuer des tâches de traitement des données, comme la vérification des transactions par carte bancaire, sans connaître leur véritable valeur, donc sans divulguer le numéro de carte bancaire dans notre exemple. En effet, la tokenisation remplace la valeur originale des données par un jeton (token) unique.

Chiffrement et tokenisation fonctionnent différemment. Les données chiffrées à l'aide de clés peuvent être déchiffrées à l'aide des mêmes clés.

En revanche, les jetons (tokens) sont mis en correspondance avec les données originales dans un serveur de tokenisation. Autrement dit, un acteur malveillant ayant accès au jeton ne peut retrouver la valeur de ce dernier sans accès au serveur de jetons.

La fonction Cloud DLP (Cloud Data Loss Prevention) de Google détecte, brouille et dépersonnalise automatiquement les informations sensibles contenues dans les données à l’aide de diverses méthodes telles que le masquage des données ou la tokenisation. Lors de la création de pipelines de données ou lors du redéploiement de données vers le Cloud, il suffit d’intégrer Cloud DLP pour détecter et dépersonnaliser ou tokeniser automatiquement les données sensibles. Cela permet aux data scientists et aux utilisateurs de créer des modèles ou des rapports en toute liberté tout en minimisant le risque de violation de la conformité.

Contrôle d’accès granulaire

BigQuery prend en charge le contrôle des accès à vos données Google Cloud avec une très fine granularité. On peut ainsi créer des règles de contrôle pour limiter l'accès aux colonnes et/ou aux lignes de données dans BigQuery.

En combinant Cloud DLP et le contrôle d'accès au niveau des colonnes et des lignes, il est possible de créer des jeux de données comportant à la fois une version sécurisée (masquée ou chiffrée) des données et une version “lisible” des données en fonction des droits de l’utilisateur. Cela favorise la démocratisation des données dans la mesure où le CDO (Chief Data Officer) peut s’appuyer et faire confiance aux garde-fous du cloud de Google pour autoriser ou non un accès en fonction de l'identité de l'utilisateur, tout en disposant de journaux d'audit garantissant un enregistrement des accès.

Ainsi, les données peuvent aisément être partagées au sein de l'organisation pour effectuer des analyses et construire des modèles d'apprentissage automatique tout en garantissant que les données sensibles restent inaccessibles aux utilisateurs non autorisés.

Découverte, classification et partage des données

Il ne peut y avoir d’organisation « data driven » (pilotée par la donnée) sans un moyen de facilement trouver les données.

Les programmes de gouvernance des données s'appuient sur des catalogues de données afin de créer un référentiel d'entreprise de toutes les métadonnées. Ces catalogues permettent aux gestionnaires et aux utilisateurs de données d'ajouter des métadonnées personnalisées, de créer des glossaires métier et de permettre aux analystes et aux scientifiques de rechercher et aisément retrouver les données à analyser. Certains catalogues permettent également aux utilisateurs de demander l'accès aux données directement au sein du catalogue, accès qui peut être approuvé ou refusé en fonction des règles créées par les gestionnaires de données.

Google Cloud propose un catalogue de données entièrement géré et évolutif pour centraliser les métadonnées et prendre en charge la découverte des données. Le Data Catalog de Google respecte les mêmes contrôles d'accès que ceux dont dispose l'utilisateur sur les données (les utilisateurs ne pourront donc pas rechercher des données auxquelles ils ne peuvent pas accéder).
En outre, Data Catalog est intégré de manière native au cœur même de la data fabric de GCP. Ainsi, il n’est nullement nécessaire d'enregistrer manuellement de nouveaux ensembles de données dans le catalogue : la même technologie de "recherche" que celle qui parcourt le Web y indexe automatiquement toutes données nouvellement créées.

Enfin, Google s'est aussi associé aux principales plateformes de gouvernance des données du marché, telles que Collibra et Informatica, pour fournir un support unifié à tout votre écosystème de données, aussi bien sur site que dans le multicloud.

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Data_governance.max-2000x2000.jpg

Data Lineage (suivi des données)

Le « data lineage » permet de remonter jusqu'aux sources des données. Les data-scientists peuvent ainsi s'assurer que leurs modèles sont formés sur des données provenant de sources sûres. Et les data-engineers peuvent élaborer de meilleurs tableaux de bord à partir de sources de données connues. Autre usage, le data lineage permet aussi aux produits dérivés d'hériter des politiques des sources de données : ainsi, lorsqu’une source de données utilisée pour créer un modèle ML est marquée comme sensible, ce modèle ML sera lui-même étiqueté comme sensible.

La possibilité de remonter à la source des données et de conserver un journal de toutes les modifications apportées au fur et à mesure que les données progressent dans le pipeline de données permet aux data-owners d’obtenir une image claire du paysage des données. Il est ainsi plus facile d'identifier les données qui ne sont pas suivies par le Data Lineage et de prendre des mesures correctives pour les soumettre à la gouvernance et aux contrôles établis.
Lorsque les données sont dispersées dans des environnements on-prem, cloud ou multicloud, une plateforme centralisée de « data lineage » donne une vue unique sur l'origine des données et sur la façon dont elles se déplacent dans l'entreprise. Ce suivi est impératif pour contrôler les coûts, garantir la conformité, réduire la duplication des données et améliorer leur qualité.

Data Fusion de Google Cloud fournit un système de suivi des données de bout en bout facilitant la gouvernance et garantissant la conformité. Un système de Data Lineage pour BigQuery peut également être construit en utilisant les journaux d'audit de Google Cloud (Cloud Audit Logs), le Data Catalog, Pub/Sub et Dataflow. L'architecture pour construire un tel système de suivi est décrite ici.

En outre, le riche écosystème de partenaires de Google comprend des leaders du marché fournissant des fonctionnalités de data lineage aussi bien sur site que dans les clouds, à l’instar de Collibra. Des systèmes open source, tel que Apache Atlas, peuvent également être mis en œuvre pour collecter des métadonnées et faire du suivi de données dans Google Cloud.

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Data_governance.max-2000x2000.jpg

Audits

Il est essentiel de conserver tous les enregistrements des accès aux données à des fins d'audit. Ces audits peuvent être internes ou externes. Les audits internes permettent de s'assurer que l'organisation respecte tous les critères de conformité et de prendre des mesures correctives si nécessaire. Si une organisation opère dans un secteur réglementé ou conserve des informations personnelles, la conservation des enregistrements d'audit est une exigence de conformité.

Les journaux d'audit de Google Cloud (Google Cloud Audit Logs) peuvent être activés à volonté pour garantir la conformité en cas d’audit. Ils permettent de répondre à la question « qui a fait quoi, où et quand ? » au travers des services Google Cloud.

Cloud Logging (anciennement Stackdriver) regroupe toutes les données des journaux de votre infrastructure et de vos applications en un seul endroit. Il collecte automatiquement les données des services Google Cloud et vous pouvez alimenter les journaux d'application en utilisant l'agent Cloud Logging, FluentD, ou l'API Cloud logging. Les journaux enregistrés dans  Cloud logging peuvent aisément être transmis à GCS (Google Cloud Storage) pour l'archivage, à Bigquery pour des analyses, mais aussi à Pub/Sub pour les partager avec des systèmes tiers externes.

Enfin, Cloud Log Explorer vous permet de récupérer, d'analyser et de décortiquer facilement les journaux afin de créer des tableaux de bord pour surveiller les données de logs en temps réel.

Qualité des données

Avant d’intégrer des données dans leurs processus décisionnels, les organisations doivent s'assurer qu'elles répondent aux normes de qualité établies. Ces normes sont créées par les gestionnaires de données pour leurs domaines de données.

Google Dataprep de Trifacta fournit une interface utilisateur conviviale pour explorer les données et visualiser leur distribution. Les utilisateurs professionnels peuvent utiliser Dataprep pour identifier rapidement les valeurs aberrantes, les doublons et les valeurs manquantes avant que les données ne soient exploitées par des analystes ou des utilisateurs.

Dataplex de GCP permet d'évaluer la qualité des données grâce à des règles déclaratives qui sont exécutées sur une infrastructure serverless. Les propriétaires de données (data-owners) peuvent créer des règles pour trouver les enregistrements en double, garantir l'exhaustivité, l'exactitude et la validité (par exemple, une date de transaction ne peut pas se situer dans le futur). Ils peuvent planifier ces vérifications à l'aide du planificateur de Dataplex ou les inclure dans un pipeline en utilisant les API. Les mesures de la qualité des données sont stockées dans une table BigQuery et/ou sont disponibles dans la journalisation cloud afin d’élaborer ensuite des tableaux de bord avancés et une automatisation plus poussée.

Par ailleurs, les entreprises pourront tirer profit du riche écosystème de partenaires Google pour y retrouver les principaux éditeurs spécialisés sur la qualité des données, telles qu’Informatica et Collibra. Leurs outils de qualité des données sont utilisés pour surveiller les pipelines de données sur site, dans le cloud et sur plusieurs clouds pour identifier les problèmes de qualité et mettre en quarantaine ou corriger les données de qualité insuffisante.

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Data_governance.max-2000x2000.jpg

Partages d’analyses

Les organisations qui cherchent à démocratiser les données ont besoin d'une plateforme pour facilement partager et échanger les analyses de données. Un tableau de bord, un rapport ou un modèle élaboré par une équipe est souvent utile à d'autres équipes. Dans les grandes organisations, en l'absence d'un moyen simple de découvrir et de partager ces ressources, le travail est inutilement répété engendrant des coûts plus élevés et des pertes de temps. En outre, l'échange de ressources analytiques permet aux équipes de découvrir plus aisément des problèmes liés aux données, ce qui, au final, contribue à améliorer la fiabilité et la qualité des données dans leur globalité.

Parallèlement, les organisations cherchent de plus en plus à échanger des ressources analytiques avec des partenaires externes que ce soit pour négocier de meilleurs coûts avec les fournisseurs, créer des flux de trésorerie, etc.

Analytics Hub permet aux organisations de partager en toute sécurité leurs actifs analytiques : équipes internes et partenaires peuvent alors « s'abonner » à ces derniers pour en profiter. Analytics Hub est un outil essentiel pour les organisations qui cherchent à démocratiser les données et à les intégrer dans toutes les prises de décision.

Certificats de conformité

Avant de pouvoir déployer des données vers le cloud, les organisations doivent s'assurer que toutes les exigences de conformité sont respectées. Une organisation est tenue de se conformer à ces réglementations en fonction de la région dans laquelle elle opère : elle doit se conformer au CCPA en Californie, au GDPR en Europe et au LGPD au Brésil.
Les organisations sont également soumises à des réglementations en raison de leur secteur d’activité spécifique, à l’instar du PCI DSS dans le secteur bancaire, du HIPAA dans le secteur de la santé ou du FedRAMP lorsqu'elles travaillent avec le gouvernement fédéral américain.

Google Cloud possède plus de 100 certifications de conformité spécifiques à des régions et des secteurs d’activité. Et Google continue d'ajouter régulièrement de nouvelles certifications réglementaires à son portefeuille. Nos équipes dédiées à cette problématique aident les clients à garantir leur conformité lors du redéploiement de leurs données et de leur intégration à Google Cloud.

Conclusion

Commencez votre voyage vers la gouvernance des données en explorant Dataplex : cette solution Google permet de gérer et gouverner les données de manière centralisée au sein de votre organisation.

Puis, dans le cadre de la mise en œuvre d’une vraie démocratisation des données, envisagez Analytics Hub pour créer un réel échange de données analytiques entre vos équipes et partager facilement vos ressources analytiques.

La sécurité est intégrée à chaque produit Google et les certifications de conformité - qu’elles soient régionales ou liées aux secteurs d'activité - facilitent les redéploiements de données vers le cloud.

Enfin, si vous avez déjà commencé votre voyage dans le cloud, assurez-vous de la haute qualité des données, et de l'accès sécurisé aux données sensibles en profitant non seulement des solutions natives de Google Cloud mais aussi du riche écosystème de solutions partenaires GCP.

Pour en savoir plus :

Les responsables de la gouvernance des données de Google ont rassemblé les meilleures pratiques et leurs enseignements en matière de gouvernance des données dans une publication O'Reilly : Data Governance, The Definitive Guide
Publié dans