Créer un lac de données sur Google Cloud Platform

Stockez, traitez et analysez d'énormes volumes de données de manière flexible et économique.

Présentation des lacs de données Cloud

Un emplacement unique pour collecter et utiliser toutes vos données

Ajoutez des données sur Google Cloud Platform en l'état (structurées ou non structurées) et stockez-les séparément des ressources de calcul pour échapper aux coûts des modèles de stockage sur site. Épargnez-vous le casse-tête du pré-traitement de données et l'élaboration permanente de schémas pour la gestion de nouveaux types de données. Tirez parti des services Google Cloud Platform de pointe en matière de traitement, d'analyse et de machine learning pour une utilisation percutante de ces opérations au sein de votre entreprise. Exploitez la même infrastructure sécurisée que Google utilise pour protéger les données d'identification, les applications et les appareils.

De l'ingestion à l'insight

Données présentes dans les lacs de données GCP

Ajouter des données au lac de données GCP

Du traitement par lots au traitement par flux, Google Cloud Platform simplifie le transfert de vos données vers le cloud où qu'elles soient. Que vous souhaitiez migrer des données sur votre réseau à l'aide d'un dispositif de transfert hors connexion ou enregistrer des flux en temps réel, les produits et services GCP s'adaptent à vos besoins en toute simplicité.

Stocker des données à l'échelle du pétaoctet

Stocker des données à l'échelle du pétaoctet

Utilisez Cloud Storage comme plate-forme centralisée pour votre lac de données. Conçu pour offrir une durabilité de 99,999999999 %, ce produit est doté d'une cohérence forte et d'une capacité à stocker des données au repos (sans lien avec les ressources de calcul, contrairement aux modèles sur site traditionnels). Les classes de stockage multiples de Google Cloud Storage vous permettent d'optimiser les coûts et la disponibilité, et ainsi de créer des lacs de données à l'échelle du pétaoctet de manière économique. De plus, les données stockées dans Google Cloud Storage sont facilement accessibles depuis de nombreux autres produits Google Cloud Platform, ce qui en fait la plate-forme centralisée idéale pour stocker tous types de données, pour tous types de cas d'utilisation.

Traiter les données

Traiter les données à votre manière

Avec votre lac de données hébergé sur Cloud Storage, vous pouvez choisir une méthode de traitement de données adaptée aux besoins de votre entreprise. Profitez de l'expérience Hadoop existante au sein de votre organisation avec Cloud Dataproc, le service Hadoop et Spark entièrement géré de GCP. Vous pourrez ainsi démarrer des clusters à la demande et ne payer que la durée d'exécution réelle des tâches. Vous pouvez également explorer Cloud Dataflow, le service Apache Beam entièrement géré de GCP, qui vous permet de travailler sur des charges de travail par flux et par lots pour une expérience de traitement de données sans serveur et sans les difficultés inhérentes au provisionnement et à la gestion.

Entrepôt de données sans serveur

Entrepôt de données sans serveur pour les analyses du lac de données

Analysez les données structurées résidant dans votre lac de données à l'aide de BigQuery, l'entrepôt de données à l'échelle du pétaoctet sans serveur de GCP. Effectuez des requêtes à une vitesse fulgurante sur des volumes de données importants pour répondre aux besoins de votre entreprise en termes de création de rapports et de veille stratégique. Exploitez les fonctionnalités intégrées de machine learning, accessibles à l'aide du langage SQL familier, et encouragez la culture des données au sein de votre entreprise.

Analyses détaillées à l'aide du ML

Analyses détaillées à l'aide du machine learning

Exploitez votre lac de données dans GCP pour réaliser des expériences en science des données et élaborer des modèles de machine learning basés sur des éléments de données stockés dans Cloud Storage. Tirez parti des intégrations natives avec les produits d'IA dans le cloud exceptionnels de Google pour réaliser toutes sortes d'opérations : obtenir des insights à partir d'éléments d'images et de vidéos ou encore personnaliser, déployer et adapter vos propres modèles de machine learning à l'aide de Cloud Machine Learning Engine.

Mapper les charges de travail des lacs de données Hadoop sur site aux produits GCP

Créer un lac de données cloud sur GCPOUINONIm processingstreaming dataWe useApache BeamWe useApache Spark or KafkaCloud DataflowCloud DataprocCloud DataprocIm doinginteractive dataanalysis orad-hoc queryingWe use Apache Sparkwith interactive webnotebooksAre you interested in keepingthese SQL queries as they are?Cloud Dataproc combiné avec des composants facultatifs de Jupyter ou de Zeppelin. Cloud Dataproc. Non, je souhaite en savoir plus sur les solutions sans serveur.OUINONNon, je souhaite en savoir plus sur les solutions gérées./ BigQuery. Nous utilisons SQL avec Apache Hive, Apache Drill, Impala, Presto ou d'autres solutions similaires. Cloud Dataproc. Cloud Dataproc. J'effectue des opérations ELT/ETL ou du traitement par lot. Nous utilisons MapReduce, Spark, Pig ou Hive. Nous utilisons Oozie pour l'orchestration des workflows. Cloud Composer. Souhaitez-vous laisser ces tâches de workflow en l'état ? J'accepte les charges de travail NoSQL. Nous utilisons Apache Accumulo. Cloud Dataproc. OUI. NON. Vous souhaitez utiliser des coprocesseurs ou SQL avec Apache Phoenix ? Cloud Dataproc. Cloud Bigtable. Nous utilisons Apache HBase. J'exécute un cluster Apache Hadoop sur site.

Ressources