Migrer des entrepôts de données vers BigQuery : création de rapports et analyse

Ce document fait partie d'une série qui traite de la migration des entrepôts de données vers BigQuery. Lorsque votre entrepôt de données est géré par BigQuery, vous pouvez accéder à une suite flexible de solutions de veille stratégique (BI, Business Intelligence) pour la génération de rapports et l'analyse. Ce document explique comment utiliser ces solutions avec BigQuery pour générer des insights de grande valeur à partir de vos données. Google et ses partenaires technologiques proposent ces solutions, qui vous permettent d'effectuer de nombreux types d'opérations d'analyse exhaustive des données :

  • Analyse descriptive : analyser les données historiques et les données en temps réel pour comprendre les comportements passés
  • Analyse prédictive : anticiper les résultats futurs possibles et estimer la probabilité de réaliser ces résultats
  • Analyse normative : quantifier l'impact qu'auront les résultats futurs sur l'entreprise et recommander le meilleur plan d'action

La série se compose des articles suivants :

Intégration avec des solutions tierces

Si vous utilisez des solutions de veille stratégique tierces pour analyser des données en conjonction avec BigQuery, nous vous recommandons d'effectuer une configuration initiale pour établir et contrôler la connexion entre BigQuery et la ou les solutions que vous avez choisies.

Connectivité réseau

Toutes les solutions de veille stratégique et d'analyse de données déployées sur des hôtes et services dotés d'adresses IP externes peuvent accéder à BigQuery via Internet à l'aide de l'API REST BigQuery publique et de l'API BigQuery Storage (version bêta) basée sur le protocole RPC.

Les solutions de veille stratégique et d'analyse de données tierces déployées sur des instances de VM Compute Engine ne disposant que d'adresses IP internes (aucune adresse IP externe) peuvent utiliser l'accès privé à Google pour accéder aux API et services Google tels que BigQuery. Vous activez l'accès privé à Google sous-réseau par sous-réseau. Il s'agit d'un paramètre pour les sous-réseaux d'un réseau VPC. Pour activer l'accès privé à Google pour un sous-réseau et afficher les conditions requises, consultez la page Configurer l'accès privé à Google.

Les solutions de veille stratégique et d'analyse de données tierces déployées sur des hôtes sur site peuvent utiliser l'accès privé à Google pour les hôtes sur site afin d'accéder aux API et services Google tels que BigQuery. Ce service établit une connexion privée entre votre centre de données et Google Cloud via Cloud VPN ou Cloud Interconnect. Les hôtes sur site n'ont pas besoin de disposer d'une adresse IP externe. Ils peuvent directement utiliser leur adresse IP RFC 1918 interne. Pour activer l'accès privé à Google pour les hôtes sur site, vous devez configurer le DNS, les règles de pare-feu et les routes pour vos réseaux sur site et VPC. Pour en savoir plus, consultez la page Configurer l'accès privé à Google pour les hôtes sur site.

Si vous choisissez de gérer vous-même votre propre instance d'une solution de veille stratégique tierce, vous devriez envisager de la déployer sur Compute Engine afin de bénéficier des avantages du réseau backbone de Google et de minimiser la latence entre votre instance et BigQuery.

Lorsque cela est possible, et si votre solution de veille stratégique le permet, envisagez de définir des filtres dans les requêtes effectuées sur vos rapports ou tableaux de bord. Cette étape permet d'envoyer les filtres sous forme de clauses WHERE dans BigQuery. Bien que la définition de ces filtres ne réduise pas la quantité de données analysée par BigQuery, elle réduit en revanche la quantité de données renvoyée sur le réseau.

Pour plus d'informations sur l'optimisation du réseau et des requêtes, consultez les pages Migrer des entrepôts de données vers BigQuery : optimisation des performances et Présentation de l'optimisation des performances des requêtes.

Intégrations natives et intégrations ODBC/JDBC

Les produits de veille stratégique et d'analyse de données de Google tels que Google Data Studio, Dataproc et AI Platform Notebooks, ainsi que certaines solutions tierces comme Tableau, offrent une intégration BigQuery native en vous permettant d'utiliser directement l'API REST BigQuery.

Notez toutefois que d'autres solutions tierces pourraient ne pas offrir le même niveau d'intégration directe. Google s'est associé à Simba Technologies Inc. pour proposer des pilotes ODBC et JDBC exploitant la puissance du langage SQL standard de BigQuery. L'objectif de ces pilotes est de vous aider à associer la puissance de BigQuery aux outils et infrastructures existants dépourvus d'intégration native. La fonctionnalité fournie par une connexion ODBC/JDBC est nécessairement un sous-ensemble des fonctionnalités complètes de BigQuery. Sachez qu'il se peut qu'une connexion ODBC/JDBC ne fonctionne pas aussi efficacement qu'une connexion native. Pour en savoir plus, consultez la documentation Google traitant des pilotes Simba pour Google BigQuery et la documentation Simba concernant les pilotes ODBC et JDBC avec connecteur SQL pour Google BigQuery.

Authentification

L'API BigQuery utilise des jetons d'accès OAuth 2.0 pour authentifier les requêtes. Un jeton d'accès OAuth 2.0 est une chaîne qui accorde un accès temporaire à une API. Le serveur OAuth 2.0 de Google octroie des jetons d'accès à toutes les API Google. Les jetons d'accès sont associés à un champ d'application qui limite leur accès. Pour découvrir les champs d'application associés à l'API BigQuery, reportez-vous à la liste complète des champs d'application des API Google.

Les solutions de veille stratégique et d'analyse de données offrant une interaction native avec BigQuery peuvent générer automatiquement des jetons d'accès pour BigQuery, à l'aide des protocoles OAuth 2.0 ou par le biais de clés privées de compte de service fournies par le client. De même, les solutions qui reposent sur des pilotes ODBC/JDBC développés par Simba peuvent obtenir des jetons d'accès pour un compte utilisateur Google ou pour un compte de service Google.

Tableaux de bord et rapports interactifs

Représenter des données sous forme visuelle est un excellent moyen de favoriser la prise de décisions métier et commerciales fondées sur ces données. En effet, les outils de visualisation peuvent jouer un rôle important en permettant aux utilisateurs d'analyser plus finement les données et de baser leurs raisonnements sur ces données. En communiquant visuellement un message quantitatif, ces outils aident les utilisateurs à comprendre les liens de causalité, à détecter les comportements inhabituels et à identifier des tendances et des schémas.

Dans la section suivante, vous découvrirez un large éventail d'outils visuels qui s'intègrent à BigQuery pour produire des tableaux de bord et des rapports interactifs convaincants et efficaces.

BI Engine

BI Engine est un service d'analyse en mémoire ultrarapide intégré à BigQuery qui offre la possibilité d'accélérer l'exploration et l'analyse des données en faisant appel à des outils de visualisation tiers. En utilisant BI Engine, vous pouvez analyser les données stockées dans BigQuery en bénéficiant d'un temps de réponse aux requêtes inférieur à une seconde et d'une simultanéité élevée. Avec BI Engine, vous pouvez créer des tableaux de bord et des rapports interactifs riches sans compromettre les performances, l'échelle, la sécurité ou la fraîcheur des données.

BI Engine ne peut être utilisé qu'avec Data Studio. Pour plus d'informations au sujet de cette intégration, consultez le guide Premiers pas avec Data Studio.

Pour les solutions qui ne sont pas compatibles avec BI Engine, vous pouvez utiliser le cache intégré de BigQuery lorsque cela est possible. En outre, pour bénéficier du stockage à faible coût de BigQuery, vous pouvez écrire les résultats des requêtes portant sur des ensembles de données volumineux dans de nouvelles tables BigQuery distinctes, puis configurer vos solutions de veille stratégique, afin qu'elles lisent les résultats depuis ces tables.

Data Studio

Data Studio est un service de visualisation de données et de création de rapports entièrement géré et disponible gratuitement. Cet outil peut aider votre organisation à dégager des insights à partir de ses données, par le biais de tableaux de bord interactifs. L'utilisation de Data Studio avec BigQuery BI Engine permet d'obtenir des vitesses extrêmement satisfaisantes pour l'exploration de données et l'interactivité visuelle, même avec les ensembles de données volumineux . Avec ce produit, vous pouvez :

  • créer des tableaux de bord et des analyses efficaces par simple glisser-déposer grâce à un modèle de rapports flexible, et exploiter des centaines de représentations visuelles et de connecteurs de données prédéfinis ou personnalisés, parmi lesquels un connecteur natif pour BigQuery ;
  • inspirer et stimuler les utilisateurs grâce à une interactivité visuelle rapide, un tableau de bord collaboratif en temps réel et des intégrations avancées au sein de l'écosystème Google ;
  • faire évoluer les charges de travail BI centralisées ou en libre-service au sein de l'organisation via la plate-forme sécurisée et sans serveur de Google, sans provisionnement ni administration informatiques superflus.

Exemple de rapport Data Studio généré par le site Google Analytics Marketing

Pour plus d'informations, consultez la documentation de Data Studio et le guide de démarrage rapide de Data Studio. Reportez-vous également à ces guides :

Looker

Looker fournit des services d'analyse de données et de big data aux clients via sa plateforme de veille stratégique (BI). Looker offre une intégration native à BigQuery et est compatible avec des fonctionnalités BigQuery natives, telles que les fonctions définies par l'utilisateur et la gestion des données imbriquées.

Plusieurs blocs Looker existants vous permettent d'utiliser les capacités uniques de BigQuery, par exemple :

Pour configurer une connexion de Looker à BigQuery, vous devez créer un compte de service disposant des rôles IAM BigQuery appropriés, télécharger la clé privée du compte de service, puis importer cette clé dans Looker. Un tutoriel complet sur la configuration de cette connexion est disponible sur la page Looker tutorial for Google BigQuery Legacy SQL and Google BigQuery Standard SQL (tutoriel Looker pour l'ancien Google BigQuery SQL et pour Google BigQuery SQL standard).

Vous pouvez tester l'intégration en exécutant la version d'évaluation de Looker sur BigQuery disponible sur Google Cloud Marketplace. Pour plus d'informations, consultez le livre blanc Looker for Google Cloud Platform et l'étude de cas intitulée How to get real-time, actionable insights from your Fastly logs with Looker and BigQuery (Comment obtenir des insights exploitables en temps réel à partir de vos journaux Fastly à l'aide de Looker et de BigQuery).

Tableau de bord Looker : dépannage à l'aide des données des journaux Fastly

Tableau

Tableau développe des solutions logicielles de veille stratégique et d'analyse conçues pour aider les utilisateurs à découvrir et à visualiser de manière interactive les informations contenues dans des sources allant des feuilles de calcul aux bases de données relationnelles, en passant par le big data. Tableau offre une intégration native à toute une gamme de produits Google Cloud, tels que BigQuery.

Si vous choisissez de gérer votre propre instance de Tableau Server, nous vous recommandons de la déployer sur Compute Engine afin de bénéficier des avantages du réseau backbone de Google et de minimiser la latence entre Tableau Server et BigQuery. Pour plus de détails sur ce déploiement, reportez-vous aux pages Tableau Server on Google Cloud installation instructions (Instructions d'installation de Tableau Server sur Google Cloud) et Best practices for Tableau Server on Compute Engine (Bonnes pratiques pour Tableau Server sur Compute Engine).

Lorsque votre instance Tableau est en cours d'exécution, vous pouvez ajouter BigQuery en tant que source de données. Pour authentifier les requêtes de Tableau auprès de BigQuery, vous pouvez configurer OAuth pour certains utilisateurs Google comme décrit dans ce tutoriel, ou installer les pilotes ODBC Simba sur Tableau Server, puis sélectionner Other Database (ODBC) (Autre base de données (ODBC)) en tant que source de données dans Tableau. Pour les grands ensembles de données, nous vous recommandons d'utiliser une connexion en direct, afin de décharger les optimisations de traitement et de mise en cache vers BigQuery. Pour en savoir plus sur les bonnes pratiques d'utilisation de Tableau avec BigQuery, consultez l'étude de cas détaillée réalisée par Zulily.

Autres fournisseurs

De l'intégration à l'analyse, les fournisseurs de solutions BigQuery ont associé BigQuery à leurs outils de pointe pour développer des solutions performantes de chargement, de transformation et de visualisation des données. Ces outils permettent aux clients de tirer parti de l'agilité, des performances et de la facilité d'utilisation de BigQuery pour fournir des insights plus efficaces, plus rapidement. Consultez la liste complète des fournisseurs disponibles.

Analyse SQL exploratoire

SQL (Structured Query Language) est un langage standard de gestion et d'analyse des données de systèmes de gestion de bases de données relationnelles. Le langage SQL standard de BigQuery est conforme à la norme ANSI SQL 2011. Cette conformité permet aux analystes de données déjà formés à SQL de se lancer rapidement et facilement dans l'analyse d'ensembles de données volumineux à l'aide de BigQuery.

BigQuery offre également des extensions permettant d'interroger des données imbriquées et répétées et de spécifier des fonctions définies par l'utilisateur (UDF). Une fonction définie par l'utilisateur vous permet de créer une fonction à l'aide d'une autre expression SQL ou d'un autre langage de programmation, tel que JavaScript. Ces fonctions acceptent des colonnes en tant qu'entrées, effectuent certaines actions, puis renvoient le résultat de ces dernières sous la forme d'une valeur.

Les sections suivantes décrivent plusieurs options d'utilisation de SQL pour traiter et analyser les données stockées dans BigQuery.

Interface utilisateur de BigQuery

BigQuery intègre une interface utilisateur graphique Web pour Cloud Console, permettant de créer et de gérer les ressources BigQuery, ainsi que d'exécuter des requêtes SQL.

Capture d'écran de l'interface Web de BigQuery

Lorsque vous exécutez des tâches et exécutez des requêtes à l'aide de l'interface utilisateur Web de BigQuery, l'historique est conservé dans le volet de navigation. Bien que les requêtes soient également un type de tâche, l'historique des requêtes est conservé séparément pour faciliter son utilisation. La section Ressources contient une liste des projets épinglés. Vous pouvez développer un projet pour afficher les ensembles de données et les tables auxquels vous avez accès. Un champ de recherche disponible dans la section Ressources vous permet de rechercher des ressources par nom (nom du projet, de l'ensemble de données, de la table ou de la vue) ou par libellé. La barre de recherche détecte toutes les ressources qui correspondent ou contiennent des correspondances dans vos projets en cours et épinglés.

Avec l'interface utilisateur BigQuery, vous pouvez enregistrer et partager des requêtes ou définir des vues autorisées pour augmenter la productivité et faciliter la collaboration entre vos équipes. Vous pouvez également programmer des requêtes à exécuter de façon récurrente.

Vous trouverez des exemples utilisant l'interface Web dans la section Guides pratiques de la documentation BigQuery. Pour consulter des exemples de chargement et d'interrogation de données à l'aide de l'interface Web de BigQuery, reportez-vous au Guide de démarrage rapide de l'interface Web de BigQuery.

BigQuery Geo Viz

Les systèmes d'information géographique (SIG) BigQuery acceptent les fonctions et types de données géospatiales permettant d'analyser et d'exploiter toutes les données comportant des attributs spatiaux.

BigQuery Geo Viz est un outil Web permettant de visualiser des données géospatiales dans BigQuery à l'aide des API Google Maps. Vous pouvez exécuter une requête SQL et afficher les résultats sur une carte interactive. Des fonctionnalités de style flexibles vous permettent d'analyser et d'explorer vos données.

BigQuery Geo Viz n'est pas un outil de visualisation SIG BigQuery complet. Geo Viz est un outil léger pour visualiser les résultats d'une requête SIG BigQuery sur une carte, une requête à la fois.

Pour un exemple d'utilisation de Geo Viz permettant de visualiser les données SIG BigQuery, consultez la page Premiers pas avec BigQuery SIG pour les analystes de données.

Exemple de visualisation Geo Viz

BigQuery ML

BigQuery ML permet de créer et d'exécuter des modèles de machine learning dans BigQuery à l'aide de requêtes SQL standards. BigQuery ML rend le machine learning plus accessible car il permet aux utilisateurs de SQL de mettre à profit leurs compétences et les outils SQL dont ils disposent pour développer des modèles de ML. BigQuery ML accélère le développement en éliminant la nécessité de déplacer les données et permet aux analystes de passer de l'analyse descriptive à l'analyse prédictive.

Le machine learning sur des ensembles de données volumineux nécessite une programmation importante et une connaissance approfondie des structures ML. Ces exigences restreignent le développement de solutions à un petit nombre de personnes au sein de chaque entreprise et excluent les analystes de données, lesquels comprennent les données mais ont des connaissances limitées en matière de machine learning et ne sont pas des experts en programmation.

Exemple de statistiques d'entraînement d'un modèle de ML

BigQuery ML permet aux analystes de données d'exploiter le machine learning en s'appuyant sur leurs propres compétences et sur les outils SQL qu'ils connaissent. Ils peuvent utiliser BigQuery ML pour créer et évaluer des modèles de ML dans BigQuery. En outre, ils n'ont plus besoin d'exporter de petites quantités de données vers des feuilles de calcul ou d'autres applications, ni d'attendre que l'équipe de data scientists leur fournisse des quantités limitées de ressources.

Pour démarrer avec BigQuery ML, consultez la documentation BigQuery ML officielle, les tutoriels BigQuery ML et le guide Premiers pas avec BigQuery ML à l'aide de l'interface utilisateur Web.

Dataflow SQL

Dataflow SQL vous permet d'utiliser des requêtes SQL pour développer et exécuter des tâches Cloud Dataflow à partir de l'UI Web de BigQuery. Dataflow SQL s'intègre à Apache Beam SQL et est compatible avec une variante de la syntaxe de requête ZetaSQL. En utilisant les extensions de traitement par flux de ZetaSQL, vous pouvez définir vos pipelines de traitement de données en flux continu, par exemple :

  • Utilisez vos compétences en SQL pour développer et exécuter des pipelines de traitement par flux depuis l'interface utilisateur Web de BigQuery. Vous n'avez pas besoin de configurer un environnement de développement (SDK), ni de savoir comment programmer en Java ou Python.
  • Associez des flux (tels que Pub/Sub) aux ensembles de données sur lesquels des instantanés peuvent être créés (tels que des tables BigQuery).
  • Interrogez vos flux ou vos ensembles de données statiques avec SQL en associant des schémas à des objets, tels que des tables, des fichiers et des sujets Pub/Sub.
  • Écrivez vos résultats dans une table BigQuery à des fins d'analyse et de création de tableaux de bord.

Utiliser l'éditeur de requêtes SQL de Dataflow pour définir un pipeline de traitement parallèle de flux de données.

Apache Beam et Dataflow sont également compatibles avec un modèle de programmation enrichi, comme décrit dans la section Apache Beam.

Pour en savoir plus sur Dataflow SQL, consultez la documentation de Dataflow SQL et la présentation de l'interface utilisateur de Dataflow SQL.

Feuilles de calcul

Les feuilles de calcul jouent un rôle prépondérant dans les opérations de nombreuses entreprises car elles offrent aux utilisateurs un moyen pratique de partager et d'analyser des données. Compte tenu de l'importance que revêtent les feuilles de calcul, si vous les connectez à BigQuery, vous pouvez développer de nouvelles approches collaboratives et obtenir rapidement des insights lors de l'analyse de grands ensembles de données.

Google Sheets

Google Sheets est une application de type tableur en ligne qui permet aux utilisateurs de créer et formater des feuilles de calcul, ainsi que de travailler simultanément sur ces documents avec d'autres personnes. BigQuery et Sheets peuvent s'intégrer de différentes manières.

Vous pouvez enregistrer les résultats d'une requête BigQuery dans Sheets depuis l'interface utilisateur de BigQuery, avec certaines limitations. Vous pouvez également interroger des données stockées dans Google Drive (y compris des fichiers Sheets) depuis BigQuery à l'aide de requêtes fédérées.

Enregistrement des résultats d'une requête BigQuery dans Sheets depuis l'interface utilisateur de BigQuery

Vous pouvez également utiliser les feuilles connectées, une fonctionnalité de Sheets qui aide à la prise de décisions fondées sur les données et stimule la collaboration au sein de votre entreprise, tout en limitant les utilisateurs autorisés à consulter, modifier ou partager des données.

Les feuilles connectées s'activent lorsque vous utilisez le connecteur de données Sheets pour BigQuery. Cette fonctionnalité vous permet de réaliser des opérations de consultation, d'analyse, de visualisation et de collaboration sur 10 milliards de lignes de données BigQuery. Cette fonctionnalité permet aux utilisateurs finaux d'afficher des insights sans avoir besoin de l'aide d'experts ou d'analystes BigQuery maîtrisant le langage SQL. À son tour, l'interface de feuille de calcul rapide et familière vous permet d'effectuer de nombreuses opérations en libre-service pour une meilleure compréhension du big data : exploration, ajout de tableaux croisés dynamiques, filtrage, création de graphiques et analyses basées sur des formules.

Feuille connectée avec l'éditeur de requête BigQuery.

Microsoft Excel

BigQuery propose un connecteur permettant d'effectuer des requêtes sur BigQuery à partir d'Excel. Cette fonctionnalité peut être utile si vous utilisez Excel pour gérer vos données. Cet outil se connecte à BigQuery, envoie une requête spécifiée, puis télécharge et propage les données concernées dans Excel. Pour en savoir plus, reportez-vous au guide d'utilisation du connecteur BigQuery pour Excel.

Les pilotes ODBC BigQuery vous permettent également de connecter des outils compatibles avec l'API ODBC pour BigQuery, entre autres Microsoft Excel. Pour en savoir plus, reportez-vous au tutoriel Se connecter à BigQuery depuis Microsoft Excel via ODBC.

Feuille de calcul Excel montrant comment lancer une requête sur BigQuery

Notebooks et analyse automatisée

Bien que SQL soit un langage de requête puissant, les langages de programmation tels que Python, Java ou R fournissent des syntaxes et de nombreuses fonctions statistiques intégrées que les analystes de données pourraient trouver plus expressives et plus faciles à manipuler pour certains types d'opérations d'analyse de données.

De même, bien que les tableurs soient largement utilisés, d'autres environnements de programmation, tels que les notebooks, peuvent parfois offrir un environnement plus flexible pour effectuer certaines opérations d'analyse et d'exploration de données complexes.

Dans cette section, vous découvrirez différentes manières d'écrire et d'exécuter du code pour analyser des données gérées dans BigQuery.

Notebooks Jupyter

Jupyter est une application Web Open Source qui permet de publier des notebooks contenant du code en direct, des descriptions textuelles et des visualisations. Cette plate-forme est couramment utilisée par les data scientists, les spécialistes du machine learning et les étudiants pour le nettoyage et la transformation de données, les simulations numériques, la modélisation statistique, la visualisation de données, le machine learning, etc.

Les notebooks Jupyter reposent sur le noyau IPython, une puissante interface système interactive qui est capable d'interagir directement avec BigQuery à l'aide des commandes magiques IPython pour BigQuery. Vous pouvez également accéder à BigQuery à partir de vos instances de notebooks Jupyter en installant l'une des bibliothèques clientes BigQuery disponibles. Vous pouvez visualiser des données SIG BigQuery à l'aide de notebooks Jupyter via l'extension GeoJSON. Pour plus de détails sur l'intégration de BigQuery, reportez-vous au tutoriel Visualiser des données BigQuery dans un notebook Jupyter.

Notebook Jupyter : diagramme présentant une visualisation de données SIG BigQuery

JupyterLab est une interface utilisateur Web permettant de gérer des documents et activités, par exemple des notebooks Jupyter, des éditeurs de texte, des terminaux et des composants personnalisés. Avec JupyterLab, vous pouvez organiser plusieurs documents et activités côte à côte dans votre espace de travail à l'aide d'onglets et de séparateurs.

JupyterLab : utilisation d'onglets et de séparateurs pour organiser plusieurs documents et activités côte à côte dans l'espace de travail

Vous pouvez déployer des notebooks Jupyter et des environnements JupyterLab sur Google Cloud à l'aide de l'un des produits suivants :

Apache Zeppelin

Apache Zeppelin est un projet Open Source qui propose des notebooks Web pour l'analyse de données. Vous pouvez déployer une instance d'Apache Zeppelin sur Dataproc en installant le composant Zeppelin facultatif. Par défaut, les notebooks sont enregistrés dans Cloud Storage, dans le bucket de préproduction Dataproc (spécifié par l'utilisateur ou créé automatiquement lors de la création du cluster). Vous pouvez modifier l'emplacement du notebook en ajoutant la propriété zeppelin:zeppelin.notebook.gcs.dir lors de la création du cluster. Pour plus d'informations sur l'installation et la configuration de cet outil, consultez le guide du composant Zeppelin. Vous pouvez également consulter un exemple détaillé dans la section Analyser des ensembles de données BigQuery à l'aide de l'interpréteur BigQuery pour Apache Zeppelin.

Analyse SQL des données de la table, affichée dans Zeppelin

Apache Hadoop et Apache Spark

Dans le cadre de la migration de votre pipeline d'analyse de données, il se peut que vous souhaitiez migrer certaines anciennes tâches Apache Hadoop et Apache Spark qui doivent traiter directement des données hébergées dans votre entrepôt de données. Par exemple, vous pouvez avoir besoin d'extraire des caractéristiques pour vos charges de travail de machine learning.

Dataproc vous permet de déployer des clusters Hadoop et Spark rapides, faciles à utiliser et entièrement gérés, de manière simple et économique. Dataproc s'intègre au connecteur BigQuery, une bibliothèque Java qui permet à Hadoop et à Spark de traiter directement les données de BigQuery à l'aide de versions simplifiées des classes Apache Hadoop InputFormat et OutputFormat. Vous pouvez également installer le connecteur Apache Spark SQL pour Google BigQuery (bêta) afin de lire les données à partir de BigQuery. Ce connecteur utilise l'API BigQuery Storage (bêta), qui permet de diffuser des données en parallèle directement depuis BigQuery via gRPC.

Lorsque vous migrez vos charges de travail Hadoop et Spark existantes vers Dataproc, vous pouvez vérifier que les dépendances des charges de travail sont bien prises en compte par les versions de Dataproc compatibles. Si vous avez besoin d'installer un logiciel personnalisé, vous pouvez envisager de créer une image Dataproc personnalisée, d'écrire vos propres actions d'initialisation ou de spécifier des conditions requises personnalisées pour le package Python.

Pour commencer, consultez les guides de démarrage rapide de Dataproc et les exemples de code de connecteur BigQuery.

Apache Beam

Apache Beam est un framework Open Source qui fournit de nombreuses primitives de fenêtrage et d'analyse de sessions, ainsi qu'un écosystème de connecteurs de sources et de récepteurs, parmi lesquels un connecteur pour BigQuery. Apache Beam permet de transformer et d'enrichir des données en mode flux (temps réel) et lot (historique) avec un niveau identique de fiabilité et d'expressivité.

Dataflow est un service entièrement géré permettant d'exécuter des tâches Apache Beam à grande échelle. L'approche sans serveur de Dataflow permet d'éliminer les coûts opérationnels grâce à la gestion automatique des besoins de performances, d'évolutivité, de disponibilité, de sécurité et de conformité. Vous pouvez ainsi vous concentrer sur la programmation plutôt que sur la gestion des clusters de serveurs.

Graphique d'exécution comportant une transformation composite développée (MakeMapView) La sous-transformation créant l'entrée secondaire (CreateDataflowView) est sélectionnée et les métriques des entrées secondaires sont affichées dans l'onglet Step (Étape).

Pour envoyer des tâches Dataflow, vous pouvez utiliser l'interface de ligne de commande, le SDK Java ou le SDK Python.

Si vous souhaitez migrer vos requêtes et pipelines de données depuis d'autres frameworks vers Apache Beam et Dataflow, renseignez-vous sur le modèle de programmation Apache Beam et consultez la documentation Dataflow officielle.

RStudio

Les data scientists utilisent souvent le langage de programmation R pour créer des outils d'analyse de données et des applications statistiques. RStudio développe des outils gratuits et ouverts pour R et des produits professionnels prêts à l'emploi pour les équipes désireuses de faire évoluer leurs solutions métier et de partager leur travail. Les produits RStudio, tels que RStudio Server Pro, simplifient l'analyse de données avec R et fournissent de puissants outils de publication et de partage.

RStudio Server Pro est un environnement de développement intégré (IDE) à la demande et sous licence commerciale. Il offre les fonctionnalités du célèbre IDE Open Source RStudio, un fonctionnement clé en main, une sécurité renforcée, la possibilité de gérer plusieurs versions et sessions R, etc.

Vous pouvez déployer le composant RStudio Server Pro pour Google Cloud à partir de Google Cloud Marketplace. Cette version est identique à RStudio Server Pro, mais elle offre plus de commodité aux data scientists. Par exemple, ils peuvent directement préinstaller plusieurs versions de R ainsi que les bibliothèques système les plus courantes. Elle inclut également bigrquery, le package BigQuery pour R, lequel fournit les backends DBI et dplyr qui permettent d'interagir avec BigQuery à l'aide d'instructions SQL de bas niveau ou de verbes dplyr (langage de haut niveau). Ce package facilite l'utilisation des données stockées dans BigQuery en vous permettant d'interroger les tables BigQuery et d'extraire des métadonnées relatives à vos projets, ensembles de données, tables et tâches. Pour en savoir plus, consultez le guide officiel Premiers pas avec RStudio Server Pro pour Google Cloud et les Questions fréquentes sur RStudio Server Pro pour Google Cloud.

Vous pouvez également installer la version Open Source de RStudio Server sur un cluster Dataproc, comme indiqué dans ce tutoriel sur RStudio. Grâce à l'exécution de RStudio sur Dataproc, vous pouvez bénéficier de l'autoscaling de Dataproc. Avec l'autoscaling, vous pouvez vous cantonner à un cluster de taille minimale lorsque vous développez votre logique SparkR. Une fois que vous avez envoyé votre tâche pour un traitement à grande échelle, vous n'avez besoin d'effectuer aucune action supplémentaire, ni de vous préoccuper de la modification de votre serveur. Il vous suffit d'envoyer votre tâche SparkR à RStudio. Le cluster Dataproc s'adaptera automatiquement aux besoins de votre tâche selon les intervalles que vous avez définis. Pour en savoir plus sur l'intégration de RStudio à Dataproc, lisez l'annonce officielle de lancement.

Présentation d'une configuration RStudio.

Autres ressources

BigQuery offre un large éventail de bibliothèques clientes dans plusieurs langages de programmation, tels que Java, Go, Python, JavaScript, PHP et Ruby. Certains frameworks d'analyse de données tels que Pandas fournissent des plug-ins qui interagissent de manière native avec BigQuery. Pour obtenir des exemples pratiques, reportez-vous aux tutoriels Créer des tableaux de bord interactifs personnalisés avec Bokeh et BigQuery et Télécharger des données BigQuery sur pandas à l'aide de l'API BigQuery Storage.

Enfin, si vous préférez écrire vos programmes dans un environnement shell, vous pouvez utiliser l'outil de ligne de commande bq.

Étapes suivantes