Créer un pipeline de données

Ce guide de démarrage rapide vous explique comment effectuer les opérations suivantes:

  1. Créer une instance Cloud Data Fusion.
  2. Déployer un exemple de pipeline fourni avec votre instance Cloud Data Fusion. Le pipeline effectue les opérations suivantes :
    1. Lit un fichier JSON dans Cloud Storage contenant les données du best-seller du NYT
    2. Exécute les transformations sur le fichier pour analyser et nettoyer les données
    3. Importe les livres les mieux classés ajoutés la semaine dernière et coûtant moins de 25 $ dans BigQuery

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Activez l'API Cloud Data Fusion

    Activer l'API

  4. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  5. Activez l'API Cloud Data Fusion

    Activer l'API

Créer une instance Cloud Data Fusion

  1. Cliquez sur Create an instance (Créer une instance).

    Accéder à la page "Instances"

  2. Saisissez un Nom d'instance.
  3. Saisissez une Description pour votre instance.
  4. Indiquez la région dans laquelle créer l'instance.
  5. Choisissez la version Cloud Data Fusion à utiliser.
  6. Choisissez l'édition Cloud Data Fusion.
  7. Pour Cloud Data Fusion 6.2.3 et versions ultérieures, dans le champ Autorisation, sélectionnez le compte de service Dataproc à utiliser pour exécuter votre pipeline Cloud Data Fusion dans Dataproc. Le compte Compute Engine, qui est la valeur par défaut, est présélectionné.
  8. Cliquez sur Créer. Le processus de création de l'instance peut prendre jusqu'à 30 minutes. Pendant que Cloud Data Fusion crée votre instance, une icône de progression en forme de roue s'affiche à côté du nom de l'instance sur la page Instances. Une fois l'opération terminée, une coche verte indiquant que vous pouvez commencer à utiliser l'instance s'affiche à la place de la roue.

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface Web distincte de Cloud Data Fusion.

  • Dans la console Google Cloud, vous pouvez effectuer les opérations suivantes:

    • Créer un projet dans la console Google Cloud
    • Créer et supprimer des instances Cloud Data Fusion
    • Afficher les détails de l'instance Cloud Data Fusion
  • Dans l'interface Web de Cloud Data Fusion, vous pouvez utiliser différentes pages, telles que Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.

Pour naviguer dans l'interface Cloud Data Fusion, procédez comme suit:

  1. Dans la console Google Cloud, ouvrez la page Instances.

    Accéder à la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance.
  3. Dans l'interface Web de Cloud Data Fusion, accédez à la page souhaitée à l'aide du panneau de navigation de gauche.

Déployer un exemple de pipeline

Des exemples de pipelines sont disponibles via le hub Cloud Data Fusion, qui vous permet de partager des pipelines, des plug-ins et des solutions Cloud Data Fusion réutilisables.

  1. Dans l'interface Web de Cloud Data Fusion, cliquez sur Hub.
  2. Dans le panneau de gauche, cliquez sur Pipelines.
  3. Cliquez sur le pipeline Guide de démarrage rapide de Cloud Data Fusion.
  4. Cliquez sur Créer.
  5. Dans le panneau de configuration du démarrage rapide de Cloud Data Fusion, cliquez sur Terminer.
  6. Cliquez sur Personnaliser le pipeline.

    Une représentation visuelle de votre pipeline s'affiche sur la page Studio, qui est une interface graphique permettant de développer des pipelines d'intégration de données. Les plug-ins de pipeline disponibles sont répertoriés sur la gauche, et votre pipeline est affiché dans la zone principale du canevas. Vous pouvez explorer votre pipeline en maintenant le pointeur sur chaque nœud du pipeline et en cliquant sur Properties (Propriétés). Le menu des propriétés de chaque nœud vous permet d'afficher les objets et les opérations qui lui sont associés.

  7. Dans le menu en haut à droite, cliquez sur Déployer. Cette étape envoie le pipeline à Cloud Data Fusion. Vous allez exécuter le pipeline dans la section suivante de ce guide de démarrage rapide.

Déployer le pipeline

Consulter votre pipeline

Le pipeline déployé apparaît dans l'affichage des détails du pipeline, où vous pouvez effectuer les opérations suivantes :

  • Affichez la structure et la configuration du pipeline.
  • exécuter le pipeline manuellement, ou configurer un calendrier ou un déclencheur ;
  • Affichez un résumé des exécutions historiques du pipeline, y compris les durées d'exécution, les journaux et les métriques.

Copiez le compte de service.

Exécuter votre pipeline

Dans l'affichage des détails du pipeline, cliquez sur Exécuter pour exécuter le pipeline.

Exécuter le pipeline

Lors de l'exécution d'un pipeline, Cloud Data Fusion effectue les opérations suivantes:

  1. Provisionne un cluster Dataproc éphémère
  2. Exécute le pipeline sur le cluster à l'aide d'Apache Spark.
  3. Suppression du cluster

Afficher les résultats

Au bout de quelques minutes, le pipeline se termine. Le pipeline passe à l'état Réussi et le nombre d'enregistrements traités par chaque nœud s'affiche.

Exécution du pipeline terminée

  1. Accédez à l'interface Web de BigQuery.
  2. Pour afficher un exemple des résultats, accédez à l'ensemble de données DataFusionQuickstart de votre projet, cliquez sur la table top_rated_inexpensive, puis exécutez une requête simple. Exemple :

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Remplacez PROJECT_ID par l'ID du projet.

Afficher les résultats

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Supprimez l'ensemble de données BigQuery dans lequel votre pipeline a écrit dans ce guide de démarrage rapide.
  2. Supprimez l'instance Cloud Data Fusion.

  3. Facultatif: supprimez le projet.

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étapes suivantes

  • Suivez un tutoriel Cloud Data Fusion
  • Familiarisez-vous avec les concepts de Cloud Data Fusion