Cette page a été traduite par l'API Cloud Translation.
Switch to English

Démarrage rapide

Ce guide de démarrage rapide vous montre comment :

  1. Créer une instance Cloud Data Fusion.
  2. Déployer un exemple de pipeline fourni avec votre instance Cloud Data Fusion. Le pipeline effectue les opérations suivantes :
    1. Lit un fichier JSON dans Cloud Storage contenant les données du best-seller du NYT
    2. Exécute les transformations sur le fichier pour analyser et nettoyer les données
    3. Importe les livres les mieux classés ajoutés la semaine dernière et coûtant moins de 25 $ dans BigQuery

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Activez l'API Cloud Data Fusion.

    Activer l'API

Créer une instance Cloud Data Fusion

Créez une instance Cloud Data Fusion

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois Cloud Console et l'interface utilisateur distincte Cloud Data Fusion.

  • Dans Cloud Console, vous pouvez créer un projet Cloud Console, créer et supprimer des instances Cloud Data Fusion, et afficher les détails des instances Cloud Data Fusion.

  • Dans l'interface utilisateur Web de Cloud Data Fusion, vous pouvez utiliser les différentes pages, telles que Pipeline Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.

Pour parcourir l'interface utilisateur de Cloud Data Fusion, procédez comme suit :

  1. Dans Cloud Console, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance.
  3. Dans l'interface utilisateur Web de Cloud Data Fusion, utilisez le panneau de navigation de gauche pour accéder à la page dont vous avez besoin.

Déployer un exemple de pipeline

Des exemples de pipelines sont disponibles via Cloud Data Fusion Hub, qui vous permet de partager des pipelines, des plug-ins et des solutions Cloud Data Fusion réutilisables.

  1. Dans l'interface utilisateur Web de Cloud Data Fusion, cliquez sur HUB.
  2. Dans le panneau de gauche, cliquez sur Pipelines.
  3. Cliquez sur le pipeline Guide de démarrage rapide de Cloud Data Fusion.
  4. Cliquez sur Créer.
  5. Dans le panneau de configuration de démarrage rapide de Cloud Data Fusion, cliquez sur Terminer.
  6. Cliquez sur Personnaliser le pipeline. Une représentation visuelle de votre pipeline s'affiche dans Pipeline Studio. Il s'agit d'une interface graphique permettant de développer des pipelines d'intégration de données. Les plug-ins de pipeline disponibles sont répertoriés sur la gauche, et votre pipeline est affiché dans la zone principale du canevas. Vous pouvez explorer votre pipeline en maintenant le pointeur sur chaque nœud de pipeline et en cliquant sur le bouton Propriétés qui s'affiche. Le menu des propriétés de chaque nœud vous permet d'afficher les objets et les opérations associés au nœud.
  7. Dans le menu situé en haut à droite, cliquez sur Déployer. Le pipeline est alors envoyé à Cloud Data Fusion. Vous allez exécuter le pipeline dans la section suivante de ce guide de démarrage rapide.
Déployer le pipeline.

Consulter votre pipeline

Le pipeline déployé apparaît dans l'affichage des détails du pipeline, où vous pouvez effectuer les opérations suivantes :

  • afficher la structure et la configuration du pipeline ;
  • exécuter le pipeline manuellement, ou configurer un calendrier ou un déclencheur ;
  • afficher un résumé des exécutions historiques du pipeline, y compris les temps d'exécution, les journaux et les métriques.
Copier le compte de service.

Exécuter votre pipeline

Dans l'affichage des détails du pipeline, cliquez sur Exécuter pour exécuter le pipeline.

Afficher les résultats

Au bout de quelques minutes, le pipeline se termine. Le pipeline passe à l'état Réussi et le nombre d'enregistrements traités par chaque nœud s'affiche.

L'exécution du pipeline est terminée.
  1. Accédez à l'interface utilisateur de BigQuery.
  2. Sous l'ensemble de données DataFusionQuickstart de votre projet, cliquez sur la table top_rated_inexpensive, puis exécutez une requête simple, telle que SELECT * FROM `my-project.GCPQuickStart.top_rated_inexpensive` LIMIT 10 (remplacez "my-project" par votre ID de projet), pour afficher un échantillon des résultats.
Afficher les résultats.

Nettoyer

Pour éviter que les ressources utilisées dans ce guide de démarrage rapide soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Supprimez l'ensemble de données BigQuery que votre pipeline a écrit dans ce guide de démarrage.
  2. Supprimez l'instance Cloud Data Fusion.

  3. (Facultatif) Supprimez le projet.

    1. Dans Cloud Console, accédez à la page Gérer les ressources.

      Accéder à la page Gérer les ressources

    2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
    3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étape suivante