Interroger un ensemble de données public et visualiser les résultats

Découvrez comment interroger un ensemble de données public et visualiser les résultats dans BigQuery.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud , cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that you have the following role or roles on the project: BigQuery Job User, Service Usage Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Accéder à IAM
    2. Sélectionnez le projet.
    3. Cliquez sur  Accorder l'accès.
    4. Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.

    5. Dans la liste Sélectionner un rôle, sélectionnez un rôle.
    6. Pour attribuer des rôles supplémentaires, cliquez sur  Ajouter un autre rôle et ajoutez tous les rôles supplémentaires.
    7. Cliquez sur Enregistrer.
  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that you have the following role or roles on the project: BigQuery Job User, Service Usage Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Accéder à IAM
    2. Sélectionnez le projet.
    3. Cliquez sur  Accorder l'accès.
    4. Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.

    5. Dans la liste Sélectionner un rôle, sélectionnez un rôle.
    6. Pour attribuer des rôles supplémentaires, cliquez sur  Ajouter un autre rôle et ajoutez tous les rôles supplémentaires.
    7. Cliquez sur Enregistrer.
  6. Verify that billing is enabled for your Google Cloud project.

  7. Si vous n'activez pas la facturation pour le projet Google Cloud que vous utilisez dans ce tutoriel, vous interrogerez les données publiques dans le bac à sable BigQuery. Le bac à sable BigQuery vous permet d'apprendre à utiliser BigQuery avec un ensemble limité de fonctionnalités offertes.

  8. Vérifiez que l'API BigQuery est activée.

    Activer l'API

    Si vous avez créé un nouveau projet, l'API BigQuery est automatiquement activée.

  9. Afficher un ensemble de données public

    Les ensembles de données publics BigQuery sont disponibles par défaut dans BigQuery Studio, dans un projet nommé bigquery-public-data. Dans ce tutoriel, vous allez interroger l'ensemble de données "Trajets Citi Bike effectués dans la ville de New York". Citi Bike est un grand programme de partage de vélos, avec 10 000 vélos et 600 stations à Manhattan, Brooklyn, dans le Queens et à Jersey City. Cet ensemble de données inclut les trajets Citi Bike depuis le lancement du service en septembre 2013.

    1. Dans la console Google Cloud , accédez à la page BigQuery.

      Accéder à BigQuery

    2. Dans BigQuery Studio, dans le volet Explorateur, cliquez sur  Ajouter des données.

    3. Dans la boîte de dialogue Ajouter des données, dans le volet Filtrer par, cliquez sur Icône d'ensemble de données public sur la page "Filtrer par" Ensembles de données publics.

    4. Sur la page Marketplace, dans le champ Rechercher dans Marketplace, saisissez NYC Citi Bike Trips pour affiner votre recherche.

    5. Dans les résultats de recherche, cliquez sur NYC Citi Bike Trips.

    6. Sur la page Informations détaillées sur le produit, cliquez sur Afficher l'ensemble de données. Vous pouvez afficher des informations sur l'ensemble de données dans l'onglet Détails.

    Interroger un ensemble de données public

    Dans les étapes suivantes, vous allez interroger la table citibike_trips pour déterminer les 100 stations Citi Bike les plus populaires dans l'ensemble de données public "NYC Citi Bike Trips". La requête récupère le nom et l'emplacement de la station, ainsi que le nombre de trajets ayant commencé à cette station.

    La requête utilise la fonction ST_GEOGPOINT pour créer un point à partir des paramètres de longitude et de latitude de chaque station, et renvoie ce point dans une colonne GEOGRAPHY. La colonne GEOGRAPHY permet de générer une carte de densité dans le lecteur de données géographiques intégré.

    1. Dans la console Google Cloud , ouvrez la page BigQuery.

      Accéder à BigQuery

    2. Cliquez sur Requête SQL.

    3. Dans l' éditeur de requête, saisissez la requête suivante :

      SELECT
        start_station_name,
        start_station_latitude,
        start_station_longitude,
        ST_GEOGPOINT(start_station_longitude, start_station_latitude) AS geo_location,
        COUNT(*) AS num_trips
      FROM
        `bigquery-public-data.new_york.citibike_trips`
      GROUP BY
        1,
        2,
        3
      ORDER BY
        num_trips DESC
      LIMIT
        100;
      

      Si la requête est valide, une coche apparaît avec la quantité de données traitées par la requête. Si la requête n'est pas valide, un point d'exclamation apparaît avec un message d'erreur.

      Outil de validation des requêtes

    4. Cliquez sur Exécuter. Les stations les plus populaires sont listées dans la section Résultats de la requête.

      Résultats de la requête dans la console Google Cloud

    5. Facultatif : Pour afficher la durée du job et la quantité de données traitées par le job de requête, cliquez sur l'onglet Informations sur le job dans la section Résultats de la requête.

    6. Passez à l'onglet Visualisation. Cet onglet génère une carte pour visualiser rapidement vos résultats.

    7. Dans le panneau Configuration de la visualisation :

      1. Vérifiez que Type de visualisation est défini sur Carte.
      2. Vérifiez que Colonne "Zone géographique" est définie sur geo_location.
      3. Pour Colonne de données, choisissez num_trips.
      4. Utilisez l'option Zoom avant pour afficher la carte de Manhattan.

      Carte de densité générée dans l'onglet "Visualisation"

    Effectuer un nettoyage

    Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , procédez comme suit :

    Supprimer le projet

    Si vous avez utilisé le bac à sable BigQuery pour interroger l'ensemble de données public, la facturation n'est pas activée pour votre projet. Vous n'avez donc pas besoin de le supprimer.

    Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

    Pour supprimer le projet :

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    Étapes suivantes