Utiliser le langage R avec BigQuery

Utiliser le langage R avec BigQuery

Cette page décrit comment charger des données depuis BigQuery dans un tibble R à l'aide du package bigrquery. Ces étapes sont écrites pour être utilisées dans un notebook Jupyter au sein d'une instance de notebooks gérés par l'utilisateur dans Vertex AI Workbench.

Cette page est un exemple d'utilisation de R pour interagir avec les données BigQuery. Vous pouvez utiliser d'autres méthodes disponibles dans le package bigrquery ou dans d'autres packages, tels que bigQueryR.

Avant de commencer

Avant de commencer, créez une instance de notebooks gérés par l'utilisateur dans le framework R.

Ouvrir un notebook JupyterLab

Pour ouvrir une instance de notebooks gérés par l'utilisateur, procédez comme suit :

  1. Dans Google Cloud Console, accédez à la page Notebooks gérés par l'utilisateur.

    Accéder à la page Notebooks gérés par l'utilisateur

  2. Sélectionnez l'instance que vous souhaitez ouvrir.

  3. Cliquez sur Ouvrir JupyterLab.

    Votre instance de notebook gérée par l'utilisateur ouvre JupyterLab.

  4. Dans JupyterLab, sélectionnez Fichier > Nouveau > Notebook, puis sélectionnez le noyau R.

Charger le package R bigrquery

Pour charger le package R bigrquery, procédez comme suit :

  1. Dans la première cellule de code du fichier notebook, saisissez le code suivant :

    # Load the package
    library(bigrquery)
    
  2. Cliquez sur  Run the selected cells and advance (Exécuter les cellules sélectionnées et progresser).

    Bouton "Exécuter les cellules sélectionnées et progresser".

    R charge le package.

Charger des données à partir de BigQuery

Pour charger des données BigQuery dans un tibble à l'aide du package R bigrquery, procédez comme suit .

  1. Pour ajouter une cellule de code, cliquez sur le bouton  Insérer une cellule dessous du fichier notebook.

    Bouton "Insérer une cellule dessous".

  2. Dans la nouvelle cellule de code, saisissez le code suivant.

    # Store the project ID
    projectid = "PROJECT_ID"
    
    # Set your query
    sql <- "SELECT * FROM `bigquery-public-data.usa_names.usa_1910_current` LIMIT 10"
    
    # Run the query; this returns a bq_table object that you can query further
    tb <- bq_project_query(projectid, sql)
    
    # Store the first 10 rows of the data in a tibble
    sample <-bq_table_download(tb, n_max = 10)
    
    # Print the 10 rows of data
    sample
    

    Remplacez PROJECT_ID par l'ID de votre projet Google Cloud.

  3. Exécutez la cellule pour afficher 10 lignes de données à partir de l'un des ensembles de données publics de BigQuery.

Étape suivante

Pour plus d'informations sur l'utilisation des données BigQuery dans les notebooks R, consultez la documentation sur bigrquery et Bienvenue dans bigQueryR.