Usar R com BigQuery

Usar R com BigQuery

Nesta página, descrevemos como carregar dados do BigQuery em um trânsito usando o pacote bigrquery. Estas etapas foram escritas para uso em um notebook Jupyter em uma instância de notebooks gerenciados pelo usuário e do Vertex AI Workbench.

Esta página é um exemplo de uma maneira de usar R para interagir com os dados do BigQuery. Você pode usar outros métodos disponíveis no pacote bigrquery ou em outros pacotes, como bigQueryR.

Antes de começar

Antes de começar, crie uma instância de notebooks gerenciados pelo usuário do framework R.

Abrir um notebook JupyterLab

Para abrir uma instância de notebooks gerenciada pelo usuário, conclua estas etapas:

  1. No console do Google Cloud, acesse a página Notebooks gerenciados pelo usuário.

    Acesse Notebooks gerenciados pelo usuário

  2. Selecione a instância que você quer abrir.

  3. Clique em Open JupyterLab.

    Sua instância de notebooks gerenciados pelo usuário abre o JupyterLab.

  4. No JupyterLab, selecione Arquivo > Novo > Notebook e depois selecione o kernel R.

Carregar o pacote R bigrquery

Para carregar o pacote R bigrquery, conclua as seguintes etapas:

  1. Na primeira célula de código do arquivo do notebook, insira o código a seguir:

    # Load the package
    library(bigrquery)
    
  2. Clique em  Executar as células selecionadas e avançar.

    Botão "Executar as células selecionadas" e "Avançar".

    O R carrega o pacote.

Carregar dados do BigQuery

Para carregar dados do BigQuery em um tibble usando o pacote R bigrquery, conclua as etapas a seguir.

  1. Para adicionar uma célula de código, clique no botão Inserir uma célula abaixo do arquivo do notebook.

    Botão "Inserir uma célula".

  2. Na nova célula de código, faça o seguinte:

    # Store the project ID
    projectid = "PROJECT_ID"
    
    # Set your query
    sql <- "SELECT * FROM `bigquery-public-data.usa_names.usa_1910_current` LIMIT 10"
    
    # Run the query; this returns a bq_table object that you can query further
    tb <- bq_project_query(projectid, sql)
    
    # Store the first 10 rows of the data in a tibble
    sample <-bq_table_download(tb, n_max = 10)
    
    # Print the 10 rows of data
    sample
    

    Substitua PROJECT_ID pelo ID do projeto do Google Cloud.

  3. Execute a célula para ver de 10 linhas de dados de um dos conjuntos de dados públicos do BigQuery.

A seguir

Para saber mais sobre como usar os dados do BigQuery nos notebooks R, leia a documentação do bigrquery e este é o bigQueryR (em inglês).