É possível explorar os resultados da consulta do BigQuery usando os notebooks do Colab Enterprise no BigQuery.
Neste tutorial, você consulta dados de um conjunto de dados público do BigQuery e explora os resultados de consulta em um notebook.
Objetivos
- Criar e executar uma consulta no BigQuery
- Explorar resultados de consulta em um notebook.
Custos
Neste tutorial, usamos um conjunto de dados disponibilizado pelo programa de conjuntos de dados públicos do Google Cloud. O Google paga pelo armazenamento desses conjuntos de dados e oferece acesso público a eles. Você receberá cobranças pelas consultas realizadas nos dados. Para mais informações, acesse a página Preços do BigQuery.
Antes de começar
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
O BigQuery é ativado automaticamente para novos projetos.
Ativar o BigQuery Studio
Siga as instruções em Ativar o BigQuery Studio para gerenciamento de recursos para salvar, compartilhar e gerenciar versões de recursos de código, como notebooks.
Permissões necessárias
Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):
- Usuário do BigQuery (
roles/bigquery.user
) - Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser
) - Criador de código (
roles/dataform.codeCreator
)
Abrir resultados de consulta em um notebook
É possível executar uma consulta SQL e depois usar um notebook para explorar os dados. Essa abordagem é útil quando você quer modificar os dados no BigQuery antes de trabalhar com eles ou quando precisa apenas de um subconjunto dos campos na tabela.
No Console do Google Cloud, acesse a página BigQuery.
No campo Digite para pesquisar, insira
bigquery-public-data
.Se o projeto não aparecer, insira
bigquery
no campo de pesquisa e clique em Pesquisar para todos os projetos para associar a string de pesquisa aos conjuntos de projetos que já existem.Selecione bigquery-public-data > ml_datasets > pinguins.
Na tabela pinguins, clique em
Ver ações e, em seguida, clique em Consultar.Adicione um asterisco (
*
) para seleção de campo à consulta gerada, de modo que ela fique parecida com o exemplo a seguir:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Clique em
Executar.No painel Resultados de consulta, clique em Explorar dados e em Explorar com notebook Python.
Preparar o notebook para uso
Prepare o notebook para uso conectando-se a um ambiente de execução e definindo os valores padrão do aplicativo.
- No cabeçalho do notebook, clique em Conectar para se conectar ao ambiente de execução padrão.
- No bloco de código Setup, clique em Executar célula.
Explorar os dados
- Para carregar os dados dos pinguins em um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na seção Conjunto de resultados carregado do job do BigQuery como um DataFrame.
- Para ver métricas descritivas dos dados, clique em Executar célula no bloco de código na seção Mostrar estatísticas descritivas usando describe().
- Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.
O exemplo de código a seguir mostra o uso de
bigframes.pandas
para analisar dados e o bigframes.ml
para criar um modelo de regressão linear de pinguins em um
DataFrame do BigQuery:
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
A maneira mais fácil de eliminar o faturamento é excluir o projeto do Google Cloud que você criou para o tutorial.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
A seguir
- Saiba mais sobre como criar notebooks no BigQuery.
- Saiba como explorar dados com o BigQuery DataFrames.