É possível explorar os resultados da consulta do BigQuery usando os notebooks do Colab Enterprise no BigQuery.
Neste tutorial, você consulta dados de um conjunto de dados público do BigQuery e explora os resultados de consulta em um notebook.
Objetivos
- Criar e executar uma consulta no BigQuery
- Explorar resultados de consulta em um notebook.
Custos
Neste tutorial, usamos um conjunto de dados disponível pelo Google Cloud programa de conjuntos de dados públicos. O Google paga pelo armazenamento desses conjuntos de dados e oferece acesso público a eles. Você receberá cobranças pelas consultas realizadas nos dados. Para mais informações, consulte Preços do BigQuery.
Antes de começar
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles.O BigQuery é ativado automaticamente para novos projetos.
Definir a região padrão para recursos de código
Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para recursos de código. Não é possível mudar a região de um recurso de código depois que ele é criado.
Todos os recursos de código no BigQuery Studio usam a mesma região padrão. Para definir a região padrão dos recursos de código, siga estas etapas:
Acessar a página do BigQuery.
No painel Explorer, encontre o projeto em que você ativou os recursos de código.
Clique em
Ver ações ao lado do projeto e, em seguida, clique em Mudar minha região de código padrão.Em Região, selecione a região que você quer usar para recursos de código.
Clique em Selecionar.
Para conferir uma lista de regiões compatíveis, consulte Locais do BigQuery Studio.
Permissões necessárias
Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):
- Usuário do BigQuery (
roles/bigquery.user
) - Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser
) - Criador de código (
roles/dataform.codeCreator
)
Abrir resultados de consulta em um notebook
É possível executar uma consulta SQL e depois usar um notebook para explorar os dados. Essa abordagem é útil quando você quer modificar os dados no BigQuery antes de trabalhar com eles ou quando precisa apenas de um subconjunto dos campos na tabela.
No console do Google Cloud , acesse a página BigQuery.
No campo Digite para pesquisar, insira
bigquery-public-data
.Se o projeto não aparecer, insira
bigquery
no campo de pesquisa e clique em Pesquisar para todos os projetos para associar a string de pesquisa aos conjuntos de projetos que já existem.Selecione bigquery-public-data > ml_datasets > pinguins.
Na tabela pinguins, clique em
Ver ações e, em seguida, clique em Consultar.Adicione um asterisco (
*
) para seleção de campo à consulta gerada, de modo que ela fique parecida com o exemplo a seguir:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Clique em
Executar.No painel Resultados de consulta, clique em Explorar dados e em Explorar com notebook Python.
Preparar o notebook para uso
Prepare o notebook para uso conectando-se a um ambiente de execução e definindo os valores padrão do aplicativo.
- No cabeçalho do notebook, clique em Conectar para se conectar ao ambiente de execução padrão.
- No bloco de código Setup, clique em Executar célula.
Explorar os dados
- Para carregar os dados dos pinguins em um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na seção Conjunto de resultados carregado do job do BigQuery como um DataFrame.
- Para ver métricas descritivas dos dados, clique em Executar célula no bloco de código na seção Mostrar estatísticas descritivas usando describe().
- Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.
O exemplo de código a seguir mostra o uso de
bigframes.pandas
para analisar dados e o bigframes.ml
para criar um modelo de regressão linear de pinguins em um
DataFrame do BigQuery:
Limpeza
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
A maneira mais fácil de evitar o faturamento é excluir o projeto Google Cloud que você criou para este tutorial.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
A seguir
- Saiba mais sobre como criar notebooks no BigQuery.
- Saiba como explorar dados com o BigQuery DataFrames.