Pode explorar os resultados das consultas do BigQuery através dos blocos de notas do Colab Enterprise no BigQuery.
Neste tutorial, consulta dados de um conjunto de dados públicos do BigQuery e explora os resultados da consulta num bloco de notas.
Objetivos
- Crie e execute uma consulta no BigQuery.
- Explore os resultados de consultas num bloco de notas.
Custos
Este tutorial usa um conjunto de dados disponível através do Google Cloud Programa de conjuntos de dados públicos. A Google paga o armazenamento destes conjuntos de dados e disponibiliza acesso público aos dados. Incorre em custos pelas consultas que efetua nos dados. Para mais informações, consulte os preços do BigQuery.
Antes de começar
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles.Para novos projetos, o BigQuery é ativado automaticamente.
Defina a região predefinida para recursos de código
Se estiver a criar um recurso de código pela primeira vez, deve definir a região predefinida para recursos de código. Não é possível alterar a região de um recurso de código depois de o criar.
Todos os recursos de código no BigQuery Studio usam a mesma região predefinida. Para definir a região predefinida para recursos de código, siga estes passos:
Aceda à página do BigQuery.
No painel Explorador, encontre o projeto no qual ativou os recursos de código.
Clique em
Ver ações junto ao projeto e, de seguida, clique em Alterar a minha região de código predefinida.Para Região, selecione a região que quer usar para recursos de códigos.
Clique em Selecionar.
Para ver uma lista das regiões suportadas, consulte o artigo Localizações do BigQuery Studio.
Autorizações necessárias
Para criar e executar blocos de notas, precisa das seguintes funções de gestão de identidade e de acesso (IAM):
- Utilizador do BigQuery (
roles/bigquery.user
) - Notebook Runtime User (
roles/aiplatform.notebookRuntimeUser
) - Code Creator (
roles/dataform.codeCreator
)
Abra os resultados da consulta num bloco de notas
Pode executar uma consulta SQL e, em seguida, usar um bloco de notas para explorar os dados. Esta abordagem é útil se quiser modificar os dados no BigQuery antes de trabalhar com eles ou se precisar apenas de um subconjunto dos campos na tabela.
Na Google Cloud consola, aceda à página BigQuery.
No campo Escreva para pesquisar, introduza
bigquery-public-data
.Se o projeto não for apresentado, introduza
bigquery
no campo de pesquisa e, de seguida, clique em Pesquisar em todos os projetos para fazer corresponder a string de pesquisa aos projetos existentes.Selecione bigquery-public-data > ml_datasets > penguins.
Para a tabela penguins, clique em
Ver ações e, de seguida, em Consultar.Adicione um asterisco (
*
) para a seleção de campos à consulta gerada, de modo que seja lida como no exemplo seguinte:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Clique em
Executar.Na secção Resultados da consulta, clique em Explorar dados e, de seguida, clique em Explorar com o bloco de notas do Python.
Prepare o notebook para utilização
Prepare o bloco de notas para utilização associando-o a um tempo de execução e definindo os valores predefinidos da aplicação.
- No cabeçalho do bloco de notas, clique em Associar para associar ao tempo de execução predefinido.
- No bloco de código Setup, clique em Executar célula.
Explore os dados
- Para carregar os dados de pinguins para um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na secção Conjunto de resultados carregado da tarefa do BigQuery como um DataFrame.
- Para obter métricas descritivas para os dados, clique em Executar célula no bloco de código na secção Mostrar estatísticas descritivas com describe().
- Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.
O exemplo de código seguinte mostra a utilização de
bigframes.pandas
para analisar dados e bigframes.ml
para criar um modelo de regressão linear a partir de dados de pinguins num
DataFrame do BigQuery:
Limpar
Para evitar incorrer em custos na sua conta do Google Cloud pelos recursos usados neste tutorial, elimine o projeto que contém os recursos ou mantenha o projeto e elimine os recursos individuais.
A forma mais fácil de eliminar a faturação é eliminar o Google Cloud projeto que criou para este tutorial.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
O que se segue?
- Saiba mais sobre como criar blocos de notas no BigQuery.
- Saiba mais sobre a exploração de dados com os DataFrames do BigQuery.