Explore os resultados das consultas em blocos de notas

Pode explorar os resultados das consultas do BigQuery através dos blocos de notas do Colab Enterprise no BigQuery.

Neste tutorial, consulta dados de um conjunto de dados públicos do BigQuery e explora os resultados da consulta num bloco de notas.

Objetivos

  • Crie e execute uma consulta no BigQuery.
  • Explore os resultados de consultas num bloco de notas.

Custos

Este tutorial usa um conjunto de dados disponível através do Google Cloud Programa de conjuntos de dados públicos. A Google paga o armazenamento destes conjuntos de dados e disponibiliza acesso público aos dados. Incorre em custos pelas consultas que efetua nos dados. Para mais informações, consulte os preços do BigQuery.

Antes de começar

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

    Para novos projetos, o BigQuery é ativado automaticamente.

Defina a região predefinida para recursos de código

Se estiver a criar um recurso de código pela primeira vez, deve definir a região predefinida para recursos de código. Não é possível alterar a região de um recurso de código depois de o criar.

Todos os recursos de código no BigQuery Studio usam a mesma região predefinida. Para definir a região predefinida para recursos de código, siga estes passos:

  1. Aceda à página do BigQuery.

    Aceda ao BigQuery

  2. No painel Explorador, encontre o projeto no qual ativou os recursos de código.

  3. Clique em Ver ações junto ao projeto e, de seguida, clique em Alterar a minha região de código predefinida.

  4. Para Região, selecione a região que quer usar para recursos de códigos.

  5. Clique em Selecionar.

Para ver uma lista das regiões suportadas, consulte o artigo Localizações do BigQuery Studio.

Autorizações necessárias

Para criar e executar blocos de notas, precisa das seguintes funções de gestão de identidade e de acesso (IAM):

Abra os resultados da consulta num bloco de notas

Pode executar uma consulta SQL e, em seguida, usar um bloco de notas para explorar os dados. Esta abordagem é útil se quiser modificar os dados no BigQuery antes de trabalhar com eles ou se precisar apenas de um subconjunto dos campos na tabela.

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceda ao BigQuery

  2. No campo Escreva para pesquisar, introduza bigquery-public-data.

    Se o projeto não for apresentado, introduza bigquery no campo de pesquisa e, de seguida, clique em Pesquisar em todos os projetos para fazer corresponder a string de pesquisa aos projetos existentes.

  3. Selecione bigquery-public-data > ml_datasets > penguins.

  4. Para a tabela penguins, clique em Ver ações e, de seguida, em Consultar.

  5. Adicione um asterisco (*) para a seleção de campos à consulta gerada, de modo que seja lida como no exemplo seguinte:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
  6. Clique em Executar.

  7. Na secção Resultados da consulta, clique em Explorar dados e, de seguida, clique em Explorar com o bloco de notas do Python.

Prepare o notebook para utilização

Prepare o bloco de notas para utilização associando-o a um tempo de execução e definindo os valores predefinidos da aplicação.

  1. No cabeçalho do bloco de notas, clique em Associar para associar ao tempo de execução predefinido.
  2. No bloco de código Setup, clique em Executar célula.

Explore os dados

  1. Para carregar os dados de pinguins para um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na secção Conjunto de resultados carregado da tarefa do BigQuery como um DataFrame.
  2. Para obter métricas descritivas para os dados, clique em Executar célula no bloco de código na secção Mostrar estatísticas descritivas com describe().
  3. Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.

O exemplo de código seguinte mostra a utilização de bigframes.pandas para analisar dados e bigframes.ml para criar um modelo de regressão linear a partir de dados de pinguins num DataFrame do BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Limpar

Para evitar incorrer em custos na sua conta do Google Cloud pelos recursos usados neste tutorial, elimine o projeto que contém os recursos ou mantenha o projeto e elimine os recursos individuais.

A forma mais fácil de eliminar a faturação é eliminar o Google Cloud projeto que criou para este tutorial.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

O que se segue?