Testar os BigQuery DataFrames
Use este guia de início rápido para realizar as seguintes tarefas de análise e machine learning (ML) usando a API DataFrames do BigQuery em um notebook do BigQuery:
- Crie um DataFrame no conjunto de dados público
bigquery-public-data.ml_datasets.penguins
. - Calcule a massa corporal média de um pinguim.
- Crie um modelo de regressão linear.
- Crie um DataFrame com um subconjunto de dados dos pinguins para usar como dados de treinamento.
- Limpe os dados de treinamento.
- Defina os parâmetros do modelo.
- Ajuste o modelo.
- Pontue o modelo.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
Verifique se a API BigQuery está ativada.
Se você criou um novo projeto, a API BigQuery será ativada automaticamente.
Permissões necessárias
Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):
- Usuário do BigQuery (
roles/bigquery.user
) - Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser
) - Criador de código (
roles/dataform.codeCreator
)
Criar um notebook
Siga as instruções em Criar um notebook a partir do editor do BigQuery para criar um novo notebook.
Teste os DataFrames do BigQuery
Teste os DataFrames do BigQuery seguindo estas etapas:
- Crie uma célula de código no notebook.
Copie e cole o código abaixo na célula de código:
import bigframes.pandas as bpd # Set BigQuery DataFrames options bpd.options.bigquery.project = your_gcp_project_id bpd.options.bigquery.location = "us" # Create a DataFrame from a BigQuery table query_or_table = "bigquery-public-data.ml_datasets.penguins" df = bpd.read_gbq(query_or_table) # Use the DataFrame just as you would a pandas DataFrame, but calculations # happen in the BigQuery query engine instead of the local system. average_body_mass = df["body_mass_g"].mean() print(f"average_body_mass: {average_body_mass}") # Create the Linear Regression model from bigframes.ml.linear_model import LinearRegression # Filter down to the data we want to analyze adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"] # Drop the columns we don't care about adelie_data = adelie_data.drop(columns=["species"]) # Drop rows with nulls to get our training data training_data = adelie_data.dropna() # Pick feature columns and label column X = training_data[ [ "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "sex", ] ] y = training_data[["body_mass_g"]] model = LinearRegression(fit_intercept=False) model.fit(X, y) model.score(X, y)
Modifique a linha
bpd.options.bigquery.project = your_gcp_project_id
para especificar o projeto, por exemplo,bpd.options.bigquery.project = "myproject"
.Execute a célula de código.
A célula de código retorna a massa corporal média dos pinguins no conjunto de dados e, em seguida, retorna as métricas de avaliação do modelo.
Limpar
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- No Console do Google Cloud, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
A seguir
Teste o notebook de Introdução ao DataFrames do BigQuery.