Testar os BigQuery DataFrames

Use este guia de início rápido para realizar as seguintes tarefas de análise e machine learning (ML) usando a API DataFrames do BigQuery em um notebook do BigQuery:

  • Crie um DataFrame no conjunto de dados público bigquery-public-data.ml_datasets.penguins.
  • Calcule a massa corporal média de um pinguim.
  • Crie um modelo de regressão linear.
  • Crie um DataFrame com um subconjunto de dados dos pinguins para usar como dados de treinamento.
  • Limpe os dados de treinamento.
  • Defina os parâmetros do modelo.
  • Ajuste o modelo.
  • Pontue o modelo.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  4. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  5. Verifique se a API BigQuery está ativada.

    Ativar a API

    Se você criou um novo projeto, a API BigQuery será ativada automaticamente.

Permissões necessárias

Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):

Criar um notebook

Siga as instruções em Criar um notebook a partir do editor do BigQuery para criar um novo notebook.

Teste os DataFrames do BigQuery

Teste os DataFrames do BigQuery seguindo estas etapas:

  1. Crie uma célula de código no notebook.
  2. Copie e cole o código abaixo na célula de código:

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    bpd.options.bigquery.project = your_gcp_project_id
    bpd.options.bigquery.location = "us"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  3. Modifique a linha bpd.options.bigquery.project = your_gcp_project_id para especificar o projeto, por exemplo, bpd.options.bigquery.project = "myproject".

  4. Execute a célula de código.

    A célula de código retorna a massa corporal média dos pinguins no conjunto de dados e, em seguida, retorna as métricas de avaliação do modelo.

Limpeza

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir

Teste o notebook de Introdução ao DataFrames do BigQuery.