Testar os BigQuery DataFrames

Use este guia de início rápido para realizar as seguintes tarefas de análise e machine learning (ML) usando a API DataFrames do BigQuery em um notebook do BigQuery:

  • Crie um DataFrame no conjunto de dados público bigquery-public-data.ml_datasets.penguins.
  • Calcule a massa corporal média de um pinguim.
  • Crie um modelo de regressão linear.
  • Crie um DataFrame com um subconjunto de dados dos pinguins para usar como dados de treinamento.
  • Limpe os dados de treinamento.
  • Defina os parâmetros do modelo.
  • Ajuste o modelo.
  • Pontue o modelo.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  5. Verifique se a API BigQuery está ativada.

    Ativar a API

    Se você criou um novo projeto, a API BigQuery será ativada automaticamente.

Permissões necessárias

Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):

Criar um notebook

Siga as instruções em Criar um notebook a partir do editor do BigQuery para criar um novo notebook.

Teste os DataFrames do BigQuery

Teste os DataFrames do BigQuery seguindo estas etapas:

  1. Crie uma célula de código no notebook.
  2. Copie e cole o código abaixo na célula de código:

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    bpd.options.bigquery.project = your_gcp_project_id
    bpd.options.bigquery.location = "us"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  3. Modifique a linha bpd.options.bigquery.project = your_gcp_project_id para especificar o projeto, por exemplo, bpd.options.bigquery.project = "myproject".

  4. Execute a célula de código.

    A célula de código retorna a massa corporal média dos pinguins no conjunto de dados e, em seguida, retorna as métricas de avaliação do modelo.

Limpar

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir

Teste o notebook de Introdução ao DataFrames do BigQuery.