Esta página foi traduzida pela API Cloud Translation.

Como usar o BigQuery ML para prever o peso de pinguins

Neste tutorial, você usa um modelo de regressão linear no BigQuery ML para prever o peso de um pinguim com base nas informações demográficas dele. A regressão linear é um tipo de modelo de regressão que gera um valor contínuo a partir de uma combinação linear de recursos de entrada.

Neste tutorial, usamos o conjunto de dados bigquery-public-data.ml_datasets.penguins.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Permissões necessárias

Para criar o modelo usando o BigQuery ML, você precisa das seguintes permissões do IAM:

bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.models.updateMetadata

Para executar a inferência, você precisa das seguintes permissões:

bigquery.models.getData no modelo
bigquery.jobs.create

crie um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar seu modelo de ML.

Console

No console do Google Cloud , acesse a página BigQuery.

Acessar a página do BigQuery
No painel Explorer, clique no nome do seu projeto.
Clique em Ver ações > Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
- Para o código do conjunto de dados, insira bqml_tutorial.
- Em Tipo de local, selecione Multirregião e EUA (várias regiões nos Estados Unidos).
- Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

bq

Para criar um novo conjunto de dados, utilize o comando bq mk com a sinalização --location. Para obter uma lista completa de parâmetros, consulte a referência comando bq mk --dataset.

Crie um conjunto de dados chamado bqml_tutorial com o local dos dados definido como US e uma descrição de BigQuery ML tutorial dataset:
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
Em vez de usar a flag --dataset, o comando usa o atalho -d. Se você omitir -d e --dataset, o comando vai criar um conjunto de dados por padrão.
Confirme se o conjunto de dados foi criado:
```
bq ls
```

API

Chame o método datasets.insert com um recurso de conjunto de dados definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Antes de testar esta amostra, siga as instruções de configuração dos BigQuery DataFrames no Guia de início rápido do BigQuery: como usar os BigQuery DataFrames. Para mais informações, consulte a documentação de referência do BigQuery DataFrames.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Criar o modelo

Crie um modelo de regressão linear usando a amostra do conjunto de dados do Google Analytics no BigQuery.

SQL

Crie um modelo de regressão linear usando a CREATE MODELinstrução e especificando LINEAR_REG para o tipo de modelo. A criação do modelo inclui treiná-lo.

Confira abaixo informações úteis sobre a instrução CREATE MODEL:

A opção input_label_cols especifica qual coluna na instrução SELECT deve ser usada como a coluna de rótulo. Aqui, a coluna de rótulos é body_mass_g. Para modelos de regressão linear, é preciso que a coluna de rótulo tenha valor real. Ou seja, os valores da coluna precisam ser números reais.
A instrução SELECT dessa consulta usa as seguintes colunas na tabela bigquery-public-data.ml_datasets.penguins para prever o peso de um pinguim:
- species: a espécie do pinguim.
- island: a ilha que o pinguim habita.
- culmen_length_mm: o comprimento do cúlmen do pinguim em milímetros.
- culmen_depth_mm: a profundidade do cúlmen do pinguim em milímetros.
- flipper_length_mm: o comprimento das nadadeiras do pinguim em milímetros.
- sex: o sexo do pinguim.
A cláusula WHERE na instrução SELECT dessa consulta, WHERE body_mass_g IS NOT NULL, exclui as linhas em que a coluna body_mass_g é NULL.

Execute a consulta que cria seu modelo de regressão linear:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No Editor de consultas, execute esta consulta:

CREATE OR REPLACE MODEL `bqml_tutorial.penguins_model`
OPTIONS
  (model_type='linear_reg',
  input_label_cols=['body_mass_g']) AS
SELECT
  *
FROM
  `bigquery-public-data.ml_datasets.penguins`
WHERE
  body_mass_g IS NOT NULL;

A criação do modelo penguins_model leva cerca de 30 segundos.

Para ver o modelo, siga estas etapas:
1. No painel à esquerda, clique em Explorer:
  
  Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.
2. No painel Explorer, expanda o projeto e clique em Conjuntos de dados.
3. Clique no conjunto de dados bqml_tutorial.
4. Clique na guia Modelos.

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

from bigframes.ml.linear_model import LinearRegression
import bigframes.pandas as bpd

# Load data from BigQuery
bq_df = bpd.read_gbq("bigquery-public-data.ml_datasets.penguins")

# Drop rows with nulls to get training data
training_data = bq_df.dropna(subset=["body_mass_g"])

# Specify your feature (or input) columns and the label (or output) column:
feature_columns = training_data.drop(columns=["body_mass_g"])
label_columns = training_data[["body_mass_g"]]

# Create the linear model
model = LinearRegression()
model.fit(feature_columns, label_columns)
model.to_gbq(
    your_model_id,  # For example: "bqml_tutorial.penguins_model"
    replace=True,
)

A criação do modelo leva cerca de 30 segundos. Para ver o modelo, siga estas etapas:

No painel à esquerda, clique em Explorer:
No painel Explorer, expanda o projeto e clique em Conjuntos de dados.
Clique no conjunto de dados bqml_tutorial.
Clique na guia Modelos.

Ver estatísticas de treinamento

Para ver os resultados do treinamento de modelo, use a função ML.TRAINING_INFO ou consulte as estatísticas no console do Google Cloud . Neste tutorial, você usa o console Google Cloud .

Para criar um modelo, um algoritmo de machine learning examina vários exemplos e tenta encontrar um modelo que minimize a perda. Esse processo é chamado de "minimização de riscos empíricos".

Perda é a penalidade para uma previsão ruim. É um número que indica a qualidade da previsão do modelo em um único exemplo. Para uma previsão de modelo perfeita, a perda é zero. Caso contrário, a perda é maior. O treinamento de um modelo visa encontrar um conjunto de ponderações e tendências com uma média de perda menor em todos os exemplos.

Veja as estatísticas do treinamento de modelo que foram geradas ao executar a consulta CREATE MODEL:

No painel à esquerda, clique em Explorer:
No painel Explorer, expanda o projeto e clique em Conjuntos de dados.
Clique no conjunto de dados bqml_tutorial.
Clique na guia Modelos.
Para abrir o painel de informações do modelo, clique em penguins_model.
Clique na guia Treinamento e depois em Tabela. Os resultados devem ficar assim:

A coluna Perda de dados de treinamento representa métrica da perda, calculada depois de o modelo ser treinado no conjunto de dados de treinamento. Como você executou uma regressão linear, essa coluna mostra o valor do erro quadrático médio. Uma estratégia de otimização normal_equation é usada automaticamente neste treinamento. Portanto, apenas uma iteração precisa convergir para o modelo final. Para mais informações sobre como definir a estratégia de otimização do modelo, consulte optimize_strategy.

Avaliar o modelo

Depois de criar o modelo, avalie o desempenho dele usando a função ML.EVALUATE ou a função score do BigQuery DataFrames para comparar os valores previstos gerados pelo modelo com os dados reais.

SQL

Para entrada, a função ML.EVALUATE usa o modelo treinado e um conjunto de dados que corresponde ao esquema dos dados usados para treinar o modelo. Em um ambiente de produção, avalie o modelo com dados diferentes daqueles usados para treiná-lo. Quando você executa ML.EVALUATE sem fornecer dados de entrada, a função recupera as métricas de avaliação calculadas durante o treinamento. Essas métricas são calculadas usando o conjunto de dados de avaliação reservado automaticamente:

    SELECT
      *
    FROM
      ML.EVALUATE(MODEL bqml_tutorial.penguins_model);

Execute a consulta ML.EVALUATE:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No Editor de consultas, execute esta consulta:

  SELECT
    *
  FROM
    ML.EVALUATE(MODEL `bqml_tutorial.penguins_model`,
      (
      SELECT
        *
      FROM
        `bigquery-public-data.ml_datasets.penguins`
      WHERE
        body_mass_g IS NOT NULL));

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

import bigframes.pandas as bpd

# Select the model you will be evaluating. `read_gbq_model` loads model data from
# BigQuery, but you could also use the `model` object from the previous steps.
model = bpd.read_gbq_model(
    your_model_id,  # For example: "bqml_tutorial.penguins_model"
)

# Score the model with input data defined in an earlier step to compare
# model predictions on feature_columns to true labels in label_columns.
score = model.score(feature_columns, label_columns)
# Expected output results:
# index  mean_absolute_error  mean_squared_error  mean_squared_log_error  median_absolute_error  r2_score  explained_variance
#   0        227.012237         81838.159892            0.00507                173.080816        0.872377    0.872377
#   1 rows x 6 columns

A resposta deve ficar assim:

Saída de ML.EVALUATE

Como você executou uma regressão linear, os resultados incluem as seguintes colunas:

mean_absolute_error
mean_squared_error
mean_squared_log_error
median_absolute_error
r2_score
explained_variance

Uma métrica importante nos resultados da avaliação é a pontuação R². A pontuação R² é uma medida estatística que determina se as previsões de regressão linear se aproximam dos dados reais. Um valor 0 indica que o modelo não explica qualquer variabilidade dos dados de resposta em torno da média. Um valor 1 indica que o modelo explica toda a variabilidade dos dados de resposta em torno da média.

Também é possível consultar o painel de informações do modelo no Google Cloud console para conferir as métricas de avaliação:

Saída de ML.EVALUATE

Usar o modelo para prever resultados

Agora seu modelo foi avaliado, a próxima etapa é usá-lo para prever um resultado. Execute a função ML.PREDICT ou a função predict DataFrames do BigQuery no modelo para prever a massa corporal em gramas de todos os pinguins que habitam as Ilhas Biscoe.

SQL

Para entrada, a função ML.PREDICT usa o modelo treinado e um conjunto de dados que corresponde ao esquema dos dados que você usou para treinar o modelo, excluindo a coluna de rótulos.

Execute a consulta ML.PREDICT:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No Editor de consultas, execute esta consulta:

SELECT
*
FROM
ML.PREDICT(MODEL `bqml_tutorial.penguins_model`,
  (
  SELECT
    *
  FROM
    `bigquery-public-data.ml_datasets.penguins`
  WHERE island = 'Biscoe'));

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

# Select the model you'll use for predictions. `read_gbq_model` loads
# model data from BigQuery, but you could also use the `model` object
# object from previous steps.
model = bpd.read_gbq_model(
    your_model_id,
    # For example: "bqml_tutorial.penguins_model",
)

# Load data from BigQuery
bq_df = bpd.read_gbq("bigquery-public-data.ml_datasets.penguins")

# Use 'contains' function to filter by island containing the string
# "Biscoe".
biscoe_data = bq_df.loc[bq_df["island"].str.contains("Biscoe")]

result = model.predict(biscoe_data)

# Expected output results:
#     predicted_body_mass_g  	      species	                island	 culmen_length_mm  culmen_depth_mm   body_mass_g 	flipper_length_mm	sex
# 23	  4681.782896	   Gentoo penguin (Pygoscelis papua)	Biscoe	      <NA>	            <NA>	        <NA>	          <NA>	        <NA>
# 332	  4740.7907	       Gentoo penguin (Pygoscelis papua)	Biscoe	      46.2	            14.4	        214.0	          4650.0	    <NA>
# 160	  4731.310452	   Gentoo penguin (Pygoscelis papua)	Biscoe	      44.5	            14.3	        216.0	          4100.0	    <NA>

A resposta deve ficar assim:

Saída de ML.PREDICT

Explicar os resultados da previsão

SQL

Para entender por que o modelo está gerando esses resultados de previsão, use a função ML.EXPLAIN_PREDICT.

ML.EXPLAIN_PREDICT é uma versão estendida da função ML.PREDICT. ML.EXPLAIN_PREDICT não apenas gera resultados de previsão, mas também gera colunas extras para explicar os resultados da previsão. Na prática, é possível executar ML.EXPLAIN_PREDICT no lugar de ML.PREDICT. Para mais informações, consulte Visão geral da Explainable AI no BigQuery ML.

Execute a consulta ML.EXPLAIN_PREDICT:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No Editor de consultas, execute esta consulta:

SELECT
  *
FROM
  ML.EXPLAIN_PREDICT(MODEL `bqml_tutorial.penguins_model`,
    (
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE island = 'Biscoe'),
    STRUCT(3 as top_k_features));

A resposta deve ficar assim:

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

# Use 'predict_explain' function to understand why the model is generating these prediction results.
# 'predict_explain'is an extended version of the 'predict' function that not only outputs prediction results, but also outputs additional columns to explain the prediction results.
# Using the trained model and utilizing data specific to Biscoe Island, explain the predictions of the top 3 features
explained = model.predict_explain(biscoe_data, top_k_features=3)

# Expected results:
#   predicted_body_mass_g               top_feature_attributions	        baseline_prediction_value	prediction_value	approximation_error	              species	            island	culmen_length_mm	culmen_depth_mm	flipper_length_mm	body_mass_g	    sex
# 0	 5413.510134	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          5413.510134	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    45.2	              16.4	        223.0	           5950.0	    MALE
# 1	 4768.351092            [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          4768.351092	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    46.5	              14.5	        213.0	           4400.0	   FEMALE
# 2	 3235.896372	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          3235.896372	            0.0	        Adelie Penguin (Pygoscelis adeliae)	Biscoe	    37.7	              16.0          183.0	           3075.0	   FEMALE
# 3	 5349.603734	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          5349.603734	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    46.4	              15.6	        221.0	           5000.0	    MALE
# 4	 4637.165037	        [{'feature': 'island', 'attribution': 7348.877...	-5320.222128	          4637.165037	            0.0	         Gentoo penguin (Pygoscelis papua)	Biscoe	    46.1	              13.2	        211.0	           4500.0	   FEMALE

Para modelos de regressão linear, os valores de Shapley são usados para gerar valores de atribuição de recursos para cada recurso no modelo. A saída inclui as três principais atribuições de recursos por linha da tabela penguins porque top_k_features foi definido como 3. Essas atribuições são classificadas pelo valor absoluto da atribuição, em ordem decrescente. Em todos os exemplos, o recurso sex contribuiu mais com a previsão geral.

Explicar o modelo globalmente

SQL

Para saber quais recursos geralmente são os mais importantes para determinar o peso do pinguim, use a função ML.GLOBAL_EXPLAIN. Para usar ML.GLOBAL_EXPLAIN, treine novamente o modelo com a opção ENABLE_GLOBAL_EXPLAIN definida como TRUE.

Treine novamente e receba explicações globais para o modelo:

No console do Google Cloud , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, execute a seguinte consulta para treinar novamente o modelo:

#standardSQL
CREATE OR REPLACE MODEL `bqml_tutorial.penguins_model`
OPTIONS (
  model_type = 'linear_reg',
  input_label_cols = ['body_mass_g'],
  enable_global_explain = TRUE)
AS
SELECT
*
FROM
`bigquery-public-data.ml_datasets.penguins`
WHERE
body_mass_g IS NOT NULL;

No editor de consultas, execute a seguinte consulta para receber explicações globais:
```
SELECT
*
FROM
ML.GLOBAL_EXPLAIN(MODEL `bqml_tutorial.penguins_model`)
```
A resposta deve ficar assim:

BigQuery DataFrames

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

# To use the `global_explain()` function, the model must be recreated with `enable_global_explain` set to `True`.
model = LinearRegression(enable_global_explain=True)

# The model must the be fitted before it can be saved to BigQuery and then explained.
training_data = bq_df.dropna(subset=["body_mass_g"])
X = training_data.drop(columns=["body_mass_g"])
y = training_data[["body_mass_g"]]
model.fit(X, y)
model.to_gbq("bqml_tutorial.penguins_model", replace=True)

# Explain the model
explain_model = model.global_explain()

# Expected results:
#                       attribution
# feature
# island	            5737.315921
# species	            4073.280549
# sex	                622.070896
# flipper_length_mm	    193.612051
# culmen_depth_mm	    117.084944
# culmen_length_mm	    94.366793