Esta página foi traduzida pela API Cloud Translation.

Criar recomendações com base em feedback explícito usando um modelo de fatoração de matrizes

Neste tutorial, você vai aprender a criar um modelo de fatoração de matrizes e treiná-lo com as classificações de filmes dos clientes no conjunto de dados movielens1m. Em seguida, use o modelo de fatoração de matrizes para gerar recomendações de filmes para os usuários.

O uso de classificações fornecidas pelo cliente para treinar o modelo é chamado de treinamento com feedback explícito. Os modelos de fatoração de matrizes são treinados usando o algoritmo de mínimos quadrados alternados quando você usa feedback explícito como dados de treinamento.

Objetivos

Este tutorial vai orientar você nas seguintes tarefas:

Criação de um modelo de fatoração de matrizes usando a instrução CREATE MODEL.
Avalie o modelo usando a função ML.EVALUATE.
Gerar recomendações de filmes para usuários usando o modelo com a função ML.RECOMMEND.

Custos

Neste tutorial, usamos componentes faturáveis do Google Cloud, incluindo:

BigQuery
BigQuery ML

Para mais informações sobre os custos do BigQuery, consulte a página de preços do BigQuery.

Para mais informações sobre os custos do BigQuery ML, consulte os preços do BigQuery ML.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

O BigQuery é ativado automaticamente em novos projetos. Para ativar o BigQuery em um projeto preexistente, acesse
Enable the BigQuery API.
Enable the API

Permissões exigidas

Para criar o conjunto de dados, é preciso ter a permissão de IAM bigquery.datasets.create.
Para criar o modelo, você precisa das seguintes permissões:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
Para executar a inferência, você precisa das seguintes permissões:
- bigquery.models.getData
- bigquery.jobs.create

Para mais informações sobre os papéis e as permissões do IAM no BigQuery, consulte Introdução ao IAM.

Criar um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar seu modelo de ML.

Console

No Console do Google Cloud, acesse a página BigQuery.

Acesse a página do BigQuery
No painel Explorer, clique no nome do seu projeto.
Clique em Conferir ações > Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
- Para o código do conjunto de dados, insira bqml_tutorial.
- Em Tipo de local, selecione Multirregião e EUA (várias regiões nos Estados Unidos).
Os conjuntos de dados públicos são armazenados na multirregião US. Para simplificar, armazene seus conjuntos de dados no mesmo local.
- Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

bq

Para criar um novo conjunto de dados, utilize o comando bq mk com a sinalização --location. Para obter uma lista completa de parâmetros, consulte a referência comando bq mk --dataset.

Crie um conjunto de dados chamado bqml_tutorial com o local de dados definido como US e uma descrição de BigQuery ML tutorial dataset:
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
Em vez de usar a flag --dataset, o comando usa o atalho -d. Se você omitir -d e --dataset, o comando vai criar um conjunto de dados por padrão.
Confirme se o conjunto de dados foi criado:
```
bq ls
```

API

Chame o método datasets.insert com um recurso de conjunto de dados definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Fazer upload dos dados do MovieLens

Faça upload dos dados movielens1m no BigQuery usando a ferramenta de linha de comando bq.

Siga estas etapas para fazer upload dos dados de movielens1m:

Abra o Cloud Shell:

Ativar o Cloud Shell

Faça upload dos dados de classificação na tabela ratings. Na linha de comando, cole a consulta a seguir e pressione Enter:

curl -O 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'
unzip ml-1m.zip
sed 's/::/,/g' ml-1m/ratings.dat > ratings.csv
bq load --source_format=CSV bqml_tutorial.ratings ratings.csv \
  user_id:INT64,item_id:INT64,rating:FLOAT64,timestamp:TIMESTAMP

Faça upload dos dados do filme na tabela movies. Na linha de comando, cole a consulta a seguir e pressione Enter:

sed 's/::/@/g' ml-1m/movies.dat > movie_titles.csv
bq load --source_format=CSV --field_delimiter=@ \
bqml_tutorial.movies movie_titles.csv \
movie_id:INT64,movie_title:STRING,genre:STRING

Criar o modelo

Crie um modelo de fatoração de matrizes e treine-o com os dados na tabela ratings. O modelo é treinado para prever uma classificação para cada par de usuário e item, com base nas classificações de filmes fornecidas pelo cliente.

A instrução CREATE MODEL a seguir usa essas colunas para gerar recomendações:

user_id: o ID do usuário.
item_id: o ID do filme.
rating: a classificação explícita de 1 a 5 que o usuário deu ao item.

Siga estas etapas para criar o modelo:

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery

No Editor de consultas, cole a consulta a seguir e clique em Executar:

CREATE OR REPLACE MODEL `bqml_tutorial.mf_explicit`
  OPTIONS (
    MODEL_TYPE = 'matrix_factorization',
    FEEDBACK_TYPE = 'explicit',
    USER_COL = 'user_id',
    ITEM_COL = 'item_id',
    L2_REG = 9.83,
    NUM_FACTORS = 34)
AS
SELECT
  user_id,
  item_id,
  rating
FROM `bqml_tutorial.ratings`;

A consulta leva cerca de 10 minutos para ser concluída. Depois disso, o modelo mf_explicit aparece no painel Explorer. Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não é possível ver os resultados da consulta.

Ver estatísticas de treinamento

Também é possível conferir as estatísticas de treinamento do modelo no console do Google Cloud.

Um algoritmo de aprendizado de máquina cria um modelo com muitas iterações usando parâmetros diferentes e, em seguida, seleciona a versão do modelo que minimiza a perda. Esse processo é chamado de minimização do risco empírico. As estatísticas de treinamento do modelo permitem que você veja a perda associada a cada iteração do modelo.

Siga estas etapas para conferir as estatísticas de treinamento do modelo:

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery
No painel Explorer, expanda o projeto, o conjunto de dados bqml_tutorial e a pasta Models.
Clique no modelo mf_explicit e na guia Treinamento.

Na seção Visualizar como, clique em Tabela. Os resultados devem ficar assim:

+-----------+--------------------+--------------------+
| Iteration | Training Data Loss | Duration (seconds) |
+-----------+--------------------+--------------------+
|  11       | 0.3943             | 42.59              |
+-----------+--------------------+--------------------+
|  10       | 0.3979             | 27.37              |
+-----------+--------------------+--------------------+
|   9       | 0.4038             | 40.79              |
+-----------+--------------------+--------------------+
|  ...      | ...                | ...                |
+-----------+--------------------+--------------------+

A coluna Perda de dados de treinamento representa a métrica de perda calculada depois que o modelo é treinado. Como este é um modelo de fatoração de matrizes, essa coluna mostra o erro quadrático médio.

Também é possível usar a função ML.TRAINING_INFO para conferir as estatísticas de treinamento do modelo.

Avaliar o modelo

Avalie o desempenho do modelo usando a função ML.EVALUATE. A função ML.EVALUATE avalia as classificações de filmes previstas retornadas pelo modelo em relação às classificações de filmes reais dos usuários nos dados de treinamento.

Siga estas etapas para avaliar o modelo:

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery

No Editor de consultas, cole a consulta a seguir e clique em Executar:

SELECT
  *
FROM
  ML.EVALUATE(
    MODEL `bqml_tutorial.mf_explicit`,
    (
      SELECT
        user_id,
        item_id,
        rating
      FROM
        `bqml_tutorial.ratings`
    ));

A resposta deve ficar assim:

+---------------------+---------------------+------------------------+-----------------------+--------------------+--------------------+
| mean_absolute_error | mean_squared_error  | mean_squared_log_error | median_absolute_error |      r2_score      | explained_variance |
+---------------------+---------------------+------------------------+-----------------------+--------------------+--------------------+
| 0.48494444327829156 | 0.39433706592870565 |   0.025437895793637522 |   0.39017059802629905 | 0.6840033369412044 | 0.6840033369412264 |
+---------------------+---------------------+------------------------+-----------------------+--------------------+--------------------+

Uma métrica importante nos resultados da avaliação é a pontuação R². A pontuação R² é uma medida estatística que determina se as previsões de regressão linear se aproximam dos dados reais. Um valor de 0 indica que o modelo não explica nenhuma variabilidade dos dados de resposta em torno da média. Um valor 1 indica que o modelo explica toda a variabilidade dos dados de resposta em torno da média.

Para mais informações sobre a saída da função ML.EVALUATE, consulte Modelos de fatoração de matrizes.

Também é possível chamar ML.EVALUATE sem fornecer os dados de entrada. Ela usará as métricas de avaliação calculadas durante o treinamento.

Receber as classificações previstas para um subconjunto de pares de usuário e item

Use o ML.RECOMMEND para receber a classificação prevista de cada filme para cinco usuários.

Siga estas etapas para receber as classificações previstas:

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery

No Editor de consultas, cole a consulta a seguir e clique em Executar:

SELECT
  *
FROM
  ML.RECOMMEND(
    MODEL `bqml_tutorial.mf_explicit`,
    (
      SELECT
        user_id
      FROM
        `bqml_tutorial.ratings`
      LIMIT 5
    ));

A resposta deve ficar assim:

+--------------------+---------+---------+
| predicted_rating   | user_id | item_id |
+--------------------+---------+---------+
| 4.2125303962491873 | 4       | 3169    |
+--------------------+---------+---------+
| 4.8068920531981263 | 4       | 3739    |
+--------------------+---------+---------+
| 3.8742203494732403 | 4       | 3574    |
+--------------------+---------+---------+
| ...                | ...     | ...     |
+--------------------+---------+---------+

Gerar recomendações

Use as classificações previstas para gerar os cinco principais filmes recomendados para cada usuário.

Siga estas etapas para gerar recomendações:

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery

Grave as classificações previstas em uma tabela. No Editor de consultas, cole a consulta a seguir e clique em Executar:

CREATE OR REPLACE TABLE `bqml_tutorial.recommend`
AS
SELECT
  *
FROM
  ML.RECOMMEND(MODEL `bqml_tutorial.mf_explicit`);

Junte as classificações previstas às informações do filme e selecione os cinco principais resultados por usuário. No Editor de consultas, cole a consulta a seguir e clique em Executar:

SELECT
  user_id,
  ARRAY_AGG(STRUCT(movie_title, genre, predicted_rating) ORDER BY predicted_rating DESC LIMIT 5)
FROM
  (
    SELECT
      user_id,
      item_id,
      predicted_rating,
      movie_title,
      genre
    FROM
      `bqml_tutorial.recommend`
    JOIN
      `bqml_tutorial.movies`
      ON
        item_id = movie_id
  )
GROUP BY
  user_id;

A resposta deve ficar assim:

+---------+-------------------------------------+------------------------+--------------------+
| user_id | f0_movie_title                      | f0_genre               | predicted_rating   |
+---------+-------------------------------------+------------------------+--------------------+
| 4597    | Song of Freedom (1936)              | Drama                  | 6.8495752907364009 |
|         | I Went Down (1997)                  | Action/Comedy/Crime    | 6.7203235758772877 |
|         | Men With Guns (1997)                | Action/Drama           | 6.399407352232001  |
|         | Kid, The (1921)                     | Action                 | 6.1952890198126731 |
|         | Hype! (1996)                        | Documentary            | 6.1895766097451475 |
+---------+-------------------------------------+------------------------+--------------------+
| 5349    | Fandango (1985)                     | Comedy                 | 9.944574012151549  |
|         | Breakfast of Champions (1999)       | Comedy                 | 9.55661860430112   |
|         | Funny Bones (1995)                  | Comedy                 | 9.52778917835076   |
|         | Paradise Road (1997)                | Drama/War              | 9.1643621767929133 |
|         | Surviving Picasso (1996)            | Drama                  | 8.807353289233772  |
+---------+-------------------------------------+------------------------+--------------------+
| ...     | ...                                 | ...                    | ...                |
+---------+-------------------------------------+------------------------+--------------------+

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

exclua o projeto que você criou; ou
Mantenha o projeto e exclua o conjunto de dados.

Excluir o conjunto de dados

A exclusão do seu projeto removerá todos os conjuntos de dados e tabelas no projeto. Caso prefira reutilizá-lo, exclua o conjunto de dados criado neste tutorial:

Se necessário, abra a página do BigQuery no console do Google Cloud.

Acesse a página do BigQuery
Na navegação, clique no conjunto de dados bqml_tutorial criado.
Clique em Excluir conjunto de dados no lado direito da janela. Essa ação exclui o conjunto, a tabela e todos os dados.
Na caixa de diálogo Excluir conjunto de dados, confirme o comando de exclusão digitando o nome do seu conjunto de dados (bqml_tutorial). Em seguida, clique em Excluir.

Excluir o projeto

Para excluir o projeto:

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir

Tente criar um modelo de fatoração de matrizes com base no feedback implícito.
Para uma visão geral sobre ML do BigQuery, consulte Introdução ao ML do BigQuery.
Para saber mais sobre machine learning, consulte o Curso intensivo de machine learning.