Guia de início rápido sobre uso de modelos

Neste guia de início rápido, você aprenderá a criar um canal de streaming usando como exemplo um modelo do Dataflow fornecido pelo Google. Mais especificamente, o modelo do Pub/Sub para BigQuery é usado como exemplo.

O tópico do Pub/Sub para o modelo do BigQuery é um pipeline de streaming que lê mensagens formatadas em JSON de um tópico do Pub/Sub e as grava em uma tabela do BigQuery.

Para receber orientações sobre esta tarefa diretamente no Console, clique em Orientações:

Orientações

As seções a seguir guiam você pelas mesmas etapas que você encontra clicando em Orientações.

Antes de começar

Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.

No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

Acessar o seletor de projetos

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

Ative as APIs Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.

Ative as APIs

No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

Acessar o seletor de projetos

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

Ative as APIs Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.

Ative as APIs

Crie um bucket do Cloud Storage:

No console do Cloud, acesse a página Buckets do Cloud Storage.
Acessar a página "Buckets"
Clique em Criar bucket.
Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima etapa, clique em Continuar.
- Em Nomear o bucket, insira um nome exclusivo. Não inclua informações confidenciais no nome do bucket já que o namespace dele é global e visível para o público.
- Em Escolha um local para armazenar seus dados, faça o seguinte:
  - Selecione uma opção de Tipo de local.
  - Escolha uma opção de Local.
- Em Escolha uma classe de armazenamento padrão para seus dados, selecione o seguinte: Standard.
- Em Escolha como controlar o acesso a objetos, selecione uma opção de Controle de acesso.
- Em Configurações avançadas (opcional), especifique um método de criptografia, uma política de retenção ou rótulos de bucket.
Clique em Criar.

Copie o seguinte, conforme necessário em uma seção posterior:
- Seu nome do bucket do Cloud Storage.
- É o ID do seu projeto no Google Cloud.
  
  Para encontrar esse ID, consulte Como identificar projetos.

Observação: para concluir as etapas a seguir, talvez seja necessário atribuir o papel de worker do Dataflow à conta de serviço. O papel (roles/dataflow.worker) do Worker do Dataflow concede as permissões necessárias para que uma conta de serviço do Compute Engine execute unidades de trabalho para um pipeline do Dataflow.

Criar um conjunto de dados e uma tabela do BigQuery

Crie um conjunto de dados e uma tabela do BigQuery com o esquema apropriado para seu tópico Pub/Sub usando o console.

Neste exemplo, o nome do conjunto de dados é taxirides e o nome da tabela realtime é. Para criar o conjunto de dados e a tabela, siga estas etapas:

No console, acesse a página BigQuery.
Acesse o BigQuery
No painel Explorer, ao lado do projeto em que você quer criar o conjunto de dados, clique em Ver ações e clique em Criar conjunto de dados.
Observação: a experiência padrão é a versão de Visualização do console. Se você clicou em Ocultar recursos de prévia para acessar o console, faça o seguinte: na seção Recursos do painel de navegação, selecione o projeto.
No painel Criar conjunto de dados, siga estas etapas:

Para o código do conjunto de dados, insira taxirides.
Em Local dos dados, selecione Estados Unidos. Os conjuntos de dados públicos são armazenados no local multirregional US. Para simplificar, coloque seu conjunto de dados nele também.
Observação: os IDs do conjunto de dados são exclusivos de cada projeto do Google Cloud.
Mantenha as outras configurações padrão e clique em Criar conjunto de dados.

No painel Explorer, exapanda o projeto.
Ao lado do conjunto de dados taxirides, clique em Visualizar ações e clique em Abrir.
Observação: a experiência padrão é a versão de Visualização do console. Se você clicou em Ocultar recursos de visualização para acessar o console, faça o seguinte: na seção Recursos do painel de navegação, selecione o conjunto de dados taxirides que você criou.
No painel de detalhes, clique em Criar tabela.
No painel Criar tabela, siga estas etapas:

Na seção Origem, em Criar tabela de, selecione Tabela em branco.
Na seção Destino, insira realtime como o Nome da tabela.

Na seção Esquema, clique na opção Editar como texto e cole na caixa a definição de esquema seguinte:

ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer

Na seção Particionamento e configurações de cluster, em Particionamento, selecione o campo carimbo de data/hora.

Mantenha as outras configurações padrão e clique em Criar tabela.

executar o pipeline

Execute um pipeline de streaming usando o modelo de tópico do Pub/Sub para BigQuery fornecido pelo Google. O pipeline recebe dados de entrada a partir do tópico de entrada.

No console, acesse a página Jobs do Dataflow.
Acessar Jobs
Clique em Criar job usando um modelo.
Insira taxi-data como o Nome do job para o job do Dataflow.
Em Modelo do Dataflow, selecione o modelo tópico do Pub/Sub para BigQuery.

Em Tópico de entrada do Pub/Sub, digite:

projects/pubsub-public-data/topics/taxirides-realtime

Este tópico do Pub/Sub disponível publicamente é baseado no conjunto de dados aberto da Comissão de Táxis e Limusines de Nova York. Veja a seguir uma mensagem de amostra deste tópico, no formato JSON:

{
  "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e",
  "point_idx": 217,
  "latitude": 40.75399,
  "longitude": -73.96302,
  "timestamp": "2021-03-08T02:29:09.66644-05:00",
  "meter_reading": 6.293821,
  "meter_increment": 0.029003782,
  "ride_status": "enroute",
  "passenger_count": 1
}

Em Tabela de saída do BigQuery, digite o seguinte:
```
PROJECT_ID:taxirides.realtime
```
Substitua PROJECT_ID pelo ID do projeto em que você criou o conjunto de dados do BigQuery.
Em Local temporário, digite o seguinte:
```
gs://BUCKET_NAME/temp/
```
Substitua BUCKET_NAME pelo nome do bucket no Cloud Storage. A pasta temp armazena arquivos temporários, como o job do pipeline preparado.
Cliquem em Executar job.

Ver os resultados

Para visualizar os dados gravados na tabela realtime, siga estas etapas:

No console, acesse a página BigQuery.

Acessar o BigQuery
No Editor de consultas, cole o seguinte:
```
SELECT * FROM `PROJECT_ID.taxirides.realtime`
WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
LIMIT 1000
```
Substitua PROJECT_ID pelo ID do projeto em que você criou o conjunto de dados do BigQuery. Pode levar até um minuto para que os dados comecem a aparecer na tabela.
Clique em Executar.

A consulta retorna linhas que foram adicionadas à sua tabela nas últimas 24 horas. Também é possível executar consultas usando o SQL padrão.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Exclua o projeto

A maneira mais fácil de eliminar o faturamento é excluir o projeto do Google Cloud que você criou para o guia de início rápido.

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

No Console do Google Cloud, acesse a página Gerenciar recursos.
Acessar "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Excluir recursos individuais

Se você quiser manter o projeto do Google Cloud usado neste guia de início rápido, exclua os recursos individuais:

No console, acesse a página Jobs do Dataflow.
Acessar o Jobs
Selecione o job de streaming na lista de jobs.
Na navegação, clique em Parar.
Na caixa de diálogo Interromper job, cancele ou drene o pipeline e clique em Interromper job.
No console, acesse a página BigQuery.
Ir para o BigQuery
No painel Explorador, expanda o projeto.
Ao lado do conjunto de dados que você quer excluir, clique em Ver ações e, depois, em Abrir.
No painel de detalhes, clique em Excluir conjunto de dados e siga as instruções.

No Console do Google Cloud, acesse a página Buckets do Cloud Storage.
Acessar buckets
Clique na caixa de seleção do bucket que você quer excluir.
Para excluir o bucket, clique em Excluir e siga as instruções.

Guia de início rápido sobre uso de modelos

Antes de começar

Criar um conjunto de dados e uma tabela do BigQuery

executar o pipeline

Ver os resultados

Limpar

Exclua o projeto

Excluir recursos individuais

A seguir