Guia de início rápido sobre uso de modelos
Neste guia de início rápido, você aprenderá a criar um canal de streaming usando como exemplo um modelo do Dataflow fornecido pelo Google. Mais especificamente, o modelo do Pub/Sub para BigQuery é usado como exemplo.
O tópico do Pub/Sub para o modelo do BigQuery é um pipeline de streaming que lê mensagens formatadas em JSON de um tópico do Pub/Sub e as grava em uma tabela do BigQuery.
Para receber orientações sobre esta tarefa diretamente no Console, clique em Orientações:
As seções a seguir guiam você pelas mesmas etapas que você encontra clicando em Orientações.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.
- Crie um bucket do Cloud Storage:
- No console do Cloud, acesse a página Buckets do Cloud Storage.
- Clique em Criar bucket.
- Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima
etapa, clique em Continuar.
- Em Nomear o bucket, insira um nome exclusivo. Não inclua informações confidenciais no nome do bucket já que o namespace dele é global e visível para o público.
-
Em Escolha um local para armazenar seus dados, faça o seguinte:
- Selecione uma opção de Tipo de local.
- Escolha uma opção de Local.
- Em Escolha uma classe de armazenamento padrão para seus dados, selecione o seguinte: Standard.
- Em Escolha como controlar o acesso a objetos, selecione uma opção de Controle de acesso.
- Em Configurações avançadas (opcional), especifique um método de criptografia, uma política de retenção ou rótulos de bucket.
- Clique em Criar.
- Copie o seguinte, conforme necessário em uma seção posterior:
- Seu nome do bucket do Cloud Storage.
- É o ID do seu projeto no Google Cloud.
Para encontrar esse ID, consulte Como identificar projetos.
Criar um conjunto de dados e uma tabela do BigQuery
Crie um conjunto de dados e uma tabela do BigQuery com o esquema apropriado para seu tópico Pub/Sub usando o console.
Neste exemplo, o nome do conjunto de dados é taxirides
e o nome da
tabela realtime
é. Para criar o conjunto de dados e a tabela, siga estas etapas:
- No console, acesse a página BigQuery.
Acesse o BigQuery - No painel Explorer, ao lado do projeto em que você quer criar o conjunto de dados, clique em Ver ações e clique em Criar conjunto de dados.
- No painel Criar conjunto de dados, siga estas etapas:
- Para o código do conjunto de dados, insira
taxirides
. - Em Local dos dados, selecione Estados Unidos. Os conjuntos de dados públicos são armazenados no local multirregional
US
. Para simplificar, coloque seu conjunto de dados nele também. - Mantenha as outras configurações padrão e clique em Criar conjunto de dados.
- No
painel
Explorer , exapanda o projeto. - Ao lado do conjunto de dados
taxirides
, clique em Visualizar ações e clique em Abrir. - No painel de detalhes, clique em Criar tabela.
- No painel Criar tabela, siga estas etapas:
- Na seção Origem, em Criar tabela de, selecione Tabela em branco.
- Na seção Destino, insira
realtime
como o Nome da tabela. - Na seção Esquema, clique na opção Editar como texto e cole
na caixa a definição de esquema seguinte:
ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp, meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
- Na seção Particionamento e configurações de cluster, em Particionamento, selecione o campo carimbo de data/hora.
- Mantenha as outras configurações padrão e clique em Criar tabela.
executar o pipeline
Execute um pipeline de streaming usando o modelo de tópico do Pub/Sub para BigQuery fornecido pelo Google. O pipeline recebe dados de entrada a partir do tópico de entrada.
- No console, acesse a página Jobs do Dataflow.
Acessar Jobs - Clique em
Criar job usando um modelo . - Insira
taxi-data
como o Nome do job para o job do Dataflow. - Em Modelo do Dataflow, selecione o modelo tópico do Pub/Sub para BigQuery.
- Em Tópico de entrada do Pub/Sub, digite:
projects/pubsub-public-data/topics/taxirides-realtime
Este tópico do Pub/Sub disponível publicamente é baseado no conjunto de dados aberto da Comissão de Táxis e Limusines de Nova York. Veja a seguir uma mensagem de amostra deste tópico, no formato JSON:
{ "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e", "point_idx": 217, "latitude": 40.75399, "longitude": -73.96302, "timestamp": "2021-03-08T02:29:09.66644-05:00", "meter_reading": 6.293821, "meter_increment": 0.029003782, "ride_status": "enroute", "passenger_count": 1 }
- Em Tabela de saída do BigQuery, digite o seguinte:
PROJECT_ID:taxirides.realtime
Substitua
PROJECT_ID
pelo ID do projeto em que você criou o conjunto de dados do BigQuery. - Em Local temporário, digite o seguinte:
gs://BUCKET_NAME/temp/
Substitua
BUCKET_NAME
pelo nome do bucket no Cloud Storage. A pastatemp
armazena arquivos temporários, como o job do pipeline preparado. - Cliquem em Executar job.
Ver os resultados
Para visualizar os dados gravados na tabelarealtime
, siga estas etapas:
No console, acesse a página BigQuery.
No Editor de consultas, cole o seguinte:
SELECT * FROM `PROJECT_ID.taxirides.realtime` WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY) LIMIT 1000
Substitua
PROJECT_ID
pelo ID do projeto em que você criou o conjunto de dados do BigQuery. Pode levar até um minuto para que os dados comecem a aparecer na tabela.Clique em Executar.
A consulta retorna linhas que foram adicionadas à sua tabela nas últimas 24 horas. Também é possível executar consultas usando o SQL padrão.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Exclua o projeto
A maneira mais fácil de eliminar o faturamento é excluir o projeto do Google Cloud que você criou para o guia de início rápido.- No Console do Google Cloud, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Excluir recursos individuais
Se você quiser manter o projeto do Google Cloud usado neste guia de início rápido, exclua os recursos individuais:
- No console, acesse a página Jobs do Dataflow.
Acessar o Jobs - Selecione o job de streaming na lista de jobs.
- Na navegação, clique em Parar.
- Na caixa de diálogo Interromper job, cancele ou drene o pipeline e clique em Interromper job.
- No console, acesse a página BigQuery.
Ir para o BigQuery - No painel Explorador, expanda o projeto.
- Ao lado do conjunto de dados que você quer excluir, clique em Ver ações e, depois, em Abrir.
- No painel de detalhes, clique em Excluir conjunto de dados e siga as instruções.
- No Console do Google Cloud, acesse a página Buckets do Cloud Storage.
- Clique na caixa de seleção do bucket que você quer excluir.
- Para excluir o bucket, clique em Excluir e siga as instruções.