Esta página foi traduzida pela API Cloud Translation.

Implementar o Datastream e o Dataflow para análise de dados

Datastream

O Datastream oferece suporte a streaming de dados de bancos de dados Oracle, MySQL e PostgreSQL diretamente para conjuntos de dados do BigQuery. No entanto, se você precisar de mais controle sobre a lógica de processamento de fluxo, como transformação de dados ou configuração manual de chaves primárias lógicas, é possível integrar o Datastream aos modelos de jobs do Dataflow.

Neste tutorial, mostramos como o Datastream se integra ao Dataflow usando modelos de jobs do Dataflow para transmitir visualizações materializadas atualizadas no BigQuery para análise.

Para organizações com muitas fontes de dados isoladas, o acesso a dados corporativos em toda a organização, especialmente em tempo real, pode ser limitado e lento. Isso restringe a capacidade da organização de fazer introspecção.

O Datastream oferece acesso quase em tempo real para alterar dados de várias fontes de dados locais e baseadas em nuvem. O Datastream oferece uma experiência de configuração em que você não precisa fazer muita configuração para dados de streaming. O Datastream também tem uma API de consumo unificada, que democratiza o acesso da organização aos dados empresariais mais recentes disponíveis para criar cenários integrados.

Por exemplo, transferir dados de um banco de dados de origem para uma fila de mensagens ou um serviço de armazenamento baseado em nuvem. Depois que o Datastream transmite os dados, eles são transformados em um formato que outros aplicativos e serviços podem ler. Neste tutorial, o Dataflow é o serviço da Web que se comunica com o serviço de armazenamento ou a fila de mensagens para capturar e processar dados em Google Cloud.

Você vai aprender a usar o Datastream para fazer streaming de alterações (dados inseridos, atualizados ou excluídos) de um banco de dados MySQL de origem em uma pasta em um bucket do Cloud Storage. Em seguida, configure o bucket do Cloud Storage para enviar notificações que o Dataflow usa para saber sobre novos arquivos que contenham as alterações de dados que o Datastream transmite do banco de dados de origem. Um job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

diagrama do fluxo de usuários da integração

Objetivos

Neste tutorial, você aprenderá a:

Criar um bucket no Cloud Storage. É o bucket de destino para onde o Datastream transmite esquemas, tabelas e dados de um banco de dados MySQL de origem.
Ative as notificações do Pub/Sub para o bucket do Cloud Storage. Ao fazer isso, você configura o bucket para enviar notificações que o Dataflow usa para saber sobre novos arquivos prontos para processamento. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.
Crie conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados de origem que o Datastream transmite para o bucket do Cloud Storage.
Crie e gerencie perfis de conexão para um banco de dados de origem e um bucket de destino no Cloud Storage. Um fluxo no Datastream usa as informações dos perfis de conexão para transferir dados do banco de dados de origem para o bucket.
Criar e iniciar um stream. Esse stream transfere dados, esquemas e tabelas do banco de dados de origem para o bucket.
Verifique se o Datastream transfere os dados e as tabelas associados a um esquema do banco de dados de origem para o bucket.
Crie um job no Dataflow. Depois que o Datastream transmite as alterações de dados do banco de dados de origem para o bucket do Cloud Storage, notificações são enviadas ao Dataflow sobre novos arquivos com as mudanças. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.
Verifique se o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e transfere as alterações para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.
Limpe os recursos que você criou no Datastream, no Cloud Storage, no Pub/Sub, no Dataflow e no BigQuery para que eles não ocupem a cota e você não seja cobrado por eles no futuro.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Datastream
Cloud Storage
Pub/Sub
Dataflow
BigQuery

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Ative a API Datastream.
Ativar a API
Verifique se você tem o papel de administrador do Datastream concedido à sua conta de usuário.
Acessar a página IAM
Verifique se você tem um banco de dados MySQL de origem que o Datastream possa acessar. Além disso, verifique se há dados, tabelas e esquemas no banco de dados.
Configure o banco de dados MySQL para permitir conexões de entrada de endereços IP públicos do Datastream. Para conferir uma lista de todas as regiões do Datastream e os endereços IP públicos associados, consulte Regiões e listas de permissões de IP.
Configure a captura de dados de alteração (CDC, na sigla em inglês) do banco de dados de origem. Para mais informações, consulte Configurar um banco de dados MySQL de origem.
Verifique se você atende a todos os pré-requisitos para ativar as notificações do Pub/Sub para Cloud Storage.

Neste tutorial, você vai criar um bucket de destino no Cloud Storage e ativar as notificações do Pub/Sub para ele. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no bucket. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.

Requisitos

O Datastream oferece várias opções de origem, opções de destino e métodos de conectividade de rede.

Neste tutorial, presumimos que você esteja usando um banco de dados MySQL independente e um serviço de destino do Cloud Storage. Para o banco de dados de origem, configure a rede para adicionar uma regra de firewall de entrada. O banco de dados de origem pode ser local ou em um provedor de nuvem. Para o destino do Cloud Storage, não é necessária nenhuma configuração de conectividade.

Como não sabemos as especificidades do seu ambiente, não podemos fornecer etapas detalhadas sobre a configuração de rede.

Neste tutorial, selecione Lista de permissões de IP como o método de conectividade de rede. As listas de permissões de IP são um recurso de segurança usado com frequência para limitar e controlar o acesso de usuários confiáveis ao seu banco de dados de origem. É possível usar listas de permissões de IP para criar listas de endereços IP ou intervalos de IP confiáveis. Esses usuários e outros Google Cloud serviços, como o Datastream, podem acessar esses dados. Para usar as listas de permissões de IP, você precisa abrir o banco de dados ou o firewall de origem para conexões de entrada do Datastream.

Criar um bucket no Cloud Storage

Crie um bucket de destino no Cloud Storage para que o Datastream transmita esquemas, tabelas e dados de um banco de dados MySQL de origem.

No Google Cloud console, acesse a página Navegador do Cloud Storage.

Acessar a página "Navegador"
Clique em Criar bucket. A página Criar um bucket é exibida.
No campo de texto da região Nomear seu bucket, digite um nome exclusivo para o bucket e clique em Continuar.
Aceite as configurações padrão para cada região restante da página. No final de cada região, clique em Continuar.
Clique em Criar.

Ativar as notificações do Pub/Sub para o bucket do Cloud Storage

Nesta seção, você ativa as notificações do Pub/Sub para o bucket do Cloud Storage criado. Ao fazer isso, você configura o bucket para notificar o Dataflow sobre novos arquivos gravados. Esses arquivos contêm alterações nos dados que o Datastream transmite de um banco de dados MySQL de origem para o bucket.

Acesse o bucket do Cloud Storage criado. A página Detalhes do bucket é exibida.
Clique em Ativar o Cloud Shell.
No prompt, insira o seguinte comando:

gcloud storage buckets notifications create gs://bucket-name --topic=my_integration_notifs --payload-format=json --object-prefix=integration/tutorial/

bucket-name é um marcador de posição para o nome do bucket do Cloud Storage.

Ao inserir esse comando, você cria o tópico my_integration_notifs no Pub/Sub. Você também está configurando as notificações do Pub/Sub para ouvir apenas o caminho de saída do Datastream definido na etapa Criar um perfil de conexão de destino para o Cloud Storage. Mais adiante neste procedimento, você vai configurar esse tópico no Pub/Sub para enviar notificações ao Dataflow sobre as mudanças nos dados que o Datastream transmite para seu bucket do Cloud Storage.

O tópico do Pub/Sub captura todas as alterações feitas nesses dados. Todos os assinantes deste tópico (como o Dataflow) recebem essas informações.
Opcional: se a janela Autorizar o Cloud Shell aparecer, clique em Autorizar.

Verifique se as seguintes linhas de código são exibidas:

Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
Created notification config projects/_/buckets/bucket-name/notificationConfigs/1

No Google Cloud console, acesse a página Tópicos do Pub/Sub.

Acessar a página "Tópicos"
Clique no tópico my_integration_notifs que você criou.
Na página my_integration_notifs, role até a parte inferior da página. Verifique se a guia Assinaturas está ativa e se a mensagem Nenhuma assinatura a ser exibida aparece.

Você criará uma assinatura para o tópico my_integration_notifs. Os aplicativos inscritos nessa assinatura, como o Dataflow, podem receber as informações do tópico. Essas informações são associadas a alterações nos dados do banco de dados de origem que o Datastream transmite para o bucket do Cloud Storage.
Clique em Criar assinatura.
No menu exibido, selecione Criar assinatura.
Na página Adicionar assinatura ao tópico:
1. No campo ID da assinatura, insira my_integration_notifs_sub.
2. Defina o valor do Prazo de confirmação como 120 segundos. Isso permite que o Dataflow tenha tempo suficiente para reconhecer os arquivos processados e ajuda a melhorar o desempenho geral do job do Dataflow. Para mais informações sobre as propriedades de assinatura do Pub/Sub, consulte Propriedades de assinatura.
3. Deixe todos os outros valores padrão na página.
4. Clique em Criar.

Mais adiante neste tutorial, você cria um job do Dataflow. Como parte da criação deste job, você atribui o Dataflow para ser um assinante da assinatura my_integration_notifs_sub. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no Cloud Storage, processar os arquivos e transferir as alterações de dados para o BigQuery.

Criar conjuntos de dados no BigQuery

Nesta seção, você criará conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados MySQL de origem que o Datastream transmite para seu bucket do Cloud Storage.

Acesse a página Espaço de trabalho SQL do BigQuery no Google Cloud console.

Acessar a página do espaço de trabalho SQL
No painel Explorer, ao lado do nome do Google Cloud projeto, clique em Ver ações.
No menu que aparece, selecione Criar conjunto de dados.
Na janela Criar conjunto de dados:
1. No campo ID do conjunto de dados, insira um ID para o conjunto de dados. Neste tutorial, insira My_integration_dataset_log no campo.
2. Deixe todos os outros valores padrão na janela.
3. Clique em Criar conjunto de dados.
O Dataflow usa o conjunto de dados My_integration_dataset_log para organizar as mudanças recebidas no Datastream.
No painel Explorer, ao lado do nome do Google Cloud projeto, clique em Expandir nó e verifique se você encontra o conjunto de dados que criou.
Use as etapas neste procedimento para criar um segundo conjunto de dados: My_integration_dataset_final.

As mudanças organizadas no conjunto de dados My_integration_dataset_log são mescladas no conjunto de dados My_integration_dataset_final para criar uma réplica de uma para uma das tabelas no banco de dados de origem.
Ao lado de cada conjunto de dados, abra Expandir nó.
Verifique se cada conjunto de dados está vazio.

Depois que o Datastream transmite as alterações de dados do banco de dados de origem para o bucket do Cloud Storage, um job do Dataflow processa os arquivos que contêm as mudanças e as transfere para os conjuntos de dados do BigQuery.

Criar perfis de conexão no Datastream

Nesta seção, você cria perfis de conexão no Datastream para um banco de dados de origem e um destino. Como parte da criação dos perfis de conexão, você seleciona MySQL como o tipo de perfil de origem e Cloud Storage como o tipo de perfil de destino.

O Datastream usa as informações definidas nos perfis de conexão para se conectar à origem e ao destino, a fim de fazer streaming de dados do banco de dados de origem para o bucket de destino do Cloud Storage.

Criar um perfil de conexão de origem para o banco de dados MySQL

No Google Cloud console, acesse a página Perfis de conexão do Datastream.

Acessar a página "Perfis de conexão"
Clique em Create profile.
Para criar um perfil de conexão de origem para seu banco de dados MySQL, na página Criar um perfil de conexão, clique no tipo de perfil MySQL.
Na seção Definir configurações de conexão da página Criar perfil do MySQL, forneça as seguintes informações:
- No campo Nome do perfil de conexão, digite My Source Connection Profile.
- Mantenha o ID do perfil de conexão gerado automaticamente.
- Selecione a Região em que você quer armazenar o perfil de conexão.
  
  Os perfis de conexão, assim como todos os recursos, são salvos em uma região, e um stream só pode usar perfis de conexão armazenados na mesma região do stream. A seleção de região não afeta a capacidade do Datastream de se conectar à origem ou ao destino, mas pode afetar a disponibilidade se a região passar por um período de inatividade.
- Insira os Detalhes da conexão:
  - No campo Nome do host ou IP, digite um nome do host ou endereço IP público que o Datastream possa usar para se conectar ao banco de dados de origem. Você está fornecendo um endereço IP público porque usa a lista de permissões de IP como o método de conectividade de rede para este tutorial.
  - No campo Porta, insira o número reservado para o banco de dados de origem. Para um banco de dados MySQL, a porta padrão é 3306.
  - Insira um Nome de usuário e uma Senha para autenticar no banco de dados de origem.
Na seção Definir configurações de conexão, clique em Continuar. A seção Secure your connection to your source da página Create MySQL profile está ativa.
No menu Tipo de criptografia, selecione Nenhum. Para mais informações sobre esse menu, consulte Criar um perfil de conexão para o banco de dados MySQL.
Na seção Secure your connection to your source, clique em Continuar. A seção Definir método de conectividade da página Criar perfil do MySQL está ativa.
No menu suspenso Método de conectividade, escolha o método de rede que você quer usar para estabelecer a conectividade entre o Datastream e o banco de dados de origem. Neste tutorial, selecione Lista de permissões de IP como o método de conectividade.
Configure seu banco de dados de origem para permitir conexões de entrada dos endereços IP públicos do Datastream que aparecem.
Na seção Definir método de conectividade, clique em Continuar. A seção Testar perfil de conexão da página Criar perfil do MySQL está ativa.
Clique em Executar teste para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.
Verifique se o status Teste aprovado aparece.
Se o teste falhar, você pode resolver o problema na parte do fluxo destinada a isso e refazer o teste. Consulte a página Como diagnosticar problemas para ver as etapas de solução de problemas.
Clique em Criar.

Criar um perfil de conexão de destino para o Cloud Storage

No Google Cloud console, acesse a página Perfis de conexão do Datastream.

Acessar a página "Perfis de conexão"
Clique em Create profile.
Para criar um perfil de conexão de destino para o Cloud Storage, na página Criar um perfil de conexão, clique no tipo de perfil Cloud Storage.
Na página Criar perfil do Cloud Storage, forneça as seguintes informações:
- No campo Nome do perfil de conexão, digite My Destination Connection Profile.
- Mantenha o ID do perfil de conexão gerado automaticamente.
- Selecione a Região em que você quer armazenar o perfil de conexão.
- No painel Detalhes da conexão, clique em Procurar para selecionar o bucket do Cloud Storage que você criou anteriormente neste tutorial. É o bucket para onde o Datastream transfere dados do banco de dados de origem. Depois de fazer a seleção, clique em Selecionar.
  
  Seu bucket aparece no campo Nome do bucket do painel Detalhes da conexão.
- No campo Prefixo do caminho do perfil de conexão, forneça um prefixo para o caminho que você quer anexar ao nome do bucket quando o Datastream transmitir dados para o destino. Verifique se o Datastream grava dados em um caminho dentro do bucket, não na pasta raiz dele. Para este tutorial, use o caminho que você definiu ao configurar a notificação do Pub/Sub. Digite /integration/tutorial no campo.
Clique em Criar.

Depois de criar um perfil de conexão de origem para o banco de dados MySQL e um perfil de conexão de destino para o Cloud Storage, use-os para criar um stream.

Criar um stream no Datastream

Nesta seção, você criará um fluxo. Esse stream usa as informações nos perfis de conexão para transferir dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.

Definir configurações do stream

No Google Cloud console, acesse a página Streams do Datastream.

Acessar a página "Mural"
Clique em Criar stream.
Forneça as seguintes informações no painel Definir detalhes do fluxo da página Criar stream:
- No campo Nome do stream, insira My Stream.
- Mantenha o ID do stream gerado automaticamente.
- No menu Região, selecione a região onde você criou os perfis de conexão de origem e de destino.
- No menu Tipo de origem, selecione o tipo de perfil MySQL.
- No menu Tipo de destino, selecione o tipo de perfil Cloud Storage.
Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos podem incluir como configurar o banco de dados de origem e como conectar o Datastream ao bucket de destino no Cloud Storage.

Para mais informações sobre esses pré-requisitos, consulte Configurar um banco de dados MySQL de origem.
Clique em Continuar. O painel Definir perfil de conexão do MySQL da página Criar stream é exibido.

Especificar informações sobre o perfil de conexão de origem

Nesta seção, você seleciona o perfil de conexão que criou para o banco de dados de origem. Para este tutorial, o nome é My Source Connection Profile.

No menu Perfil de conexão de origem, selecione o perfil de conexão de origem do banco de dados MySQL.
Clique em Executar teste para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Como diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.
Clique em Continuar. O painel Configurar origem da transmissão é exibido na página Criar stream.

Configurar informações sobre o banco de dados de origem para o fluxo

Nesta seção, você configura informações sobre o banco de dados de origem para o fluxo especificando as tabelas e os esquemas no banco de dados de origem que o Datastream:

Pode ser transferido para o destino.
esteja impedido de ser transferido para o destino;

Você também determina se o Datastream preenche dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados.

Use o menu Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para uma pasta no bucket de destino do Cloud Storage. O menu só será carregado se o banco de dados tiver até 5.000 objetos.

Neste tutorial, você quer que o Datastream transfira todas as tabelas e esquemas. Selecione Todas as tabelas de todos os esquemas no menu.
Verifique se o painel Selecionar objetos a serem excluídos está definido como Nenhum. Você não quer impedir que o Datastream transfira tabelas e esquemas do seu banco de dados de origem para o Cloud Storage.
Verifique se o painel Escolher o modo de preenchimento para dados históricos está definido como Automático. O Datastream transmite todos os dados existentes, além das alterações, da origem para o destino.
Clique em Continuar. O painel Definir perfil de conexão do Cloud Storage é exibido na página Criar stream.

Selecione um perfil de conexão de destino

Nesta seção, você seleciona o perfil de conexão criado para o Cloud Storage (o perfil de conexão de destino). Para este tutorial, o nome é My Destination Connection Profile.

No menu Perfil de conexão de destino, selecione seu perfil de conexão de destino para o Cloud Storage.
Clique em Continuar. O painel Configurar destino do stream é exibido na página Criar stream.

Configurar informações sobre o destino do stream

Nesta seção, você configura informações sobre o bucket de destino do stream. Exemplos dessas informações:

O formato de saída dos arquivos gravados no Cloud Storage.
A pasta do bucket de destino para onde o Datastream transfere esquemas, tabelas e dados do banco de dados de origem.

No campo Formato de saída, selecione o formato de arquivos gravados no Cloud Storage. O Datastream oferece suporte a dois formatos de saída: Avro e JSON. Neste tutorial, Avro é o formato de arquivo.

Não é necessário preencher o campo Prefixo do caminho do stream. Nesse campo, é possível fornecer um prefixo para o caminho que será anexado ao nome do bucket quando o Datastream transferir dados para o destino. Esse é o caminho do bucket do Cloud Storage para o qual o Datastream transfere esquemas, tabelas e dados de um banco de dados MySQL de origem.

Você já informou o caminho de /integration/tutorial ao criar o perfil de conexão de destino para o Cloud Storage.
Clique em Continuar. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Criar o stream

Verifique os detalhes do stream, bem como os perfis de conexão de origem e de destino que serão usados para transferir dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.
Para validar o stream, clique em Executar validação. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

Se a verificação for aprovada, um ícone de marca de seleção vai aparecer.
Se uma verificação de validação não for aprovada, um ícone de ponto de exclamação e um botão Ver detalhes do erro vão aparecer. Clique no botão, e uma janela pop-up aparecerá, explicando por que a verificação não foi aprovada e informações sobre o que fazer para corrigir o problema. Depois de fazer as correções apropriadas, clique em Revalidar.

Para mais informações sobre como resolver problemas de verificações de validação que não foram aprovadas, consulte Diagnosticar problemas.
Depois que todas as verificações de validação forem aprovadas, clique em Criar.
Na caixa de diálogo Criar stream?, clique em Criar.

Iniciar o stream

Para este tutorial, você cria e inicia um stream separadamente caso o processo de criação de stream intensifique a carga no banco de dados de origem. Para suspender essa carga, crie o stream sem iniciá-lo e, em seguida, inicie o stream quando o banco de dados puder lidar com a carga.

Ao iniciar o stream, ele pode transferir dados, esquemas e tabelas do banco de dados de origem para o destino.

No Google Cloud console, acesse a página Streams do Datastream.

Acessar a página "Mural"
Marque a caixa de seleção ao lado do stream que você quer iniciar. Neste tutorial, usamos Meu stream.
Clique em Iniciar.
Na caixa de diálogo, clique em Iniciar. O status do stream muda de Not started para Starting e Running.

O streaming leva cerca de 30 segundos. Os recursos em segundo plano precisam ser iniciados para que o stream possa ser iniciado.

Depois de iniciar um stream, você pode verificar se o Datastream transferiu dados do banco de dados de origem para o destino.

Verificar o stream

Nesta seção, você confirma que o Datastream transfere os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do seu bucket de destino do Cloud Storage.

No Google Cloud console, acesse a página Streams do Datastream.

Acessar a página "Mural"
Clique no stream que você criou. Neste tutorial, usamos Meu stream.
Na página Detalhes do fluxo, clique no link bucket-name/integration/tutorial, em que bucket-name é o nome que você deu ao bucket do Cloud Storage. Esse link aparece depois do campo Caminho de gravação de destino. A página Detalhes do bucket do Cloud Storage é aberta em outra guia.

O link é composto pelo nome do bucket e da pasta do bucket para o qual o Datastream transfere esquemas, tabelas e dados do banco de dados de origem. Você especificou essa pasta como /integration/tutorial ao criar o perfil de conexão de destino para o Cloud Storage.
Verifique se há pastas que representam tabelas do banco de dados de origem.
Clique em uma das pastas da tabela e, em seguida, em cada subpasta até encontrar os dados associados à tabela.

A primeira pasta é [schema]_[table], seguida por pastas que representam o ano, mês, dia, hora e minuto em que o Datastream transferiu dados do banco de dados de origem para um bucket de destino no Cloud Storage.

Uma pasta é criada a cada minuto (quando há novos dados para gravar).

Um novo arquivo é criado quando o tamanho do arquivo atinge 250 MB ou sempre que um esquema é alterado. Se as tabelas forem particionadas, serão criados arquivos para cada partição.

Criar um job do Dataflow

Nesta seção, você criará um job no Dataflow. Depois que o Datastream transmite as alterações de um banco de dados MySQL de origem para seu bucket do Cloud Storage, o Pub/Sub envia notificações ao Dataflow sobre novos arquivos com as mudanças. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

No Google Cloud console, acesse a página Jobs do Dataflow.

Acessar a página de jobs
Clique em Criar job usando um modelo.
No campo Nome do job, insira o nome do job do Dataflow que você está criando na página Criar job usando um modelo. Neste tutorial, insira my-dataflow-integration-job no campo.
No menu Endpoint regional, selecione a região em que você quer armazenar o job. Essa é a mesma região que você selecionou para o perfil de conexão de origem, o perfil de conexão de destino e o stream que você criou.
No menu Modelo do Dataflow, selecione o modelo que você está usando para criar o job. Neste tutorial, selecione Datastream para o BigQuery.

Após a seleção, serão exibidos campos adicionais relacionados a esse modelo.

O modelo do Datastream para o BigQuery é um pipeline de streaming que lê dados do Datastream e os replica no BigQuery. O modelo lê dados do Cloud Storage usando notificações do Pub/Sub e os replica em uma tabela de preparo particionada do BigQuery. Após a replicação, o modelo executa um Merge no BigQuery para mesclar todas as alterações de change data capture (CDC) em uma réplica da tabela de origem.

Para minimizar o custo associado às operações frequentes de Merge, sugerimos que você comece com uma frequência inicial a cada 6-12 horas. Depois que todos os preenchimentos forem concluídos e os dados forem replicados sem problemas, reduza esse valor para a frequência desejada.

Para mais informações sobre o modelo do Datastream para o BigQuery, consulte Fluxo de dados para o BigQuery (stream).
No campo Local do arquivo da saída do arquivo Datastream no Cloud Storage, insira o nome do bucket do Cloud Storage usando o seguinte formato: gs://bucket-name.
No campo Assinatura do Pub/Sub que está sendo usada em uma política de notificação do Cloud Storage, digite o caminho que contém o nome da sua assinatura do Pub/Sub. Neste tutorial, insira projects/project-name/subscriptions/my_integration_notifs_sub.

project-name é um marcador de posição para o nome do projeto Google Cloud . Além disso, você criou a assinatura my_integration_notifs_sub na seção Como ativar as notificações do Pub/Sub para o bucket do Cloud Storage deste tutorial.
No campo Formato do arquivo de saída Datastream (avro/json)., digite avro porque, neste tutorial, o Avro é o formato de arquivo que o Datastream grava no Cloud Storage.
No campo Nome ou modelo do conjunto de dados para conter tabelas de preparo, insira My_integration_dataset_log porque o Dataflow usa esse conjunto de dados para organizar as mudanças que ele recebe do Datastream.
No campo Modelo do conjunto de dados para conter tabelas de réplica, insira My_integration_dataset_final, porque esse é o conjunto de dados em que as alterações testadas no conjunto de dados My_integration_dataset_log são mescladas para criar uma réplica de uma para uma das tabelas no banco de dados de origem.

Você criou os conjuntos de dados My_integration_dataset_log e My_integration_dataset_final na seção Criar conjuntos de dados no BigQuery deste tutorial.
No campo Diretório da fila de mensagens inativas, insira o caminho que contém o nome do bucket do Cloud Storage e uma pasta para uma fila de mensagens inativas. Não use um caminho na pasta raiz e verifique se ele é diferente daquele em que o Datastream grava dados. Todas as alterações de dados que o Dataflow não transferir para o BigQuery são armazenadas na fila. É possível corrigir o conteúdo na fila para que o Dataflow possa processá-lo novamente.

Para este tutorial, insira gs://bucket-name/dlq no campo Diretório de fila de mensagens inativas, em que bucket-name é o nome do bucket e dlq é a pasta para a fila de mensagens inativas.
Cliquem em Executar job.

Verificar a integração

Na seção Verificar o stream deste tutorial, você confirmou que o Datastream transferiu os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do seu bucket de destino do Cloud Storage.

Nesta seção, você verá como o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e as transfere para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.

No Google Cloud console, acesse a página do espaço de trabalho SQL do BigQuery.

Acessar a página do espaço de trabalho SQL
No painel Explorer, expanda o nó ao lado do nome do projeto Google Cloud .
Expanda os nós ao lado dos conjuntos de dados My_integration_dataset_log e My_integration_dataset_final.
Verifique se cada conjunto de dados agora contém dados. Isso confirma que o Dataflow processou os arquivos com as alterações associadas aos dados transmitidos pelo Datastream para o Cloud Storage e os transferiu para o BigQuery.

Limpar

Para evitar cobranças na sua conta Google Cloud pelos recursos usados neste tutorial, use o console Google Cloud para fazer o seguinte:

Exclua o projeto, o fluxo do Datastream e os perfis de conexão do Datastream.
Interrompa o job do Dataflow.
Exclua os conjuntos de dados do BigQuery, o tópico e a assinatura do Pub/Sub e o bucket do Cloud Storage.

Ao limpar os recursos que você criou no Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, você impede que eles ocupem a cota e não recebe cobranças por eles no futuro.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para este tutorial.

No Google Cloud console, acesse a página Gerenciar recursos.

Acessar a página "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
Para excluir o projeto, digite o ID dele na caixa de diálogo e clique em Encerrar.

Excluir o stream

No Google Cloud console, acesse a página Streams do Datastream.

Acessar a página "Mural"
Clique no stream que você quer excluir. Neste tutorial, usamos Meu stream.
Clique em Pausar.
Na caixa de diálogo, clique em Pausar.
No painel Status do stream da página Detalhes do stream, verifique se o status do stream é Paused.

Pause a transmissão antes de excluí-la para garantir que todos os dados em trânsito sejam transferidos do banco de dados de origem para o destino.
Clique em Excluir.
Na caixa de diálogo, no campo de texto, digite Delete e clique em Excluir.

Excluir os perfis de conexão

No Google Cloud console, acesse a página Perfis de conexão do Datastream.

Acessar a página "Perfis de conexão"
Marque a caixa de seleção de cada perfil de conexão que você quer excluir: My Source Connection Profile e My Destination Connection Profile.
Clique em Excluir.
Na caixa de diálogo, clique em Excluir.

interrompa o job do Dataflow

No Google Cloud console, acesse a página Jobs do Dataflow.

Acessar a página de jobs
Clique no job que você quer interromper. Para este tutorial, o nome é my-dataflow-integration-job.
Clique em Interromper.
Na caixa de diálogo Interromper job, selecione a opção Drenar e clique em Interromper job.

O Dataflow termina de processar os dados armazenados em buffer restantes para que todos os dados "em trânsito" sejam transferidos para o BigQuery antes que o job seja interrompido.

Excluir os conjuntos de dados do BigQuery

No Google Cloud console, acesse a página do espaço de trabalho SQL do BigQuery.

Acessar a página do espaço de trabalho SQL
No painel Explorer, expanda o nó ao lado do nome do projeto Google Cloud .
Clique no botão Ver ações à direita de um dos conjuntos de dados que você criou em Criar conjuntos de dados no BigQuery. Esse botão parece uma reticência vertical.

Para este tutorial, clique no botão Ver ações à direita de My_integration_dataset_log.
Selecione Excluir no menu suspenso exibido.
Na caixa de diálogo Excluir conjunto de dados?, digite delete no campo de texto e clique em Excluir.
Repita as etapas deste procedimento para excluir o segundo conjunto de dados que você criou: My_integration_dataset_final.

Excluir a assinatura e o tópico do Pub/Sub

No Google Cloud console, acesse a página Assinaturas do Pub/Sub.

Acessar a página "Assinaturas"
Clique na caixa de seleção ao lado da assinatura que você quer excluir. Para este tutorial, clique na caixa de seleção ao lado da assinatura my_integration_notifs_sub.
Clique em Excluir.
Na caixa de diálogo Excluir assinatura, clique em Excluir.
No Google Cloud console, acesse a página Tópicos do Pub/Sub.

Acessar a página "Tópicos"
Clique na caixa de seleção ao lado do tópico my_integration_notifs.
Clique em Excluir.
Na caixa de diálogo Excluir tópico, digite delete no campo de texto e clique em Excluir.

Exclua o bucket do Cloud Storage

No Google Cloud console, acesse a página Navegador do Cloud Storage.

Acessar a página "Navegador"
Marque a caixa de seleção ao lado do bucket.
Clique em Excluir.
Na caixa de diálogo, digite Delete no campo de texto e clique em Excluir.

A seguir

Saiba mais sobre o Datastream.
Use a API de streaming legada para executar recursos avançados com dados de streaming no BigQuery.
Teste outros recursos Google Cloud . Confira nossos tutoriais.

Implementar o Datastream e o Dataflow para análise de dados Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Objetivos

Custos

Antes de começar

Requisitos

Criar um bucket no Cloud Storage

Ativar as notificações do Pub/Sub para o bucket do Cloud Storage

Criar conjuntos de dados no BigQuery

Criar perfis de conexão no Datastream

Criar um perfil de conexão de origem para o banco de dados MySQL

Criar um perfil de conexão de destino para o Cloud Storage

Criar um stream no Datastream

Definir configurações do stream

Especificar informações sobre o perfil de conexão de origem

Configurar informações sobre o banco de dados de origem para o fluxo

Selecione um perfil de conexão de destino

Configurar informações sobre o destino do stream

Criar o stream

Iniciar o stream

Verificar o stream

Criar um job do Dataflow

Verificar a integração

Limpar

Excluir o projeto

Excluir o stream

Excluir os perfis de conexão

interrompa o job do Dataflow

Excluir os conjuntos de dados do BigQuery

Excluir a assinatura e o tópico do Pub/Sub

Exclua o bucket do Cloud Storage

A seguir

Implementar o Datastream e o Dataflow para análise de dados