Implementar o Datastream e o Dataflow para análise de dados

Datastream

O Datastream oferece suporte a dados de streaming dos bancos de dados Oracle, MySQL e PostgreSQL diretamente nos conjuntos de dados do BigQuery. No entanto, se você precisa de mais controle sobre a lógica do processamento de stream, como transformação de dados ou configuração manual de chaves primárias lógicas, é possível integrar o Datastream com modelos de job do Dataflow.

Neste tutorial, mostramos como o Datastream se integra ao Dataflow usando modelos de job do Dataflow para transmitir visualizações materializadas atualizadas no BigQuery para análise.

Para organizações com muitas fontes de dados isoladas, o acesso aos dados corporativos em toda a organização, especialmente em tempo real, pode ser limitado e lento. Isso restringe a capacidade da organização de introspecção.

O Datastream fornece acesso quase em tempo real para alterar dados de várias fontes de dados locais e baseadas na nuvem. O Datastream oferece uma experiência de configuração em que você não precisa configurar muito o streaming de dados, e o Datastream faz isso por você. O Datastream também tem uma API de consumo unificado que democratiza o acesso da sua organização aos dados corporativos mais recentes disponíveis para criar cenários integrados.

Um desses cenários é a transferência de dados de um banco de dados de origem para um serviço de armazenamento baseado em nuvem ou fila de mensagens. Depois que o Datastream transmite os dados, eles são transformados em um formato que outros aplicativos e serviços podem ler. Neste tutorial, o Dataflow é o serviço da Web que se comunica com o serviço de armazenamento ou a fila de mensagens para capturar e processar dados no Google Cloud.

Você vai aprender a usar o Datastream para transmitir alterações (dados inseridos, atualizados ou excluídos) de um banco de dados MySQL de origem para uma pasta em um bucket do Cloud Storage. Em seguida, você vai configurar o bucket do Cloud Storage para enviar notificações que o Dataflow usa para saber sobre novos arquivos que contêm as mudanças de dados que o Datastream transmite por streaming do banco de dados de origem. Depois, um job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

diagrama do fluxo de usuários da integração

Objetivos

Neste tutorial, você aprenderá a:

  • Criar um bucket no Cloud Storage. Este é o bucket de destino em que o Datastream transmite esquemas, tabelas e dados de um banco de dados MySQL de origem.
  • Ative as notificações do Pub/Sub para o bucket do Cloud Storage. Ao fazer isso, você configura o bucket para enviar notificações que o Dataflow usa para saber mais sobre novos arquivos prontos para processamento. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.
  • Crie conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados de origem que o Datastream transmite para o bucket do Cloud Storage.
  • Crie e gerencie perfis de conexão para um banco de dados de origem e um bucket de destino no Cloud Storage. Um fluxo no Datastream usa as informações dos perfis de conexão para transferir dados do banco de dados de origem para o bucket.
  • Criar e iniciar um stream. Esse stream transfere dados, esquemas e tabelas do banco de dados de origem para o bucket.
  • Verifique se o Datastream transfere os dados e as tabelas associados a um esquema do banco de dados de origem para o bucket.
  • Crie um job no Dataflow. Depois que o Datastream faz streaming das alterações de dados do banco de dados de origem para o bucket do Cloud Storage, as notificações são enviadas ao Dataflow sobre novos arquivos que contêm as alterações. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.
  • Verifique se o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e transfere as alterações para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.
  • Limpar os recursos que você criou no Datastream, Cloud Storage, Pub/Sub, Dataflow e BigQuery para que não consumam sua cota e você não seja cobrado por eles no futuro.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  6. Ative a API Datastream.

    Ativar a API

  7. Verifique se você tem o papel Administrador do Datastream concedido à sua conta de usuário.

    Acessar a página IAM

  8. Verifique se você tem um banco de dados MySQL de origem que o Datastream possa acessar. Além disso, verifique se você tem dados, tabelas e esquemas no banco de dados.
  9. Configure seu banco de dados MySQL para permitir conexões de entrada de endereços IP públicos do Datastream. Confira uma lista de todas as regiões do Datastream e os endereços IP públicos associados em Regiões e listas de permissões de IP.
  10. Configure a captura de dados de alteração (CDC, na sigla em inglês) do banco de dados de origem. Para mais informações, consulte Configurar um banco de dados MySQL de origem.
  11. Verifique se você atende a todos os pré-requisitos para ativar as notificações do Pub/Sub para Cloud Storage.

    Neste tutorial, você vai criar um bucket de destino no Cloud Storage e ativar as notificações do Pub/Sub para ele. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no bucket. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.

Requisitos

O Datastream oferece várias opções de origem, opções de destino e métodos de conectividade de rede.

Neste tutorial, presumimos que você esteja usando um banco de dados MySQL independente e um serviço de destino do Cloud Storage. Para o banco de dados de origem, configure a rede para adicionar uma regra de firewall de entrada. O banco de dados de origem pode ser local ou em um provedor de nuvem. Para o destino do Cloud Storage, não é necessária nenhuma configuração de conectividade.

Como não sabemos as especificidades do seu ambiente, não podemos fornecer etapas detalhadas sobre a configuração de rede.

Neste tutorial, você selecionou Lista de permissões de IP como o método de conectividade de rede. As listas de permissões de IP são um recurso de segurança usado com frequência para limitar e controlar o acesso de usuários confiáveis ao seu banco de dados de origem. É possível usar listas de permissões de IP para criar listas de endereços IP ou intervalos de IP confiáveis. Esses usuários e outros serviços do Google Cloud, como o Datastream, podem acessar esses dados. Para usar as listas de permissões de IP, você precisa abrir o banco de dados ou o firewall de origem para conexões de entrada do Datastream.

Criar um bucket no Cloud Storage

Crie um bucket de destino no Cloud Storage em que o Datastream transmite esquemas, tabelas e dados de um banco de dados MySQL de origem.

  1. No console do Google Cloud, acesse a página Navegador do Cloud Storage.

    Acessar a página "Navegador"

  2. Clique em Criar bucket. A página Criar um bucket é exibida.

  3. No campo de texto da região Nomeie seu bucket, insira my-integration-bucket e clique em Continuar.

  4. Aceite as configurações padrão para cada região restante da página. No final de cada região, clique em Continuar.

  5. Clique em Criar.

Ativar as notificações do Pub/Sub para o bucket do Cloud Storage

Nesta seção, você ativa as notificações do Pub/Sub para o bucket do Cloud Storage criado. Ao fazer isso, você configura o bucket para notificar o Dataflow sobre novos arquivos que o Datastream grava no bucket. Esses arquivos contêm alterações nos dados que o Datastream transmite de um banco de dados MySQL de origem para o bucket.

  1. Acesse o bucket do Cloud Storage criado. A página Detalhes do bucket é exibida.

  2. Clique em Ativar o Cloud Shell.

  3. No prompt, insira o seguinte comando:

    gsutil notification create -t my_integration_notifs -f json -p integration/tutorial/ gs://my-integration-bucket

  4. Opcional: se uma janela Autorizar o Cloud Shell for exibida, clique em Autorizar.

  5. Verifique se as seguintes linhas de código são exibidas:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/my-integration-bucket/notificationConfigs/1
    
  6. No console do Google Cloud, acesse a página Tópicos do Pub/Sub.

    Acessar a página de tópicos

  7. Clique no tópico my_integration_notifs que você criou.

  8. Na página my_integration_notifs, role até a parte inferior da página. Verifique se a guia Assinaturas está ativa e se a mensagem Nenhuma assinatura para exibir é exibida.

  9. Clique em Criar assinatura.

  10. No menu que aparece, selecione Criar assinatura.

  11. Na página Adicionar assinatura ao tópico:

    1. No campo ID da assinatura, insira my_integration_notifs_sub.
    2. Defina o valor Confirmação Prazo como 120 segundos. Isso dá ao Dataflow tempo suficiente para reconhecer os arquivos processados e ajuda a melhorar o desempenho geral do job do Dataflow. Para mais informações sobre as propriedades da assinatura do Pub/Sub, consulte Propriedades de assinatura.
    3. Deixe todos os outros valores padrão na página.
    4. Clique em Criar.

Mais adiante neste tutorial, você vai criar um job do Dataflow. Como parte da criação desse job, você atribui o Dataflow como assinante à assinatura my_integration_notifs_sub. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no Cloud Storage, processar os arquivos e transferir as alterações de dados para o BigQuery.

crie conjuntos de dados no BigQuery

Nesta seção, você criará conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados MySQL de origem que o Datastream transmite para seu bucket do Cloud Storage.

  1. Acesse a página do espaço de trabalho do SQL do BigQuery no console do Google Cloud.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, ao lado do nome do seu projeto do Google Cloud, clique em Ver ações.

  3. No menu exibido, selecione Criar conjunto de dados.

  4. Na janela Criar conjunto de dados, faça o seguinte:

    1. No campo ID do conjunto de dados, insira um ID para o conjunto de dados. Neste tutorial, insira My_integration_dataset_log no campo.
    2. Deixe todos os outros valores padrão na janela.
    3. Clique em Criar conjunto de dados.
  5. No painel Explorer, ao lado do nome do projeto do Google Cloud, clique em Expandir nó e verifique se o conjunto de dados que você criou aparece.

  6. Use as etapas neste procedimento para criar um segundo conjunto de dados: My_integration_dataset_final.

  7. Ao lado de cada conjunto de dados, expanda Expandir nó.

  8. Verifique se cada conjunto de dados está vazio.

Depois que o Datastream transfere as alterações de dados do banco de dados de origem para o bucket do Cloud Storage, um job do Dataflow processa os arquivos que contêm as alterações e transfere as alterações para os conjuntos de dados do BigQuery.

Criar perfis de conexão no Datastream

Nesta seção, você cria perfis de conexão no Datastream para um banco de dados de origem e um destino. Como parte da criação dos perfis de conexão, selecione MySQL como o tipo do perfil de conexão de origem e Cloud Storage como o tipo do perfil de conexão de destino.

O Datastream usa as informações definidas nos perfis de conexão para se conectar à origem e ao destino. Assim, ele pode transmitir dados do banco de dados de origem para seu bucket de destino no Cloud Storage.

Criar um perfil de conexão de origem para seu banco de dados MySQL

  1. No console do Google Cloud, acesse a página Perfis de conexão do Datastream.

    Acessar a página "Perfis de conexão"

  2. Clique em Create profile.

  3. Para criar um perfil de conexão de origem para seu banco de dados MySQL, na página Criar um perfil de conexão, clique no tipo de perfil MySQL.

  4. Na seção Definir configurações de conexão da página Criar perfil do MySQL, forneça estas informações:

    • No campo Nome do perfil de conexão, insira My Source Connection Profile.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que você quer armazenar o perfil de conexão.

    • Insira os Detalhes da conexão:

      • No campo Nome do host ou IP, digite um nome do host ou endereço IP público que o Datastream possa usar para se conectar ao banco de dados de origem. Você informou um endereço IP público porque usou a lista de permissões de IP como o método de conectividade de rede neste tutorial.
      • No campo Porta, insira o número reservado para o banco de dados de origem. Para um banco de dados MySQL, a porta padrão é 3306.
      • Insira um Nome de usuário e uma Senha para autenticar no banco de dados de origem.
  5. Na seção Definir configurações de conexão, clique em Continuar. A seção Secure your connection to your source da página Create MySQL profile está ativa.

  6. No menu Tipo de criptografia, selecione Nenhum. Para mais informações sobre esse menu, consulte Criar um perfil de conexão para o banco de dados MySQL.

  7. Na seção Proteger sua conexão com a origem, clique em Continuar. A seção Definir método de conectividade da página Criar perfil do MySQL está ativa.

  8. No menu suspenso Método de conectividade, escolha o método de rede que você quer usar para estabelecer conectividade entre o Datastream e o banco de dados de origem. Para este tutorial, selecione Lista de permissões de IP como o método de conectividade.

  9. Configure seu banco de dados de origem para permitir conexões de entrada dos endereços IP públicos do Datastream que aparecem.

  10. Na seção Definir método de conectividade, clique em Continuar. A seção Testar perfil de conexão da página Criar perfil do MySQL está ativa.

  11. Clique em Executar teste para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

  12. Verifique se você vê o status Aprovado no teste.

  13. Clique em Criar.

Criar um perfil de conexão de destino para o Cloud Storage

  1. No console do Google Cloud, acesse a página Perfis de conexão do Datastream.

    Acessar a página "Perfis de conexão"

  2. Clique em Create profile.

  3. Para criar um perfil de conexão de destino para o Cloud Storage, na página Criar um perfil de conexão, clique no tipo de perfil do Cloud Storage.

  4. Na página Criar perfil do Cloud Storage, forneça estas informações:

    • No campo Nome do perfil de conexão, insira My Destination Connection Profile.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que você quer armazenar o perfil de conexão.
    • No painel Detalhes da conexão, clique em Procurar para selecionar o my-integration-bucket que você criou anteriormente neste tutorial. Este é o bucket para onde o Datastream transfere dados do banco de dados de origem. Depois de escolher, clique em Selecionar.

      Seu bucket aparece no campo Nome do bucket do painel Detalhes da conexão.

    • No campo Prefixo do caminho do perfil de conexão, forneça um prefixo para o caminho que você quer anexar ao nome do bucket quando o Datastream fizer streaming de dados para o destino. Verifique se o Datastream grava dados em um caminho dentro do bucket, não na pasta raiz dele. Neste tutorial, use o caminho definido quando você configurou sua notificação do Pub/Sub. Digite /integration/tutorial no campo.

  5. Clique em Criar.

Depois de criar um perfil de conexão de origem para o banco de dados MySQL e um perfil de conexão de destino para o Cloud Storage, use-os para criar um stream.

Criar um stream no Datastream

Nesta seção, você criará um fluxo. Esse fluxo usa as informações dos perfis de conexão para transferir dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.

Definir configurações do stream

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Fluxos"

  2. Clique em Criar stream.

  3. Forneça as seguintes informações no painel Definir detalhes do fluxo da página Criar stream:

    • No campo Nome do fluxo, insira My Stream.
    • Mantenha o ID do fluxo gerado automaticamente.
    • No menu Região, selecione a região onde você criou os perfis de conexão de origem e de destino.
    • No menu Tipo de origem, selecione o tipo de perfil MySQL.
    • No menu Tipo de destino, selecione o tipo de perfil Cloud Storage.
  4. Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos podem incluir como configurar o banco de dados de origem e como conectar o Datastream ao bucket de destino no Cloud Storage.

  5. Clique em Continuar. O painel Definir perfil de conexão do MySQL da página Criar stream é exibido.

Especificar informações sobre o perfil de conexão de origem

Nesta seção, você vai selecionar o perfil de conexão criado para seu banco de dados de origem (o perfil de conexão de origem). Neste tutorial, o nome é Meu perfil de conexão de origem.

  1. No menu Perfil de conexão de origem, selecione o perfil de conexão de origem do banco de dados MySQL.

  2. Clique em Executar teste para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

    Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.

  3. Clique em Continuar. O painel Configurar origem da transmissão é exibido na página Criar stream.

Configurar informações sobre o banco de dados de origem para o fluxo

Nesta seção, você vai configurar informações sobre o banco de dados de origem do stream especificando as tabelas e os esquemas no banco de dados de origem que o Datastream:

  • Pode ser transferido para o destino.
  • esteja impedido de ser transferido para o destino;

Você também determina se o Datastream preenche os dados históricos, bem como transmite alterações contínuas para o destino ou só transmite alterações nos dados.

  1. Use o menu Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para uma pasta no bucket de destino do Cloud Storage. O menu só é carregado se o banco de dados tiver até 5.000 objetos.

    Neste tutorial, você quer que o Datastream transfira todas as tabelas e esquemas. Selecione Todas as tabelas de todos os esquemas no menu.

  2. Verifique se o painel Selecionar objetos para excluir está definido como Nenhum. Você não quer impedir que o Datastream transfira tabelas e esquemas do seu banco de dados de origem para o Cloud Storage.

  3. Verifique se o painel Escolher o modo de preenchimento dos dados históricos está definido como Automático. O Datastream transmite todos os dados atuais da origem para o destino, além das mudanças feitas neles.

  4. Clique em Continuar. O painel Definir perfil de conexão do Cloud Storage é exibido na página Criar stream.

Selecione um perfil de conexão de destino

Nesta seção, você vai selecionar o perfil de conexão que criou para o Cloud Storage (o perfil de conexão de destino). Neste tutorial, o nome é Meu perfil de conexão de destino.

  1. No menu Perfil de conexão de destino, selecione seu perfil de conexão de destino para o Cloud Storage.

  2. Clique em Continuar. O painel Configurar destino do stream é exibido na página Criar stream.

Configurar informações sobre o destino do stream

Nesta seção, você vai configurar informações sobre o bucket de destino do stream. Exemplos dessas informações:

  • O formato de saída dos arquivos gravados no Cloud Storage.
  • A pasta do bucket de destino para onde o Datastream transfere esquemas, tabelas e dados do banco de dados de origem.
  1. No campo Formato de saída, selecione o formato de arquivos gravados no Cloud Storage. O Datastream oferece suporte a dois formatos de saída: Avro e JSON. Neste tutorial, Avro é o formato de arquivo.

  2. Clique em Continuar. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Criar o stream

  1. Verifique os detalhes sobre o stream, bem como os perfis de conexão de origem e destino que o stream usa para transferir dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.

  2. Para validar o stream, clique em Executar validação. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

  3. Depois que todas as verificações de validação forem aprovadas, clique em Criar.

  4. Na caixa de diálogo Criar stream?, clique em Criar.

Iniciar o stream

Para este tutorial, você cria e inicia um stream separadamente caso o processo de criação de stream intensifique a carga no banco de dados de origem. Para aliviar essa carga, crie o stream sem iniciá-lo e inicie-o quando seu banco de dados puder lidar com ela.

Ao iniciar o stream, ele pode transferir dados, esquemas e tabelas do banco de dados de origem para o destino.

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Fluxos"

  2. Marque a caixa de seleção ao lado do stream que você quer iniciar. Neste tutorial, usamos Meu stream.

  3. Clique em Iniciar.

  4. Na caixa de diálogo, clique em Iniciar. O status do stream muda de Not started para Starting e Running.

Depois de iniciar um stream, você pode verificar se o Datastream transferiu dados do banco de dados de origem para o destino.

Verificar o stream

Nesta seção, você confirma que o Datastream transfere os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do seu bucket de destino do Cloud Storage. Para este tutorial, o nome do seu bucket é my-integration-bucket.

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Fluxos"

  2. Clique no stream que você criou. Neste tutorial, usamos Meu stream.

  3. Na página Detalhes do fluxo, clique no link my-integration-bucket/integration/tutorial. Esse link aparece após o campo Caminho de gravação de destino. A página Detalhes do bucket do Cloud Storage é aberta em uma guia separada.

  4. Verifique se há pastas que representam tabelas do banco de dados de origem.

  5. Clique em uma das pastas da tabela e em cada subpasta até ver os dados associados à tabela.

Criar um job do Dataflow

Nesta seção, você criará um job no Dataflow. Depois que o Datastream faz streaming das alterações de dados de um banco de dados MySQL de origem para o bucket do Cloud Storage, o Pub/Sub envia notificações ao Dataflow sobre novos arquivos que contêm as alterações. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

  1. No console do Google Cloud, acesse a página Jobs do Dataflow.

    Acessar a página de jobs

  2. Clique em Criar job usando um modelo.

  3. No campo Nome do job, insira o nome do job do Dataflow que você está criando na página Criar job usando um modelo. Neste tutorial, insira my-dataflow-integration-job no campo.

  4. No menu Endpoint regional, selecione a região em que você quer armazenar o job. Essa é a mesma região que você selecionou para o perfil de conexão de origem, o perfil de conexão de destino e o stream que você criou.

  5. No menu Modelo do Dataflow, selecione o modelo que você está usando para criar o job. Neste tutorial, selecione Datastream para o BigQuery.

    Após a seleção, serão exibidos campos adicionais relacionados a esse modelo.

  6. No campo Local do arquivo da saída do arquivo Datastream no Cloud Storage., insira o caminho que contém o nome do bucket do Cloud Storage. Para este tutorial, insira gs://my-integration-bucket.

  7. No campo Assinatura do Pub/Sub que está sendo usada em uma política de notificação do Cloud Storage, digite o caminho que contém o nome da sua assinatura do Pub/Sub. Para este tutorial, insira projects/project-name/subscriptions/my_integration_notifs_sub.

  8. No campo Formato do arquivo de saída Datastream (avro/json)., digite avro porque, neste tutorial, o Avro é o formato de arquivo que o Datastream grava no Cloud Storage.

  9. No campo Nome ou modelo para o conjunto de dados conter tabelas de preparo, insira My_integration_dataset_log porque o Dataflow usa esse conjunto de dados para preparar as alterações de dados que recebe do Datastream.

  10. No campo Modelo para o conjunto de dados conter tabelas de réplica., insira My_integration_dataset_final porque esse é o conjunto de dados em que as alterações testadas no conjunto de dados My_integration_dataset_log se mesclam para criar uma réplica individual das tabelas no banco de dados de origem.

  11. No campo Diretório de filas de mensagens inativas., digite o caminho que contém o nome do bucket do Cloud Storage e uma pasta para uma fila de mensagens inativas. Verifique se você não está usando um caminho na pasta raiz e se ele é diferente daquele em que o Datastream grava dados. Todas as alterações de dados que o Dataflow não transfere para o BigQuery são armazenadas na fila. É possível corrigir o conteúdo na fila para que o Dataflow possa processá-lo novamente.

    Para este tutorial, insira gs://my-integration-bucket/dlq no campo Diretório de fila de mensagens inativas, em que dlq é a pasta para a fila de mensagens inativas.

  12. Cliquem em Executar job.

Verificar a integração

Na seção Verificar o stream deste tutorial, você confirmou que o Datastream transferiu os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do bucket de destino do Cloud Storage.

Nesta seção, você verá como o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e as transfere para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.

  1. No console do Google Cloud, acesse a página do espaço de trabalho do SQL do BigQuery.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, expanda o nó ao lado do nome do seu projeto do Google Cloud.

  3. Expanda os nós ao lado dos conjuntos de dados My_integration_dataset_log e My_integration_dataset_final.

  4. Verifique se cada conjunto de dados agora contém dados. Isso confirma que o Dataflow processou os arquivos com as alterações associadas aos dados transmitidos pelo Datastream para o Cloud Storage e os transferiu para o BigQuery.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, use o console do Google Cloud para fazer o seguinte:

  • Exclua o projeto, o Datastream Stream e os perfis de conexão do Datastream.
  • Interrompa o job do Dataflow.
  • Exclua os conjuntos de dados do BigQuery, o tópico e a assinatura do Pub/Sub e o bucket do Cloud Storage.

Ao limpar os recursos criados no Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, você evita que eles ocupem cota e não receba cobranças por eles no futuro.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para este tutorial.

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar a página Gerenciar recursos

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.

  3. Para excluir o projeto, na caixa de diálogo, digite o ID do projeto e clique em Encerrar.

Excluir o stream

  1. No console do Google Cloud, acesse a página Streams do Datastream.

    Acessar a página "Fluxos"

  2. Clique no stream que você quer excluir. Neste tutorial, usamos Meu stream.

  3. Clique em Pausar.

  4. Na caixa de diálogo, clique em Pausar.

  5. No painel Status do stream da página Detalhes do stream, verifique se o status do stream é Paused.

  6. Clique em Excluir.

  7. Digite Delete na caixa de diálogo no campo de texto e clique em Excluir.

Excluir os perfis de conexão

  1. No console do Google Cloud, acesse a página Perfis de conexão do Datastream.

    Acessar a página "Perfis de conexão"

  2. Marque a caixa de seleção de cada perfil de conexão que você quer excluir: My Source Connection Profile e My Destination Connection Profile.

  3. Clique em Excluir.

  4. Na caixa de diálogo, clique em Excluir.

interrompa o job do Dataflow

  1. No console do Google Cloud, acesse a página Jobs do Dataflow.

    Acessar a página de jobs

  2. Clique no job que você quer interromper. Para este tutorial, o nome é my-dataflow-integration-job.

  3. Clique em Stop.

  4. Na caixa de diálogo Interromper job, selecione a opção Drenar e clique em Interromper job.

Excluir os conjuntos de dados do BigQuery

  1. No console do Google Cloud, acesse a página do espaço de trabalho do SQL do BigQuery.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, expanda o nó ao lado do nome do seu projeto do Google Cloud.

  3. Clique no botão Ver ações à direita de um dos conjuntos de dados que você criou em Criar conjuntos de dados no BigQuery. Esse botão parece uma reticência vertical.

    Para este tutorial, clique no botão Ver ações à direita de My_integration_dataset_log.

  4. Selecione Excluir no menu suspenso exibido.

  5. Na caixa de diálogo Excluir conjunto de dados?, digite delete no campo de texto e clique em Excluir.

  6. Repita as etapas deste procedimento para excluir o segundo conjunto de dados que você criou: My_integration_dataset_final.

Excluir a assinatura e o tópico do Pub/Sub

  1. No console do Google Cloud, acesse a página Assinaturas do Pub/Sub.

    Acessar a página "Assinaturas"

  2. Clique na caixa de seleção ao lado da assinatura que você quer excluir. Para este tutorial, clique na caixa de seleção ao lado da assinatura my_integration_notifs_sub.

  3. Clique em Excluir.

  4. Na caixa de diálogo Excluir assinatura, clique em Excluir.

  5. No console do Google Cloud, acesse a página Tópicos do Pub/Sub.

    Acessar a página de tópicos

  6. Clique na caixa de seleção ao lado do tópico my_integration_notifs.

  7. Clique em Excluir.

  8. Na caixa de diálogo Excluir tópico, digite delete no campo de texto e clique em Excluir.

Exclua o bucket do Cloud Storage

  1. No console do Google Cloud, acesse a página Navegador do Cloud Storage.

    Acessar a página "Navegador"

  2. Marque a caixa de seleção ao lado do bucket. Para este tutorial, este é o my-integration-bucket.

  3. Clique em Excluir.

  4. Na caixa de diálogo, digite Delete no campo de texto e clique em Excluir.

A seguir