Como implementar o Datastream e o Dataflow para análises

Visão geral

Para empresas com muitas fontes de dados isoladas, pode ser difícil acessar os dados corporativos em toda a organização, especialmente em tempo real. Isso resulta em um mundo de acesso limitado e lento aos dados, impedindo a organização de introspectiva.

O Datastream oferece acesso quase em tempo real para alterar dados de uma variedade de fontes de dados locais e baseadas em nuvem para criar acesso a dados organizacionais. O Datastream oferece uma experiência de configuração simples e uma API de consumo unificada, que democratiza o acesso da organização aos dados empresariais mais recentes disponíveis em toda a organização, o que permite criar cenários integrados quase em tempo real.

Por exemplo, transferir dados de um banco de dados de origem para uma fila de mensagens ou um serviço de armazenamento baseado em nuvem e transformar esses dados em uma forma legível por outros aplicativos e serviços, como o Dataflow, que se comunicam com isso. fila de mensagens ou serviço de armazenamento. O Dataflow é um serviço da Web para capturar e processar dados no Google Cloud.

Neste tutorial, você aprenderá como o Datastream se integra perfeitamente ao Dataflow por meio de modelos simplificados do Dataflow para potencializar visualizações materializadas atualizadas no BigQuery para análise.

Você aprenderá a usar o Datastream para fazer streaming de alterações (dados inseridos, atualizados ou excluídos) de um banco de dados MySQL de origem em uma pasta em um bucket do Cloud Storage.

Configure o bucket do Cloud Storage para enviar notificações que o Dataflow usará para saber sobre novos arquivos que contenham as alterações de dados que o Datastream transmite do banco de dados de origem. Um job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

diagrama do fluxo de usuários da integração

Objetivos

Neste tutorial, você aprenderá a:

  • Criar um bucket no Cloud Storage. Esse é o bucket de destino em que o Datastream transmitirá esquemas, tabelas e dados de um banco de dados MySQL de origem.
  • Ative as notificações do Pub/Sub para o bucket do Cloud Storage. Ao fazer isso, você configura o bucket para enviar notificações que o Dataflow usará para saber sobre novos arquivos prontos para processamento. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.
  • Crie conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados de origem que o Datastream transmite para o bucket do Cloud Storage.
  • Crie e gerencie perfis de conexão para um banco de dados de origem e um bucket de destino no Cloud Storage. Um fluxo no Datastream usa as informações dos perfis de conexão para transferir dados do banco de dados de origem para o bucket.
  • Criar e iniciar um stream. Este stream transfere dados, esquemas e tabelas do banco de dados de origem para o bucket.
  • Verifique se o Datastream transfere os dados e as tabelas associados a um esquema do banco de dados de origem para o bucket.
  • Crie um job no Dataflow. Depois que o Datastream transmite as alterações de dados do banco de dados de origem para o bucket do Cloud Storage, notificações são enviadas para o Dataflow sobre novos arquivos com as mudanças. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.
  • Verifique se o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e transfere as alterações para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.
  • Limpe os recursos que você criou no Datastream, no Cloud Storage, no Pub/Sub, no Dataflow e no BigQuery para que eles não ocupem a cota e não sejam cobrados no futuro.

Custos

Neste tutorial, usamos os seguintes componentes faturáveis do Google Cloud:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  6. Ative a API Datastream.

    Ative a API

  7. Verifique se você tem o papel Administrador do Datastream atribuído à sua conta de usuário.

    Acessar a página IAM

  8. Verifique se você tem um banco de dados de origem que o Datastream possa acessar. Neste tutorial, usamos um banco de dados MySQL como origem.
  9. Verifique se há dados, tabelas e esquemas no banco de dados de origem.
  10. Configure o banco de dados de origem para permitir conexões de entrada de endereços IP públicos do Datastream. Consulte Regiões e listas de permissões de IP para ver todas as regiões do Datastream e os endereços IP públicos associados.
  11. Configure a captura de dados de alteração (CDC, na sigla em inglês) do banco de dados de origem. Para mais informações, consulte Configurar o banco de dados MySQL de origem.
  12. Verifique se você configurou um bucket do Cloud Storage de destino que o Datastream pode acessar.
  13. Verifique se você atende a todos os pré-requisitos para ativar as notificações do Pub/Sub para Cloud Storage.

    Neste tutorial, você criará um bucket de destino no Cloud Storage e ativará as notificações do Pub/Sub para ele. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no bucket. Esses arquivos contêm alterações nos dados que o Datastream transmite do banco de dados de origem para o bucket.

Requisitos

O Datastream oferece várias opções de origem, opções de destino e métodos de conectividade de rede.

Neste tutorial, presumimos que você esteja usando um banco de dados MySQL independente e um serviço de destino do Cloud Storage. Para o banco de dados de origem, configure a rede para adicionar uma regra de firewall de entrada. O banco de dados de origem pode ser local ou em um provedor de nuvem. Para o destino do Cloud Storage, não é necessária nenhuma configuração de conectividade.

Como não sabemos as especificidades do seu ambiente, não podemos fornecer etapas detalhadas sobre a configuração de rede.

Neste tutorial, selecione Lista de permissões de IP como método de conectividade de rede. As listas de permissões de IP são um recurso de segurança usado com frequência para limitar e controlar o acesso de usuários confiáveis ao seu banco de dados de origem. É possível usar listas de permissões de IP para criar listas de endereços IP ou intervalos de IP confiáveis. Esses usuários e outros serviços do Google Cloud, como o Datastream, podem acessar esses dados. Para usar as listas de permissões de IP, você precisa abrir o banco de dados ou o firewall de origem para conexões de entrada do Datastream.

Momento

Este tutorial leva aproximadamente 45 minutos para ser concluído.

Como criar um bucket no Cloud Storage

Nesta seção, você criará um bucket no Cloud Storage. Esse é o bucket de destino em que o Datastream transmitirá esquemas, tabelas e dados de um banco de dados MySQL de origem.

  1. Acesse a página Navegador do Cloud Storage no Console do Google Cloud.

    Acessar a página "Navegador"

  2. Clique em CRIAR BUCKET. A página Criar um bucket é exibida.

  3. No campo de texto da região Nomear seu bucket, digite my-integration-bucket e clique em CONTINUAR.

  4. Aceite as configurações padrão para cada região restante da página. Para fazer isso, clique em CONTINUAR na parte inferior de cada região.

  5. Clique em CRIAR.

Como ativar notificações do Pub/Sub para o bucket do Cloud Storage

Nesta seção, você ativa as notificações do Pub/Sub para o bucket do Cloud Storage criado. Ao fazer isso, você configura o bucket para enviar notificações que o Dataflow usará para saber sobre novos arquivos gravados pelo Datastream. Esses arquivos contêm alterações nos dados que o Datastream transmite de um banco de dados MySQL de origem para o bucket.

  1. Acesse o bucket do Cloud Storage criado. A página Detalhes do bucket é exibida.

  2. Clique no botão Ativar o Cloud Shell no canto superior direito da página.

  3. No prompt, insira o seguinte comando:

    gsutil notification create -t my_integration_notifs -f json gs://my-integration-bucket

  4. Opcional. Se uma janela Autorizar o Cloud Shell for exibida, clique em AUTORIZAR.

  5. Verifique se as seguintes linhas de código são exibidas:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/my-integration-bucket/notificationConfigs/1
    
  6. Acesse a página Tópicos do Pub/Sub no Console do Google Cloud.

    Acessar a página "Tópicos"

  7. Clique no tópico my_integration_notifs criado neste procedimento.

  8. Na página my_integration_notifs, role até a parte inferior da página. A guia SUBSCRIPTIONS está ativa. Além disso, a mensagem Nenhuma assinatura a ser exibida será exibida.

  9. Clique em CRIAR ASSINATURA e selecione o item Criar assinatura no menu suspenso exibido.

  10. Preencha a página Adicionar assinatura ao tópico da seguinte maneira:

    1. No campo ID da assinatura, insira um ID para a assinatura. Neste tutorial, insira my_integration_notifs_sub no campo.
    2. Deixe todos os outros valores padrão na página.
    3. Clique em CRIAR.

Mais adiante neste tutorial, você criará um job do Dataflow. Como parte da criação deste job, você atribuirá o Dataflow para ser um assinante da assinatura my_integration_notifs_sub. Ao fazer isso, o Dataflow pode receber notificações sobre novos arquivos que o Datastream grava no Cloud Storage, processar os arquivos e transferir as alterações de dados para o BigQuery.

Como criar conjuntos de dados no BigQuery

Nesta seção, você criará conjuntos de dados no BigQuery. O BigQuery usa conjuntos de dados para conter os dados recebidos do Dataflow. Esses dados representam as alterações no banco de dados MySQL de origem que o Datastream transmite para seu bucket do Cloud Storage.

  1. Acesse a página espaço de trabalho SQL do BigQuery no Console do Google Cloud.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, clique no botão Ver ações à direita do nome do seu projeto do Google Cloud. Esse botão parece uma reticência vertical.

  3. Selecione Criar conjunto de dados no menu suspenso exibido.

  4. Preencha a janela Criar conjunto de dados da seguinte maneira:

    1. No campo ID do conjunto de dados, insira um ID para o conjunto de dados. Neste tutorial, insira My_integration_dataset_log no campo.
    2. Deixe todos os outros valores padrão na janela.
    3. Clique em CRIAR CONJUNTO DE DADOS.
  5. No painel Explorer, clique no ícone do nó à esquerda do nome do projeto do Google Cloud e verifique se você vê o conjunto de dados que criou.

  6. Use as etapas neste procedimento para criar um segundo conjunto de dados: My_integration_dataset_final.

  7. Expanda o nó à esquerda de cada conjunto de dados.

  8. Verifique se cada conjunto de dados está vazio.

Depois que o Datastream transmite as alterações de dados do banco de dados de origem para o bucket do Cloud Storage, um job do Dataflow processa os arquivos que contêm as mudanças e as transfere para os conjuntos de dados do BigQuery.

Como criar perfis de conexão no Datastream

Nesta seção, você cria perfis de conexão no Datastream para um banco de dados de origem e um destino. Como parte da criação dos perfis de conexão, você selecionará MySQL como o tipo de perfil do perfil de conexão de origem e Cloud Storage como o tipo de perfil do perfil de conexão de destino.

O Datastream usa as informações definidas nos perfis de conexão para se conectar à origem e ao destino, a fim de fazer streaming de dados do banco de dados de origem para o bucket de destino do Cloud Storage.

Como criar um perfil de conexão de origem para o banco de dados MySQL

  1. Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.

    Acessar a página "Perfis de conexão"

  2. Clique em CRIAR PERFIL.

  3. Na página Criar um perfil de conexão, clique no tipo de perfil MySQL (porque você quer criar um perfil de conexão de origem para o banco de dados MySQL).

  4. Forneça as seguintes informações na seção Definir configurações de conexão da página Criar perfil do MySQL:

    • Insira My Source Connection Profile como o Nome do perfil de conexão do banco de dados de origem.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que o perfil da conexão será armazenado.

    • Insira os Detalhes da conexão:

      • No campo Nome do host ou IP, digite um nome do host ou endereço IP público que o Datastream possa usar para se conectar ao banco de dados de origem. Você está fornecendo um endereço IP público porque a lista de permissões de IP será usada como o método de conectividade de rede para este tutorial.
      • No campo Porta, insira o número reservado para o banco de dados de origem. Para um banco de dados MySQL, a porta padrão é 3306.
      • Insira um Nome de usuário e uma Senha para autenticar no banco de dados de origem.
  5. Na seção Definir configurações de conexão, clique em CONTINUAR. A seção Secure your connection to your source da página Create MySQL profile está ativa.

  6. No menu Tipo de criptografia, selecione Nenhum. Para mais informações sobre esse menu, consulte Criar um perfil de conexão para o banco de dados MySQL.

  7. Na seção Secure your connection to your source, clique em CONTINUAR. A seção Definir método de conectividade da página Criar perfil do MySQL está ativa.

  8. Escolha o método de rede que você quer usar para estabelecer a conectividade entre o banco de dados de origem e o bucket de destino no Cloud Storage. Neste tutorial, use a lista suspensa Método de conectividade para selecionar Lista de permissões de IP como método de rede.

  9. Configure seu banco de dados de origem para permitir conexões de entrada dos endereços IP públicos do Datastream que aparecem.

  10. Na seção Definir método de conectividade, clique em CONTINUAR. A seção Testar perfil de conexão da página Criar perfil do MySQL está ativa.

  11. Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

  12. Verifique se aparece o status "Aprovado no teste".

  13. Clique em CRIAR.

Como criar um perfil de conexão de destino para o Cloud Storage

  1. Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.

    Acessar a página "Perfis de conexão"

  2. Clique em CRIAR PERFIL.

  3. Na página Criar um perfil de conexão, clique no tipo de perfil Cloud Storage porque você quer criar um perfil de conexão de destino para o Cloud Storage.

  4. Forneça as seguintes informações na página Criar perfil do Cloud Storage:

    • Digite My Destination Connection Profile como o nome do perfil de conexão do serviço do Cloud Storage de destino.
    • Mantenha o ID do perfil de conexão gerado automaticamente.
    • Selecione a Região em que o perfil da conexão será armazenado.
    • No painel Detalhes da conexão, clique em NAVEGAR para selecionar o my-integration-bucket que você criou anteriormente neste tutorial. } É o bucket para onde o Datastream transferirá dados do banco de dados de origem. Depois de fazer a seleção, clique em SELECIONAR.

      Seu bucket aparece no campo Nome do bucket do painel Detalhes da conexão.

    • No campo Prefixo do caminho do perfil de conexão, forneça um prefixo para o caminho que será anexado ao nome do bucket quando o Datastream transmitir dados para o destino. Neste tutorial, insira /integration/tutorial no campo.

  5. Clique em CRIAR.

Depois de criar um perfil de conexão de origem para o banco de dados MySQL e um perfil de conexão de destino para o Cloud Storage, use-os para criar um stream.

Criar um stream no Datastream

Nesta seção, você criará um fluxo. Este stream transfere dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.

A criação de um stream inclui o seguinte:

  • Como definir as configurações da transmissão.
  • Selecione o perfil de conexão que você criou para seu banco de dados de origem (o perfil de conexão de origem). Neste tutorial, usamos Meu perfil de conexão de origem.
  • Configure informações sobre o banco de dados de origem para o fluxo especificando as tabelas e os esquemas no banco de dados de origem que o Datastream:
    • Pode ser transferido para o destino.
    • esteja impedido de ser transferido para o destino;
  • Determinar se o Datastream preencherá dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados.
  • Selecione o perfil de conexão que você criou para o Cloud Storage (o perfil de conexão de destino). Neste tutorial, usamos Meu perfil de conexão de destino.
  • Configurar informações sobre o bucket de destino do stream. Essa informação inclui:
    • A pasta do bucket de destino para onde o Datastream transferirá esquemas, tabelas e dados do banco de dados de origem.
    • O formato de saída dos arquivos gravados no Cloud Storage. Atualmente, o Datastream é compatível com dois formatos de saída: Avro e JSON. Neste tutorial, Avro é o formato de arquivo.

Como definir configurações do stream

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Fluxos"

  2. Clique em CRIAR STREAM.

  3. Forneça as seguintes informações no painel Definir detalhes do fluxo da página Criar stream:

    • Insira My Stream como o Nome do fluxo.
    • Mantenha o código do stream gerado automaticamente.
    • No menu Região, selecione a região onde você criou os perfis de conexão de origem e de destino.
    • No menu Tipo de origem, selecione o tipo de perfil MySQL.
    • No menu Tipo de destino, selecione o tipo de perfil Cloud Storage.
  4. Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos podem incluir como configurar o banco de dados de origem e como conectar o Datastream ao bucket de destino no Cloud Storage.

  5. Clique em CONTINUAR. O painel Definir perfil de conexão do MySQL da página Criar stream é exibido.

Como especificar informações sobre o perfil de conexão de origem

  1. No menu Perfil de conexão de origem, selecione o perfil de conexão de origem do banco de dados MySQL.

  2. Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

    Se o teste falhar, o problema associado ao perfil de conexão será exibido. Faça as alterações necessárias para corrigir o problema e teste novamente.

  3. Clique em CONTINUAR. O painel Configurar origem da transmissão é exibido na página Criar stream.

Como configurar informações sobre o banco de dados de origem para o fluxo

  1. Use o menu Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para uma pasta no bucket de destino do Cloud Storage.

    Neste tutorial, você quer que o Datastream transfira todas as tabelas e esquemas. Selecione Todas as tabelas de todos os esquemas no menu.

  2. Clique em CONTINUAR. O painel Definir perfil de conexão do Cloud Storage é exibido na página Criar stream.

Como selecionar um perfil de conexão de destino

  1. No menu Perfil de conexão de destino, selecione seu perfil de conexão de destino para o Cloud Storage.

  2. Clique em CONTINUAR. O painel Configurar destino do stream é exibido na página Criar stream.

Como configurar informações sobre o destino do stream

  1. No campo Formato de saída, selecione o formato de arquivos gravados no Cloud Storage. Neste tutorial, Avro é o formato de arquivo.

  2. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Como criar o stream

  1. Verifique os detalhes do stream, bem como os perfis de conexão de origem e de destino que serão usados para transferir dados de um banco de dados MySQL de origem para um bucket de destino no Cloud Storage.

  2. Clique emEXECUTAR VALIDAÇÃO para validar o stream. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

  3. Depois que todas as verificações de validação forem aprovadas, clique em CRIAR.

  4. Na caixa de diálogo Criar stream?, clique em CRIAR.

Após criar um stream, você pode iniciá-lo.

Como iniciar o stream

Na seção anterior do tutorial, você criou um stream, mas ainda não o iniciou. Faça isso agora.

Para este tutorial, você cria e inicia um stream separadamente caso o processo de criação de stream intensifique a carga no banco de dados de origem. Para suspender essa carga, crie o stream sem iniciá-lo e, em seguida, inicie o stream quando ele puder ser gerado.

Ao iniciar o stream, ele pode transferir dados, esquemas e tabelas do banco de dados de origem para o destino.

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Mural"

  2. Marque a caixa de seleção à esquerda do stream que você quer iniciar. Neste tutorial, usamos Meu stream.

  3. Clique em INICIAR.

  4. Na caixa de diálogo, clique em INICIAR. O status do stream muda de Not started para Starting e Running.

Depois de iniciar um stream, você pode verificar se o Datastream transferiu dados do banco de dados de origem para o destino.

Como verificar o stream

Nesta seção, você confirma que o Datastream transfere os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do seu bucket de destino do Cloud Storage. Para este tutorial, o nome do seu bucket é my-integration-bucket.

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Mural"

  2. Clique no stream que você criou. Neste tutorial, usamos Meu stream.

  3. Na página Detalhes do fluxo, clique no link exibido abaixo do campo Caminho de gravação de destino. A página Detalhes do bucket do Cloud Storage é aberta em outra guia.

  4. Verifique se há pastas que representam tabelas do banco de dados de origem.

  5. Clique em uma das pastas da tabela e faça o detalhamento até ver os dados associados à tabela.

Como criar um job do Dataflow

Nesta seção, você criará um job no Dataflow. Depois que o Datastream transmite as alterações de um banco de dados MySQL de origem para seu bucket do Cloud Storage, notificações são enviadas para o Dataflow sobre novos arquivos com as mudanças. O job do Dataflow processa os arquivos e transfere as alterações para o BigQuery.

  1. Acesse a página Jobs do Dataflow no Console do Google Cloud.

    Acessar a página de jobs

  2. Clique em CRIAR JOB A PARTIR DO MODELO.

  3. No campo Nome do job, insira o nome do job do Dataflow que você está criando na página Criar job usando um modelo. Neste tutorial, insira my-dataflow-integration-job no campo.

  4. No menu Endpoint regional, selecione a região em que o job será armazenado. Essa é a mesma região que você selecionou para o perfil de conexão de origem, o perfil de conexão de destino e o stream que você criou.

  5. No menu Modelo do Dataflow, selecione o modelo que você está usando para criar o job. Neste tutorial, selecione Datastream para o BigQuery.

    Após a seleção, serão exibidos campos adicionais relacionados a esse modelo.

  6. No campo Local do arquivo da saída do arquivo Datastream no Cloud Storage., insira o caminho que contém o nome do bucket do Cloud Storage. Neste tutorial, insira gs://my-integration-bucket no campo.

  7. No campo Assinatura do Pub/Sub que está sendo usada em uma política de notificação do Cloud Storage, digite o caminho que contém o nome da sua assinatura do Pub/Sub. Neste tutorial, insira projects/project-name/subscriptions/my_integration_notifs_sub no campo.

  8. No campo Formato do arquivo de saída Datastream (avro/json)., digite avro porque, neste tutorial, o Avro é o formato de arquivo que o Datastream grava no Cloud Storage.

  9. No campo Nome ou modelo do conjunto de dados para conter tabelas de preparo, insira My_integration_dataset_log porque o Dataflow usará esse conjunto de dados para organizar as mudanças que ele recebe do Datastream.

  10. No campo Modelo do conjunto de dados para conter tabelas de réplica, insira My_integration_dataset_final, porque esse é o conjunto de dados em que as alterações testadas no conjunto de dados My_integration_dataset_log serão mescladas.para criar uma réplica de um para um das tabelas no banco de dados de origem.

  11. No campo diretório da fila de mensagens inativas, insira o caminho que contém o nome do bucket do Cloud Storage e uma pasta para uma fila de mensagens inativas. Todas as alterações de dados que o Dataflow não transferir para o BigQuery serão armazenadas na fila. É possível corrigir o conteúdo na fila para que o Dataflow possa processá-lo novamente.

    Para este tutorial, insira gs://my-integration-bucket/dlq no campo Diretório de fila de mensagens inativas, em que dlq é a pasta para a fila de mensagens inativas.

  12. Clique em EXECUTAR JOB.

Como verificar a integração

Na seção Como verificar o stream deste tutorial, você confirmou que o Datastream transferiu os dados de todas as tabelas de um banco de dados MySQL de origem para a pasta /integration/tutorial do Cloud Storage. bucket de destino

Nesta seção, você verá como o Dataflow processa os arquivos que contêm as alterações associadas a esses dados e as transfere para o BigQuery. Como resultado, você tem uma integração completa entre o Datastream e o BigQuery.

  1. Acesse a página espaço de trabalho SQL do BigQuery no Console do Google Cloud.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, expanda o nó para a esquerda do nome do seu projeto do Google Cloud.

  3. Expanda os nós à esquerda dos conjuntos de dados My_integration_dataset_log e My_integration_dataset_final.

  4. Verifique se cada conjunto de dados agora contém dados. Isso confirma que o Dataflow processou os arquivos com as alterações associadas aos dados transmitidos pelo Datastream para o Cloud Storage e os transferiu para o BigQuery.

Limpar

Para evitar cobranças dos recursos usados neste tutorial na conta do Google Cloud, siga estas etapas:

  1. Use o Console do Google Cloud para excluir o projeto, o fluxo do Datastream e os perfis de conexão do Datastream, interromper o job do Dataflow e excluir os conjuntos de dados do BigQuery, o tópico e a assinatura do Pub/Sub e o bucket do Cloud Storage.

Ao limpar os recursos que você criou no Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, eles não consumirão a cota e você não será cobrado por eles no futuro. As próximas seções descrevem como excluir ou desativar esses recursos.

Como excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para este tutorial.

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar a página "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.

  3. Na caixa de diálogo, insira o ID do projeto e clique em Encerrar para excluí-lo.

Como excluir o stream

  1. Acesse a página Streams do Datastream no Console do Google Cloud.

    Acessar a página "Mural"

  2. Clique no stream que você quer excluir. Neste tutorial, usamos Meu stream.

  3. Clique em PAUSAR.

  4. Na caixa de diálogo, clique em PAUSAR.

  5. No painel Status do stream da página Detalhes do stream, verifique se o status do stream é Paused.

  6. Clique em EXCLUIR.

  7. Na caixa de diálogo, digite Delete no campo de texto e clique em EXCLUIR.

Como excluir os perfis de conexão

  1. Acesse a página Perfis de conexão do Datastream no Console do Google Cloud.

    Acessar a página "Perfis de conexão"

  2. Marque a caixa de seleção de cada perfil de conexão que você quer excluir. Para este tutorial, marque as caixas de seleção de My Source Connection Profile e My Destination Connection Profile.

  3. Clique em EXCLUIR.

  4. Na caixa de diálogo, clique em EXCLUIR.

Como interromper o job do Dataflow

  1. Acesse a página Jobs do Dataflow no Console do Google Cloud.

    Acessar a página de jobs

  2. Clique no job que você quer interromper. Para este tutorial, o nome é my-dataflow-integration-job.

  3. Clique em INTERROMPER.

  4. Na caixa de diálogo Interromper job, selecione Drenar e clique em INTERROMPER JOB.

Excluir os conjuntos de dados do BigQuery

  1. Acesse a página espaço de trabalho SQL do BigQuery no Console do Google Cloud.

    Acessar a página do espaço de trabalho SQL

  2. No painel Explorer, expanda o nó para a esquerda do nome do projeto do Google Cloud.

  3. Clique no botão Ver ações à direita de um dos conjuntos de dados que você criou em Como criar conjuntos de dados no BigQuery. Esse botão parece uma reticência vertical.

    Para este tutorial, clique no botão Ver ações à direita de My_integration_dataset_log.

  4. Selecione Excluir no menu suspenso exibido.

  5. Na caixa de diálogo Excluir conjunto de dados?, digite delete no campo de texto e clique em EXCLUIR.

  6. Use as etapas neste procedimento para excluir o segundo conjunto de dados que você criou: My_integration_dataset_final.

Como excluir a assinatura e o tópico do Pub/Sub

  1. Acesse a página Assinaturas do Pub/Sub no Console do Google Cloud.

    Acessar a página "Assinaturas"

  2. Clique na caixa de seleção à esquerda da assinatura que você quer excluir. Para este tutorial, clique na caixa de seleção à esquerda de my_integration_notifs_sub.

  3. Clique em EXCLUIR.

  4. Na caixa de diálogo Excluir assinatura, clique em EXCLUIR.

  5. Acesse a página Tópicos do Pub/Sub no Console do Google Cloud.

    Acessar a página "Tópicos"

  6. Clique na caixa de seleção à esquerda do tópico que você quer excluir. Para este tutorial, clique na caixa de seleção à esquerda de my_integration_notifs.

  7. Clique em EXCLUIR.

  8. Na caixa de diálogo Excluir tópico, digite delete no campo de texto e clique em EXCLUIR.

Como excluir o bucket do Cloud Storage

  1. Acesse a página Navegador do Cloud Storage no Console do Google Cloud.

    Acessar a página "Navegador"

  2. Marque a caixa de seleção à esquerda do bucket. Para este tutorial, este é o my-integration-bucket.

  3. Clique em EXCLUIR.

  4. Na caixa de diálogo, digite DELETE no campo de texto e clique em EXCLUIR.

A seguir