Implantar um processo de transformação de dados entre o MongoDB Atlas e o Google Cloud

Last reviewed 2023-12-13 UTC

Neste documento, descrevemos como implantar a transformação de dados entre o MongoDB Atlas e o Google Cloud. Neste documento, você implantará um processo de extração, transformação e carregamento (ETL) entre dados do MongoDB Atlas para o BigQuery.

Estas instruções são destinadas a administradores de dados que querem usar o BigQuery para realizar análises complexas sobre os dados operacionais armazenados no MongoDB Atlas. Você precisa conhecer o MongoDB Atlas, o BigQuery e o Dataflow.

Arquitetura

O diagrama a seguir mostra a arquitetura de referência que você usa ao implantar essa solução.

Arquitetura de transformação de dados entre o MongoDB Atlas e o Google Cloud

Conforme mostrado no diagrama, há três modelos do Dataflow que processam o processo de integração. O primeiro modelo, MongoDB para BigQuery, é um pipeline em lote que lê documentos do MongoDB e os grava no BigQuery. O segundo modelo, BigQuery para MongoDB, é um modelo em lote que pode ser usado para ler os dados analisados do BigQuery e gravá-los no MongoDB. O terceiro modelo, MongoDB para BigQuery (CDC), é um pipeline de streaming que funciona com os fluxos de alterações do MongoDB para processar alterações nos dados operacionais. Para mais detalhes, consulte Transformação de dados entre o MongoDB Atlas e o Google Cloud.

Objetivos

As etapas de implantação a seguir demonstram como usar o modelo do MongoDB para o BigQuery a fim de executar o processo de ETL entre os dados do MongoDB Atlas para o BigQuery. Para implantar esse processo de ETL, realize as seguintes tarefas:

  • Provisionar um cluster do MongoDB Atlas no Google Cloud.
  • Carregue dados no cluster do MongoDB.
  • Configurar o acesso ao cluster.
  • Configurar uma tabela do BigQuery no Google Cloud.
  • Crie e monitore o job do Dataflow que transfere os dados do MongoDB para o BigQuery.
  • Validar as tabelas de saída no BigQuery.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Saiba mais em Limpeza.

Antes de começar

Conclua as etapas a seguir para configurar um ambiente da arquitetura do MongoDB para o BigQuery.

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative as APIs BigQuery and Dataflow.

    Ative as APIs

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative as APIs BigQuery and Dataflow.

    Ative as APIs

Instalar o MongoDB Atlas

Nesta seção, você usará o Cloud Marketplace para instalar uma instância do MongoDB Atlas. Estas instruções presumem que você não tenha uma conta do MongoDB. Para ver todos os detalhes sobre como configurar uma assinatura e vincular sua conta de faturamento do Google à sua conta do MongoDB, consulte Marketplace de autoatendimento do Google Cloud na documentação do MongoDB.

  1. No console do Google Cloud, expanda o menu de navegação e selecione Marketplace.
  2. Na caixa de pesquisa do Marketplace, digite MongoDB Atlas.
  3. Nos resultados da pesquisa, selecione MongoDB Atlas (Pagar por utilização).
  4. Na página MongoDB Atlas (pagamento por utilização), consulte a visão geral dos Termos e Condições e clique em Inscrever-se com o MongoDB.
  5. Na página de assinatura do MongoDB, selecione sua conta de faturamento, aceite os termos e clique em Assinar.
  6. Clique no botão Registrar com MongoDB e crie uma conta do MongoDB.
  7. Na página que solicita a seleção de uma organização, selecione a organização do MongoDB em que sua conta de faturamento do Google Cloud será vinculada.
  8. Aguarde o Google Cloud terminar de sincronizar sua organização.

Quando as contas forem sincronizadas, a página MongoDB Atlas (pagamento por utilização) no console do Google Cloud será atualizada para exibir um botão Gerenciar no provedor. de dois minutos.

Criar um cluster do MongoDB Atlas

Nesta seção, você vai criar um cluster do MongoDB. Durante o processo de criação, você seleciona as seguintes informações:

  • O tipo de cluster. Selecione o nível do cluster com base nos requisitos da sua infraestrutura.
  • A região preferida do seu cluster. Recomendamos que você selecione a região mais próxima da sua localização física.

Para detalhes sobre como criar e implantar um cluster gratuito do MongoDB, consulte Implantar um cluster gratuito na documentação do MongoDB.

Para criar e configurar o cluster, siga estas etapas:

  1. No console do Google Cloud, na página MongoDB Atlas (pagamento por utilização), clique em Gerenciar no provedor.
  2. Na página de login do MongoDB, clique em Google e na Conta do Google usada para instalar o MongoDB Atlas.

    Como um novo usuário, a IU do MongoDB abre automaticamente a página Implantações do banco de dados.

  3. Na interface do Atlas, na página Implantações do banco de dados, clique em Criar.

  4. Na página Criar um cluster, clique em Compartilhado.

    A opção Shared fornece um cluster gratuito que pode ser usado para testar essa arquitetura de referência.

  5. Na página Criar um cluster compartilhado, na seção Provedor e região de nuvem, faça o seguinte:

    1. Selecione Google Cloud.
    2. Selecione a região geográfica mais próxima de você e que tenha as características que você quer.
  6. Na seção Nível do cluster, selecione a opção M0.

    Os clusters M0 são gratuitos e adequados para pequenos aplicativos de prova de conceito.

  7. Em Nome do cluster, insira o nome do cluster.

  8. Clique em Criar cluster para implantar o cluster.

Configurar o cluster do MongoDB

Nesta seção, você vai concluir os seguintes procedimentos:

  • Carregar os dados de amostra no cluster.
  • Como configurar o acesso ao cluster.
  • Como se conectar ao cluster

Carregue dados de amostra no cluster do MongoDB

Agora que você criou um cluster do MongoDB, é preciso carregar dados nele. O MongoDB carrega uma variedade de conjuntos de dados de amostra. É possível usar qualquer um desses conjuntos de dados para testar a implantação. No entanto, é recomendável usar um conjunto de dados semelhante aos dados reais que você vai usar na implantação da produção.

Para saber detalhes sobre como carregar os dados de amostra, consulte Carregar os dados de amostra na documentação do MongoDB.

Para carregar os dados de amostra, siga estas etapas:

  1. Na interface do Atlas, na página Implantações do banco de dados, localize o cluster que você acabou de implantar.
  2. Clique no botão Elipses (...) e depois em Carregar conjunto de dados de amostra.

    O carregamento dos dados de amostra leva aproximadamente cinco minutos.

  3. Revise os conjuntos de dados de amostra e anote qual coleção você quer usar ao testar esta implantação.

Configurar o acesso ao cluster

Para conectar o cluster, você precisa criar um usuário de banco de dados e definir o endereço IP do cluster:

  • O usuário do banco de dados é separado do usuário do MongoDB. Você precisa que o usuário do banco de dados se conecte ao MongoDB pelo Google Cloud.
  • Para esta arquitetura de referência, use o bloco CIDR de 0.0.0.0/0 como seu endereço IP. Esse bloco CIDR permite o acesso de qualquer lugar e só é adequado para uma implantação de prova de conceito, como esta. No entanto, ao implantar uma versão de produção dessa arquitetura, insira um intervalo de endereços IP adequado para o aplicativo.

Para detalhes sobre como configurar um usuário de banco de dados e o endereço IP do cluster, consulte Configurar o acesso ao cluster com o assistente de início rápido na documentação do MongoDB.

Para configurar o acesso ao cluster, siga estas etapas:

  1. Na seção Segurança do painel de navegação à esquerda, clique em Guia de início rápido.
  2. Na página Nome de usuário e senha, faça o seguinte para criar o usuário do banco de dados:
    1. Em Nome de usuário, insira o nome do usuário do banco de dados.
    2. Em Senha, insira a senha do banco de dados.
    3. Clique em Create User.
  3. Na página Nome de usuário e senha, faça o seguinte para adicionar um endereço IP ao cluster:

    1. Em Endereço IP, digite 0.0.0.0/0.

      Para o ambiente de produção, selecione o endereço IP apropriado para ele.

    2. (Opcional) Em Descrição, digite uma descrição do cluster.

    3. Clique em Adicionar entrada.

  4. Clique em Finish and Close.

Conectar-se ao seu cluster

Após configurar o acesso ao cluster, agora é preciso se conectar a ele. Para saber detalhes sobre como se conectar ao cluster, consulte Conectar-se ao cluster na documentação do MongoDB.

Siga estas etapas para se conectar ao cluster:

  1. Na interface do Atlas, na página Implantações do banco de dados, localize o cluster que você acabou de implantar.
  2. Selecione Conectar.
  3. Na página Conectar, clique na opção Bússola.
  4. Localize o campo Copy the connection string e, em seguida, copie e salve a string de conexão do MongoDB. Use essa string de conexão ao executar os modelos do Dataflow.

    A string de conexão tem a seguinte sintaxe:

    mongodb+srv://<UserName>:<Password>@<HostName>
    

    A string de conexão tem automaticamente o nome de usuário do usuário do banco de dados que você criou na etapa anterior. No entanto, você precisará informar a senha do usuário do banco de dados quando usar essa string para se conectar.

  5. Clique em Fechar.

Criar um conjunto de dados no BigQuery

Ao criar um conjunto de dados no BigQuery, você só precisa inserir o nome dele e selecionar uma localização geográfica para ele. No entanto, há campos opcionais que podem ser definidos no conjunto de dados. Para mais informações sobre esses campos opcionais, consulte Criar conjuntos de dados.

  1. No Console do Google Cloud, acesse a página BigQuery.

    Acessar o BigQuery

  2. No painel Explorador, selecione o projeto em que você quer criar o conjunto de dados.

  3. Expanda a opção Ações e clique em Criar conjunto de dados.

  4. Na página Criar conjunto de dados, faça o seguinte:

    1. Em ID do conjunto de dados, insira um nome exclusivo para o conjunto de dados.
    2. Em Tipo de local, escolha um local geográfico para o conjunto de dados. Após a criação de um conjunto de dados, o local não pode ser alterado.

      Se você escolher EU ou uma região com base na UE para o local do conjunto de dados, os principais dados de cliente do BigQuery ficarão na União Europeia. Para uma definição dos principais dados do cliente do BigQuery, consulte os Termos específicos do serviço.

    3. Clique em Criar conjunto de dados.

Criar, monitorar e validar um job em lote do Dataflow

No Dataflow, use as instruções a seguir para criar um job único em lote que carregue os dados de amostra do MongoDB para o BigQuery. Depois de criar o job em lote, monitore o andamento na interface de monitoramento do Dataflow. Para ver detalhes completos sobre o uso da interface de monitoramento, consulte Usar a interface de monitoramento do Dataflow.

  1. No Console do Google Cloud, abra a página Dataflow.

    Acessar o Dataflow

  2. Clique em Criar job usando um modelo.

  3. Na página Criar job a partir de um modelo, siga estas etapas:

    1. Em Nome do job, insira um nome exclusivo, como mongodb-to-bigquery-batch. Verifique se nenhum outro job do Dataflow com esse nome está sendo executado nesse projeto.
    2. Em Endpoint regional, selecione o mesmo local do conjunto de dados do BigQuery que você acabou de criar.
    3. Em Modelo do Dataflow, na lista Processar dados em massa (lote), selecione MongoDB para BigQuery.
    4. Na seção Parâmetros obrigatórios, insira os seguintes parâmetros:

      1. Para URI de conexão do MongoDB, insira a string de conexão do Atlas MongoDB.
      2. Em Banco de dados do Mongo, insira o nome do banco de dados criado anteriormente.
      3. Para a Coleção Mongo, insira o nome da coleção de amostra que você anotou anteriormente.
      4. Para a tabela de destino do BigQuery, clique em Procurar e selecione a tabela do BigQuery que você criou na etapa anterior.
      5. Em Opção do usuário, digite NONE ou FLATTEN.

        NONE vai carregar o documento inteiro no formato de string JSON no BigQuery. FLATTEN nivela o documento em um nível. Se você não fornecer uma UDF, a opção FLATTEN só funcionará com documentos que tenham um esquema fixo.

      6. Para iniciar o job, clique em Executar job.

  4. Use as etapas a seguir para abrir a interface de monitoramento do Dataflow, em que é possível verificar o progresso do job em lote e confirmar se ele é concluído sem erros:

    1. No console do Google Cloud, no projeto dessa implantação, abra o menu de navegação.
    2. No Google Analytics, clique em Dataflow.
  5. Depois que o pipeline for executado com êxito, faça o seguinte para validar a saída da tabela:

    1. No BigQuery, abra o painel do Explorer.
    2. Expanda seu projeto, clique no conjunto de dados e clique duas vezes na tabela.

      Agora você pode visualizar os dados do MongoDB na tabela.

Limpar

Para evitar cobranças nas suas contas do MongoDB e do Google Cloud, pause ou encerre o cluster do MongoDB Atlas e exclua o projeto do Google Cloud criado para essa arquitetura de referência.

Pausar ou encerrar o cluster do MongoDB Atlas

O procedimento a seguir fornece os princípios básicos para pausar o cluster. Para saber todos os detalhes, consulte Pausar, retomar ou encerrar um cluster na documentação do MongoDB.

  1. Na IU do Atlas, acesse a página Implantações do banco de dados do projeto do Atlas.
  2. No cluster que você quer pausar, clique em .
  3. Clique em Pausar cluster.
  4. Clique em Pausar cluster para confirmar sua escolha.

Excluir o projeto

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir

Colaboradores

Autores:

Outros colaboradores:

Para ver perfis não públicos do LinkedIn, faça login.