Replique dados para o BigQuery praticamente em tempo real com o Datastream

Saiba como replicar dados de uma base de dados de origem para conjuntos de dados do BigQuery usando o Datastream.


Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:

Visita guiada


Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Datastream API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. Make sure that you have the following role or roles on the project: Support User, Datastream Admin, Monitoring Metrics Scopes Viewer, Gemini for Google Cloud Settings Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Aceder ao IAM
    2. Selecione o projeto.
    3. Clique em Conceder acesso.
    4. No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.

    5. Na lista Selecionar uma função, selecione uma função.
    6. Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
    7. Clique em Guardar.
  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that billing is enabled for your Google Cloud project.

  8. Enable the Datastream API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  9. Make sure that you have the following role or roles on the project: Support User, Datastream Admin, Monitoring Metrics Scopes Viewer, Gemini for Google Cloud Settings Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Aceder ao IAM
    2. Selecione o projeto.
    3. Clique em Conceder acesso.
    4. No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.

    5. Na lista Selecionar uma função, selecione uma função.
    6. Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
    7. Clique em Guardar.
  10. Se quiser criar uma configuração de conetividade privada para uma rede da VPC padrão ou partilhada, tem de concluir pré-requisitos adicionais. Para mais informações, consulte o artigo Crie uma configuração de conetividade privada.

    Requisitos

    O fluxo de dados oferece várias opções de origem, opções de destino e métodos de conetividade de rede.

    Neste início rápido, vamos assumir que está a replicar dados de uma base de dados do Cloud SQL para PostgreSQL para o BigQuery. Para a base de dados de origem, deve conseguir configurar a instância da base de dados para aceitar ligações de endereços IP públicos do Datastream.

    Como não podemos saber os detalhes específicos do seu ambiente, não podemos fornecer passos detalhados no que diz respeito à configuração de rede.

    Para este início rápido, vai selecionar Lista de autorizações de IPs como método de conetividade de rede. A lista de IPs permitidos é uma funcionalidade de segurança frequentemente usada para limitar e controlar o acesso aos dados na base de dados de origem a utilizadores fidedignos. Pode usar listas de autorização de IPs para criar listas de endereços IP ou intervalos de IP fidedignos a partir dos quais os seus utilizadores e outros serviços na nuvem, como o Datastream, podem aceder a estes dados. Para usar listas de autorização de IPs, tem de abrir a base de dados do Cloud SQL de origem a ligações recebidas do Datastream.

    Crie perfis de ligação

    Ao criar perfis de associação, armazena algumas informações básicas sobre a origem e o destino no Datastream. Em seguida, pode reutilizar estas informações em várias streams.

    Neste início rápido, vai selecionar PostgreSQL como o tipo de perfil do seu perfil de ligação de origem e BigQuery como o tipo de perfil do seu perfil de ligação de destino. O Datastream usa as informações nos perfis de ligação para se ligar à base de dados de origem e ao BigQuery.

    Crie um perfil de associação de origem para a base de dados PostgreSQL

    1. Aceda à página Perfis de ligação do Datastream na Google Cloud consola.

      Aceda à página Perfis de ligação

    2. Clique em CRIAR PERFIL.

    3. Na página Crie um perfil de associação, clique no tipo de perfil PostgreSQL (porque quer criar um perfil de associação de origem para a base de dados PostgreSQL).

    4. Forneça as seguintes informações na secção Definir definições de ligação da página Criar perfil do PostgreSQL:

      • Introduza My Source Connection Profile como o nome do perfil de ligação para a base de dados de origem.
      • Mantenha o ID do perfil de associação gerado automaticamente.
      • Selecione a região onde o perfil de ligação vai ser armazenado.

      • Introduza os Detalhes da ligação:

        • No campo Nome do anfitrião ou IP, introduza um nome do anfitrião ou um endereço IP público que o Datastream possa usar para estabelecer ligação à base de dados PostgreSQL de origem. Está a fornecer um endereço IP público porque a lista de autorizações de IP vai ser usada como o método de conetividade de rede para este início rápido.
        • No campo Porta, introduza o número da porta reservado para a base de dados de origem. Para uma base de dados PostgreSQL, a porta predefinida é normalmente 5432.
        • Introduza um nome de utilizador e uma palavra-passe para fazer a autenticação na base de dados de origem.
        • No campo Base de dados, introduza o nome que identifica a instância da base de dados. Para bases de dados PostgreSQL, este valor é normalmente postgres.
    5. Na secção Definir definições de associação, clique em CONTINUAR. A secção Definir método de conetividade da página Criar perfil do PostgreSQL está ativa.

    6. Escolha o método de rede que quer usar para estabelecer a conetividade entre a base de dados de origem e o Datastream. Para este início rápido, use o menu pendente Método de conetividade para selecionar Lista de autorizações de IPs como método de rede.

    7. Configure a base de dados de origem para permitir ligações recebidas dos endereços IP públicos do Datastream apresentados.

    8. Na secção Definir método de conetividade, clique em CONTINUAR. A secção Testar perfil de associação da página Criar perfil do PostgreSQL está ativa.

    9. Clique em EXECUTAR TESTE para verificar se a base de dados PostgreSQL de origem e o Datastream conseguem comunicar entre si.

    10. Verifique se é apresentado o estado "Teste aprovado".

    11. Se o teste falhar, pode resolver o problema na parte adequada do fluxo e, em seguida, voltar a testar. Consulte a página Diagnosticar problemas para ver os passos de resolução de problemas.

    12. Clique em CRIAR.

    Crie um perfil de ligação de destino para o BigQuery

    1. Aceda à página Perfis de ligação do Datastream na Google Cloud consola.

      Aceda à página Perfis de ligação

    2. Clique em CRIAR PERFIL.

    3. Na página Criar um perfil de ligação, clique no tipo de perfil BigQuery (porque quer criar um perfil de ligação de destino para o BigQuery).

    4. Forneça as seguintes informações na página Criar perfil do BigQuery:

      • Introduza My Destination Connection Profile como o nome do perfil de associação para o seu serviço BigQuery de destino.
      • Mantenha o ID do perfil de associação gerado automaticamente.
      • Selecione a região onde o perfil de ligação vai ser armazenado.
    5. Clique em CRIAR.

    Depois de criar um perfil de ligação de origem para a base de dados PostgreSQL e um perfil de ligação de destino para o BigQuery, pode usá-los para criar um fluxo.

    Crie uma stream

    Nesta secção, cria um stream para replicar dados de uma base de dados PostgreSQL de origem para o BigQuery.

    A criação de uma stream inclui:

    • Definir as definições da stream.
    • Selecionar o perfil de associação que criou para a base de dados de origem (o perfil de associação de origem). Para este início rápido, este é o My Source Connection Profile.
    • Configurar informações sobre a base de dados de origem para a stream especificando as propriedades de replicação e as tabelas e os esquemas na base de dados de origem que o Datastream:
      • Pode transferir para o destino.
      • Está restrito de ser transferido para o destino.
    • Determinar se o Datastream vai preencher os dados do histórico, bem como transmitir as alterações contínuas para o destino, ou transmitir apenas as alterações aos dados.
    • Selecionando o perfil de associação que criou para o BigQuery (o perfil de associação de destino). Para este início rápido, este é o Meu perfil de associação de destino.
    • Configurar informações sobre o destino da stream, como a configuração dos conjuntos de dados do BigQuery.
    • Validar a stream.

    Defina as definições da stream

    1. Aceda à página Streams para o fluxo de dados na Google Cloud consola.

      Aceda à página Streams

    2. Clique em CRIAR STREAM.

    3. Indique as seguintes informações no painel Definir detalhes da stream da página Criar stream:

      • Introduza My Stream como o nome da stream.
      • Mantenha o ID da stream gerado automaticamente.
      • No menu Região, selecione a região onde criou o perfil de associação de origem.
      • No menu Tipo de origem, selecione o tipo de perfil PostgreSQL.
      • No menu Tipo de destino, selecione o tipo de perfil BigQuery.
    4. Reveja os pré-requisitos necessários gerados automaticamente para refletir a forma como o seu ambiente tem de ser preparado para uma stream. Estes pré-requisitos incluem como configurar a base de dados de origem e como configurar o BigQuery.

    5. Clique em CONTINUAR. É apresentado o painel Definir perfil de ligação do PostgreSQL da página Criar stream.

    Especifique informações sobre o perfil de associação de origem

    1. No menu Perfil de associação de origem, selecione o perfil de associação de origem para a base de dados PostgreSQL.

    2. Clique em EXECUTAR TESTE para verificar se a base de dados de origem e o Datastream conseguem comunicar entre si.

      Se o teste falhar, é apresentado o problema associado ao perfil de ligação. Consulte a página Diagnosticar problemas para ver os passos de resolução de problemas. Faça as alterações necessárias para corrigir o problema e, em seguida, volte a testar.

    3. Clique em CONTINUAR. É apresentado o painel Configurar origem da stream da página Criar stream.

    Configure informações sobre a base de dados de origem da stream

    1. Indique os nomes do Replication slot e da Publication da sua base de dados de origem. A publicação e o espaço de replicação foram criados quando configurou a sua base de dados PostgreSQL.

    2. Use o menu Objetos a incluir para especificar as tabelas e os esquemas na base de dados de origem que o Datastream vai replicar no BigQuery. O menu só é carregado se a sua base de dados tiver até 5000 objetos.

      Para este início rápido, quer que o Datastream transfira todas as tabelas e esquemas. Por conseguinte, selecione Todas as tabelas de todos os esquemas no menu.

    3. Clique em CONTINUAR. O painel Definir perfil de ligação do BigQuery da página Criar stream é apresentado.

    Selecione um perfil de ligação de destino

    1. No menu Perfil de ligação de destino, selecione o perfil de ligação de destino do BigQuery.

    2. Clique em CONTINUAR. É apresentado o painel Configurar destino da stream da página Criar stream.

    Configure informações sobre o destino da stream

    1. Escolha a opção Conjunto de dados para cada esquema, para que o Datastream crie automaticamente um conjunto de dados no BigQuery para cada esquema na base de dados de origem.

    2. Selecione o Tipo de localização onde os conjuntos de dados vão ser criados no BigQuery. Embora esta localização não tenha de ser a mesma que a região onde a stream de dados é criada, recomendamos que mantenha todos os recursos, bem como os conjuntos de dados, na mesma região para otimizar os custos e o desempenho.

    3. Defina o Prefixo como quickstart-. O Datastream adiciona esta string ao início de todos os conjuntos de dados que cria no BigQuery.

    4. Mantenha o valor no Modo de gravação de streams definido como Unir. Desta forma, as tabelas no BigQuery permanecem sincronizadas com a origem.

    5. Deixe o valor na lista pendente Especifique o limite de dados desatualizados definido como 15 minutos. O BigQuery usa este valor para decidir o quão desatualizados os seus dados podem estar quando são consultados.

    6. Clique em CONTINUAR. É apresentado o painel Reveja os detalhes da stream e crie-a da página Criar stream.

    Crie a stream

    1. Verifique os detalhes acerca do stream, bem como os perfis de ligação de origem e destino que o stream vai usar para transferir dados de uma base de dados PostgreSQL de origem para o BigQuery.

    2. Clique em EXECUTAR VALIDAÇÃO para validar a stream. Ao validar uma stream, o Datastream verifica se a origem está configurada corretamente, valida se a stream consegue estabelecer ligação à origem e ao destino, e verifica a configuração ponto a ponto da stream.

    3. Depois de todas as verificações de validação serem aprovadas, clique em CRIAR.

    4. Na caixa de diálogo Criar stream?, clique em CRIAR.

    Inicie a stream

    Na secção anterior do início rápido, criou uma stream, mas não a iniciou. Pode fazê-lo agora.

    Para este início rápido, cria e inicia uma stream separadamente, caso o processo de criação da stream incorra num aumento da carga na base de dados de origem. Para adiar esse carregamento, cria a stream sem a iniciar e, em seguida, inicia-a quando o carregamento puder ser incorrido.

    Ao iniciar a stream, o Datastream pode transferir dados, esquemas e tabelas da base de dados de origem para o destino.

    1. Aceda à página Streams para o fluxo de dados na Google Cloud consola.

      Aceda à página Streams

    2. Selecione a caixa de verificação à esquerda da stream que quer iniciar. Para este início rápido, este é o Meu stream.

    3. Clique em INICIAR.

    4. Na caixa de diálogo, clique em INICIAR. O estado da stream muda de Not started para Starting e, em seguida, para Running.

      Depois de iniciar uma stream, pode verificar se o Datastream transferiu dados da base de dados de origem para o destino.

    Valide a stream

    Nesta secção, confirma que o Datastream transfere os dados de todas as tabelas da base de dados PostgreSQL de origem para o BigQuery.

    1. Aceda à página Streams para o fluxo de dados na Google Cloud consola.

      Aceda à página Streams

    2. Clique na stream que criou. Para este início rápido, este é o Meu stream.

    3. Na página Detalhes da stream, clique no link apresentado abaixo do campo Caminho de gravação do destino. O BigQuery Studio é aberto num separador separado.

    4. Verifique se vê conjuntos de dados e tabelas que representam esquemas e tabelas da base de dados PostgreSQL de origem.

    5. Clique numa das tabelas para ver uma pré-visualização dos seus dados.

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    1. Use a Google Cloud consola para eliminar o projeto, a stream do Datastream, os perfis de ligação e os conjuntos de dados do BigQuery.

    Ao limpar os recursos que criou no Datastream, estes não ocupam quota e não lhe são faturados no futuro. As secções seguintes descrevem como eliminar ou desativar estes recursos.

    Elimine o projeto

    A forma mais fácil de eliminar a faturação é eliminar o projeto que criou para este início rápido.

    1. Na Cloud Console, aceda à página Faça a gestão de recursos.

      Aceda à página Gerir recursos

    2. Na lista de projetos, selecione o projeto que quer eliminar e, de seguida, clique em Eliminar.

    3. Na caixa de diálogo, escreva o ID do projeto e, de seguida, clique em Encerrar para eliminar o projeto.

    Elimine a stream

    1. Aceda à página Streams para o fluxo de dados na Google Cloud consola.

      Aceda à página Streams

    2. Clique na stream que quer eliminar. Para este início rápido, este é o Meu stream.

    3. Clique em PAUSAR.

    4. Na caixa de diálogo, clique em PAUSAR.

    5. No painel Estado da stream da página Detalhes da stream, verifique se o estado da stream é Paused.

    6. Clique em ELIMINAR.

    7. Na caixa de diálogo, introduza Delete no campo de texto e, de seguida, clique em ELIMINAR.

    Elimine os perfis de ligação

    1. Aceda à página Perfis de ligação do Datastream na Google Cloud consola.

      Aceda à página Perfis de ligação

    2. Selecione a caixa de verificação de cada perfil de associação que quer eliminar. Para este início rápido, selecione as caixas de verificação O meu perfil de ligação de origem e O meu perfil de ligação de destino.

    3. Clique em ELIMINAR.

    4. Na caixa de diálogo, clique em ELIMINAR.

    Elimine os seus conjuntos de dados do BigQuery

    1. Aceda à página BigQuery Studio na Google Cloud consola.

      Aceda ao BigQuery Studio

    2. Expanda o nó do projeto onde criou este início rápido.

    3. Para cada conjunto de dados que quer eliminar, clique no menu Ver ações e, de seguida, em Eliminar.

    4. Na caixa de diálogo, introduza delete no campo de texto e, de seguida, clique em ELIMINAR.

    O que se segue?