Criar um stream

Visão geral

Nesta seção, você aprenderá a criar um stream. O Datastream usa esse fluxo para transferir dados de um banco de dados Oracle, MySQL, SQL Server (pré-lançamento) ou PostgreSQL de origem para o BigQuery ou o Cloud Storage.

A criação de um stream inclui o seguinte:

  • Como definir as configurações da transmissão.
  • Selecione o perfil de conexão que você criou para o banco de dados Oracle, MySQL, SQL Server (Preview) ou PostgreSQL (o perfil de conexão de origem) ou crie um perfil de conexão de origem, caso não tenha criado um.
  • Configure informações sobre o banco de dados de origem para o fluxo especificando as tabelas e os esquemas no banco de dados de origem que o Datastream:
    • Pode ser transferido para o destino.
    • esteja impedido de ser transferido para o destino;
  • Determinar se o Datastream preencherá dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados. Ao ativar o preenchimento histórico, você pode especificar esquemas e tabelas no banco de dados de origem que o Datastream não pode preencher no destino.

  • Selecione o perfil de conexão que você criou para o BigQuery ou o Cloud Storage (o perfil de conexão de destino) ou crie um perfil de conexão de destino, caso não tenha criado um.

  • Configurar informações sobre o destino do stream. Exemplos dessas informações:

    • Para o BigQuery:
      • Os conjuntos de dados em que o Datastream vai replicar esquemas, tabelas e dados de um banco de dados de origem.
    • No Cloud Storage:
      • A pasta do bucket de destino para o qual o Datastream transferirá esquemas, tabelas e dados de um banco de dados de origem.
  • Validação do stream para garantir que ele será executado com êxito. Como validar verificações de stream:

    • Indica se a fonte está configurada corretamente para permitir que o Datastream faça streaming de dados.
    • Se a transmissão pode se conectar à origem e ao destino.

    • A configuração completa do stream.

Definir configurações do stream

  1. Acesse a página Streams no Console do Google Cloud.

    Acessar a página "Mural"

  2. Clique em CRIAR STREAM.

  3. Use a tabela a seguir para preencher os campos da seção Definir detalhes do fluxo da página Criar fluxo:

    CampoDescrição
    Nome do fluxoInsira o nome de exibição do stream.
    ID do streamO Datastream preenche esse campo automaticamente com base no nome do stream que você inserir. É possível manter o ID gerado automaticamente ou alterá-lo.
    RegiãoSelecione a região em que o stream é armazenado. Assim como todos os recursos, os streams são salvos em uma região. A seleção da região não afeta a capacidade do stream de se conectar ao banco de dados de origem ou ao destino, mas pode afetar a disponibilidade se a região apresentar inatividade.
    Tipo de origem

    Selecione o tipo de perfil especificado ao criar um perfil de conexão para um banco de dados Oracle, MySQL, SQL Server (Preview) ou PostgreSQL de origem. Se você ainda não criou um perfil de conexão para o banco de dados de origem, crie um agora.

    Tipo de destino

    Selecione o tipo de perfil que você especificou ao criar um perfil de conexão para um destino do BigQuery ou do Cloud Storage. Se você ainda não criou um perfil de conexão para o destino, crie um agora.

    Criptografia

    Por padrão, seus dados são criptografados com uma chave gerenciada pelo Google Cloud. Se você quiser gerenciar a criptografia, use uma chave de criptografia gerenciada pelo cliente (CMEK):

    1. Marque a caixa de seleção Usar uma CMEK.
    2. No menu suspenso Selecionar uma CMEK, escolha sua CMEK.

    Se a chave não aparecer, clique em ENTER KEY RESOURCE NAME para fornecer o nome de recurso da chave que você quer usar. Por exemplo, é possível inserir projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key no campo Nome do recurso da chave e clicar em SALVAR.

  4. Também é possível usar rótulos para organizar os recursos do Datastream.

    1. Para criar um rótulo, clique em ADICIONAR MARCADOR e insira o par de chave-valor.
    2. Para remover o rótulo, clique no ícone da lixeira à direita da linha que contém esse rótulo.
  5. Se quiser, adicione políticas de alertas ao seu stream. As políticas de alertas definem quando e como você quer receber notificações sobre falhas de stream.

    1. Para criar uma política de alertas, clique em Adicionar política de alertas.
    2. A página Criar política de alertas aparece no Cloud Monitoring. Nesta página, você define a política de alertas em caso de falha no stream.

    Para mais informações sobre políticas de alertas, consulte Como gerenciar políticas de alertas com base em métricas.

  6. Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos podem incluir como configurar o banco de dados de origem e como conectá-lo ao destino. É melhor concluir esses pré-requisitos nessa etapa, mas é possível concluí-los a qualquer momento antes do teste ou do início da transmissão. Para mais informações sobre esses pré-requisitos, consulte Fontes.

  7. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de banco de dados de origem.

Especificar informações sobre o perfil de conexão de origem

  1. Se você criou um perfil de conexão de origem para Oracle, MySQL, SQL Server (Preview) ou PostgreSQL, selecione-o na lista de perfis de conexão.

    Se você não tiver criado um perfil de conexão de origem, crie um clicando em CRIAR PERFIL DE CONEXtO na parte inferior da lista suspensa. Depois siga as mesmas etapas de Criar perfis de conexão

  2. Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.

    Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.

  3. Clique em CONTINUAR. O painel Configurar origem da transmissão é exibido na página Criar stream.

Configurar informações sobre o banco de dados de origem para o fluxo

Configurar o banco de dados de origem do PostgreSQL

Se você selecionou o PostgreSQL como banco de dados de origem, defina as propriedades de replicação dele.

  1. Na seção Propriedades de replicação, especifique as seguintes propriedades:
    1. No campo Nome do slot de replicação, digite o nome do slot criado especificamente para esse stream. O servidor de banco de dados usa esse slot para enviar eventos ao Datastream.
    2. No campo Nome da publicação, digite o nome da publicação criada no banco de dados. Uma publicação é um grupo de todas as tabelas que você quer replicar as mudanças usando esse stream.
  2. Clique em Continuar. Siga as etapas descritas na seção Como configurar bancos de dados de origem abaixo.

Configurar bancos de dados de origem

  1. Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos a serem incluídos para especificar as tabelas e os esquemas no banco de dados de origem que o Datastream pode transferir para o destino.

    1. Se você quiser que o Datastream transfira todas as tabelas e esquemas, selecione Todas as tabelas de todos os esquemas.
    2. Se você quiser que o Datastream transfira apenas tabelas e esquemas específicos, selecione Esquemas e tabelas específicos e marque as caixas de seleção correspondentes a eles.

    3. Para fornecer uma definição textual das tabelas e dos esquemas que serão transferidos pelo Datastream, selecione Personalizado e, no campo Critérios de correspondência do objeto, insira os esquemas e as tabelas que o Datastream vai extrair.

      Se o banco de dados tiver um grande número de tabelas e esquemas, recomendamos o uso da opção Personalizado, porque algumas tabelas e esquemas podem não estar incluídos na lista de objetos a serem extraídos.

  2. Se quiser, expanda o nó Selecionar objetos a serem excluídos. No campo Objetos para excluir, insira as tabelas e os esquemas no banco de dados de origem que você quer restringir a extração do Datastream. A lista Objetos a serem excluídos tem precedência sobre a lista Objetos a serem incluídos. Se um objeto atender aos critérios nas listas de inclusão e exclusão, ele será excluído do fluxo.

  3. Se preferir, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
    1. Selecione a opção Automático para fazer streaming de todos os dados existentes, além das alterações dos dados, da origem para o destino.

      No campo Objetos excluídos do preenchimento automático, insira as tabelas e os esquemas no banco de dados de origem que você quer impedir que o Datastream preencha no destino.

    2. Selecione a opção Manual para transmitir apenas as alterações dos dados para o destino.
  4. Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.

Selecione um perfil de conexão de destino

  1. Se você criou um perfil de conexão de destino, selecione-o na lista de perfis de conexão.

    Se você não tiver criado um perfil de conexão de destino, crie um clicando em CRIAR PERFIL DE CONEXtO na parte inferior da lista suspensa. Depois siga as mesmas etapas de Criar perfis de conexão

  2. Clique em CONTINUAR. O painel Configurar destino do stream é exibido na página Criar stream.

Configurar informações sobre o destino do stream

Destino do BigQuery

  1. Em Configurar a conexão do Datastream com o BigQuery, especifique como o Datastream deve fazer streaming para um conjunto de dados do BigQuery. Selecione uma das seguintes opções:

    • Conjunto de dados para cada esquema: o Datastream cria um conjunto de dados do BigQuery para cada esquema de origem, com base no nome do esquema.

      Se você selecionar essa opção, o Datastream vai criar um conjunto de dados no projeto que contém o stream para cada esquema no banco de dados de origem.

      Além disso, ao selecionar a opção Conjunto de dados para cada esquema:

      1. No campo Local, insira a região em que você quer que o novo conjunto de dados seja criado.
      2. (Opcional) No campo Prefixo, defina um prefixo para o conjunto de dados criado pelo stream. A string especificada é adicionada ao nome do esquema de origem. Por exemplo, se o esquema for chamado <mySchema> e você definir o prefixo do conjunto de dados como <myPrefix>, o Datastream criará um conjunto de dados chamado <myPrefix><mySchema>.
      3. Especifique como você quer que seus dados sejam criptografados no BigQuery selecionando uma chave de criptografia gerenciada pelo Google ou pelo cliente.
    • Conjunto de dados único para todos os esquemas: o Datastream cria todas as tabelas dentro do conjunto de dados atual do BigQuery especificado. Cada tabela criada pelo Datastream é nomeada usando uma combinação do nome do esquema de origem e do nome da tabela, separados por um sublinhado (por exemplo, <mySchemaName>_<myTableName>).

  2. Especifique o limite de desatualização dos dados. Selecione um limite para equilibrar o desempenho e o custo das consultas do BigQuery em comparação com a atualização de dados. O BigQuery aplica as alterações em segundo plano de maneira contínua ou no ambiente de execução da consulta, de acordo com o limite de desatualização. Uma inatividade mais baixa (dados mais recentes) pode aumentar os custos de processamento do BigQuery.

  3. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Destino no Cloud Storage

  1. Opcionalmente, no campo Prefixo do caminho do stream, insira a pasta do bucket de destino em que o Datastream transferirá esquemas, tabelas e dados de um banco de dados de origem.

    Por exemplo, se você quiser que o Datastream transfira dados do banco de dados de origem para a pasta /root/example no bucket de destino, insira /root/example no campo Prefixo do caminho do stream.

  2. No campo Formato de saída, escolha o formato de arquivos gravados no Cloud Storage.

  3. Opcional. Se você selecionar o formato JSON, duas caixas de seleção serão exibidas:

    1. Incluir um arquivo de esquema de tipos unificados no caminho do arquivo: se você marcar essa caixa de seleção, o Datastream gravará dois arquivos no Cloud Storage: um arquivo de dados JSON e um arquivo de esquema Avro. O arquivo de esquema tem o mesmo nome do arquivo de dados, com uma extensão .schema. Se você não marcar essa caixa de seleção, o Datastream gravará apenas o arquivo de dados JSON no Cloud Storage. Por padrão, essa caixa de seleção não está marcada.
    2. Ativar compactação gzip: se você marcar essa caixa de seleção, o Datastream usará o utilitário gzip para compactar os arquivos gravados pelo Datastream no Cloud Storage. Se você não marcar essa caixa de seleção, o Datastream gravará os arquivos no Cloud Storage sem compactá-los. Essa caixa de seleção fica marcada por padrão.
  4. Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.

Criar o stream

  1. Verifique os detalhes sobre o stream, bem como os perfis de conexão de origem e destino que o stream usará para transferir dados de um banco de dados de origem para um destino.
  2. Clique emEXECUTAR VALIDAÇÃO para validar o stream. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.

    1. Se o banco de dados de origem for Oracle, o Datastream realizará as seguintes verificações:

      ChecagemDescrição
      Validade da lista de objetosO Datastream verifica se a lista de exclusão não substitui a lista de inclusão.
      Encaminhar conectividade do túnel SSHO Datastream verifica se ele pode se conectar a um Bastion Host por meio de um túnel SSH de encaminhamento.
      Conectividade com o banco de dados OracleO Datastream verifica se ele pode se conectar ao banco de dados Oracle de origem.
      Permissões do usuário da OracleO Datastream verifica se o usuário usado para se conectar ao banco de dados de origem tem todas as permissões necessárias para recuperar esquemas, tabelas e dados do banco de dados. Assim, o Datastream pode fazer streaming dessas informações para o destino.
      Configuração do modo de geração de registrosO Datastream verifica se o modo de geração de registros do banco de dados Oracle está definido como ARCHIVELOG.
      Configuração adicional da geração de registrosO Datastream verifica se a geração de registros complementares está ativada nas tabelas do banco de dados que estão sendo transmitidas da origem para o destino.
      Configuração de registros do arquivoO Datastream verifica se a geração de registros do arquivo está configurada na origem e se os arquivos de registros estão presentes.
      Permissões do Cloud Storage (para destinos do Cloud Storage) O Datastream verifica se ele tem as permissões necessárias para gravar no bucket de destino no Cloud Storage.
    2. Se o banco de dados de origem for o MySQL, o Datastream realizará as seguintes verificações:

      ChecagemDescrição
      Validade da lista de objetosO Datastream verifica se a lista de exclusão não substitui a lista de inclusão.
      Encaminhar conectividade do túnel SSHO Datastream verifica se ele pode se conectar a um Bastion Host por meio de um túnel SSH de encaminhamento.
      Conectividade com o banco de dados MySQLO Datastream verifica se ele pode se conectar ao banco de dados MySQL de origem.
      A geração de registros binários está ativadaO Datastream verifica se os arquivos de registros binários estão configurados corretamente e se há arquivos de registros presentes.
      Configuração do formato do registro binárioO Datastream verifica se o formato de registro binário do banco de dados do MySQL está definido como ROW.
      Permissões de replicaçãoO Datastream verifica se ele tem permissões para replicar um banco de dados MySQL.
      Permissões do Cloud Storage (para destinos do Cloud Storage)O Datastream verifica se ele tem as permissões necessárias para gravar no bucket de destino no Cloud Storage.
    3. Se o banco de dados de origem for PostgreSQL, o Datastream vai realizar as seguintes verificações:

      VerificaçãoDescrição
      Conectividade com o banco de dados PostgreSQLO Datastream verifica se pode se conectar ao banco de dados PostgreSQL de origem.
      A decodificação lógica está ativadaO Datastream verifica se o parâmetro wal_level do banco de dados PostgreSQL está definido como logical.
      Configuração do slot de replicaçãoO Datastream verifica se o slot de replicação do PostgreSQL existe e está ativo, se o Datastream tem as permissões necessárias para acessá-lo e se ele está configurado corretamente.
      Configuração da publicaçãoO Datastream verifica se a publicação existe e se as tabelas de replicação para o stream estão incluídas na publicação.
      Permissões de preenchimentoO Datastream verifica se existem tabelas necessárias para preencher os dados históricos e se ele tem as permissões necessárias para fazer a leitura.
    4. Se o banco de dados de origem for SQL Server (pré-lançamento), o Datastream vai realizar as seguintes verificações:

      VerificaçãoDescrição
      Edição do SQL ServerO Datastream verifica se a edição de origem do banco de dados do SQL Server tem suporte. Para saber mais sobre as edições compatíveis, consulte Versões.
      Permissões de usuário do SQL ServerO Datastream verifica se o usuário tem as permissões necessárias para acessar o banco de dados de origem do SQL Server.
      O CDC do SQL Server está ativadoO Datastream verifica se a CDC está ativada para o banco de dados e todas as tabelas incluídas no stream.
      Validações do banco de dados do SQL ServerO Datastream verifica se o banco de dados de origem está configurado corretamente, se todos os requisitos de replicação foram atendidos e se não há tipos de dados sem suporte nas colunas.
      Permissões do Cloud Storage ou do BigQueryO Datastream verifica se o usuário tem as permissões necessárias para gravar no destino.
  3. Depois que todas as verificações de validação forem aprovadas, clique em CRIAR e INICIAR para criar e iniciar o fluxo imediatamente ou em CRIAR para criar o fluxo sem iniciá-lo imediatamente.

    Se você não iniciar o stream agora, poderá iniciá-lo na página Streams clicando em INICIAR.

Após criar um stream, você pode ver informações detalhadas e de alto nível sobre ele.