Esta página foi traduzida pela API Cloud Translation.

Visão geral da replicação

A replicação do Cloud Data Fusion permite criar cópias de seus dados de maneira contínua e em tempo real de repositórios de dados operacionais, como SQL Server e MySQL, para o BigQuery.

Para usar a replicação, escolha uma das seguintes opções:

Crie uma nova instância do Cloud Data Fusion e adicione o app de replicação.
Adicione o app de replicação a uma instância.

Alguns dos benefícios são:

Ajuda a identificar incompatibilidades de esquema, problemas de conectividade e recursos ausentes antes de iniciar a replicação e, em seguida, fornece ações corretivas.
Usar os dados operacionais mais recentes em tempo real para análise no BigQuery. Use a replicação baseada em registro diretamente no BigQuery no Microsoft SQL Server (usando o SQL Server CDC) e no MySQL (usando o registro binário do MySQL) de dados.
A captura de dados de alteração (CDC) oferece uma representação dos dados que foram alterados em um fluxo. Isso permite que cálculos e processamentos se concentrem especificamente nos registros alterados mais recentemente. Isso minimiza as cobranças de dados de saída em sistemas de produção sensíveis.
Escalonabilidade empresarial com suporte a bancos de dados transacionais de alto volume. Os carregamentos iniciais de dados no BigQuery são compatíveis com replicação de snapshot sem inatividade. Dessa forma, o armazenamento de dados estará pronto para consumir alterações continuamente. Depois que o snapshot inicial é concluído, a replicação contínua de alta capacidade das alterações é iniciada em tempo real.
Os painéis ajudam você a conseguir insights em tempo real sobre o desempenho da replicação. Ela é útil para identificar gargalos e monitorar os SLAs de entrega de dados.
Inclui suporte para residência de dados, chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês) e VPC Service Controls. A integração do Cloud Data Fusion no Google Cloud garante que os níveis mais altos de segurança e privacidade empresariais sejam observados enquanto disponibiliza os dados mais recentes no seu armazenamento de dados para análise.

Preços recomendados

Quando a replicação é executada, você é cobrado pelo cluster do Dataproc e há custos de processamento para o BigQuery. Para otimizar esses custos, recomendamos que você use os preços fixos do BigQuery.

Para mais informações, consulte a página Preços do Cloud Data Fusion.

Entidades de replicação

Entity	Descrição
Replicação	A replicação é um recurso do Cloud Data Fusion que possibilita replicar dados continuamente de baixa latência de repositórios de dados operacionais para data warehouses analíticos. Crie um job de replicação configurando uma origem e um destino com transformações opcionais.
Origem	Lê os eventos de alteração do banco de dados, da tabela ou da coluna e os disponibiliza para processamento adicional em um job de replicação. Um job de replicação contém uma origem, que depende de uma solução de captura de alterações para fornecer as alterações. Pode haver várias fontes para um banco de dados, cada uma com uma solução de captura de alterações diferente. Uma fonte é um módulo conectável criado com a arquitetura de plug-in do CDAP. Se a origem não estiver disponível para atender às suas necessidades, crie sua própria implementando a interface de origem e faça upload dela para o CDAP ou o Cloud Data Fusion.
Target	Grava alterações recebidas de uma origem em um banco de dados de destino. Um job de replicação contém um destino. Um destino é um módulo conectável criado com a arquitetura de plug-in do CDAP. Se um destino não estiver disponível para atender às suas necessidades, crie sua própria implementação da interface de destino e faça upload dela para o CDAP ou o Cloud Data Fusion.
Propriedades de origem	Configura a origem, incluindo detalhes da conexão, nomes do banco de dados e da tabela de origem, credenciais e outras propriedades.
Propriedades de destino	Configura o destino, incluindo detalhes de conexão, nomes de banco de dados e tabelas de destino, credenciais e outras propriedades.
Propriedades do job de replicação	Define o job de replicação, incluindo limites de falha, áreas de preparo, notificações e configurações de validação.
Rascunho	Um job de replicação salvo e parcialmente concluído. Quando a definição do job de replicação for concluída, ele poderá ser iniciado.
Eventos	Altere os eventos na origem a serem replicados para o destino. Os eventos incluem inserções, atualizações, exclusões e mudanças na Linguagem de definição de dados (DDL).
Inserir	Adição de novos registros à origem.
Atualizar	Atualize para os registros atuais na origem.
Excluir	Remoção de registros existentes na origem.
Alteração do DDL	Um evento que contém uma alteração de esquema, como uma alteração no tipo ou no nome dos dados.
Registros	Os registros operacionais de um job de replicação.
Detalhes do job de replicação	Uma página de detalhes com informações do job de replicação, como o estado atual, as métricas operacionais, a visualização histórica ao longo do tempo, os resultados de validação e a configuração.
Painel	Uma página que lista o estado de todas as atividades de captura de dados de alteração, incluindo capacidade, latência, taxas de falha e resultados de validação.

Ações

Ações	Descrição
Implantar	Criar um novo job de replicação seguindo um fluxo de interface da Web para especificar uma origem, um destino e a configuração deles.
Salvar	Como salvar um job de replicação parcialmente criado para retomar a criação mais tarde.
Excluir	Como excluir um job de replicação atual. Somente pipelines interrompidos podem ser excluídos.
Iniciar	Como iniciar um job de replicação. Se houver alterações a serem processadas, o job de replicação entrará no estado "ativo". Caso contrário, ele entrará no estado "espera".
Parar	Como interromper um job de replicação. O job de replicação deixa de processar as alterações da origem.
Ver registros	Visualização de registros de um job de replicação para depuração ou outra análise.
Pesquisar	Pesquisar um job de replicação pelo nome, descrição ou outros metadados.
Avaliar	Avaliação do impacto da replicação antes do início da replicação A avaliação de um job de replicação gera um relatório de avaliação que sinaliza incompatibilidades de esquema e recursos ausentes.

Monitoramento

Estados de replicador	Descrição
Implantado	O job de replicação está implantado, mas não foi iniciado. Nesse estado, um job de replicação não replica eventos.
Iniciando	O job de replicação está sendo inicializado e não está pronto para replicar alterações.
Em execução	O job de replicação é iniciado e está replicando as alterações.
Interrompendo	O job de replicação está sendo interrompido.
Interrompida	O job de replicação é interrompido.
Falha	O job de replicação falhou devido a erros fatais.

Estados da tabela

Conceito	Descrição
Snapshots	O job de replicação está capturando um snapshot do estado atual da tabela antes de replicar as alterações.
Replicando	O job de replicação está replicando as alterações da tabela de origem na tabela de destino.
Com falha	O job de replicação não replica as alterações da tabela de origem devido a um erro.

Métricas

Conceito	Descrição
Inserção	O número de inserções aplicadas à meta no período selecionado.
Atualizações	O número de atualizações aplicadas à meta no período selecionado.
Exclusões	O número de exclusões aplicadas à meta no período selecionado.
DDLs	O número de alterações em DDL aplicadas ao destino no período selecionado.
Capacidade	O número de eventos e o número de bytes replicados para o destino no período selecionado.
Latência	A latência em que os dados são replicados para o destino no período selecionado.

Componentes

Componente	Descrição
Serviço	Supervisiona a orquestração de jobs de replicação de ponta a ponta e fornece recursos para projetar, implantar, gerenciar e monitorar jobs de replicação. Ele é executado no projeto de locatário do Cloud Data Fusion (o projeto de locatário fica oculto para o usuário). O status é exibido na página Administrador do sistema da interface da Web do Cloud Data Fusion.
Gerenciamento do estado	O serviço gerencia o estado de cada job de replicação em um bucket do Cloud Storage no projeto do cliente. O bucket pode ser configurado quando o job de replicação é criado. Ele armazena os deslocamentos atuais e o estado da replicação de cada job de replicação.
Execução	Os clusters do Dataproc fornecem o ambiente de execução dos jobs de replicação, que são executados no seu projeto. Os jobs de replicação são executados usando workers do CDAP. O tamanho e as características do ambiente de execução são configurados com perfis do Compute Engine.
Banco de dados de origem	Seu banco de dados operacional de produção que é replicado no banco de dados de destino. Esse banco de dados pode estar no local ou no Google Cloud. O Cloud Data Fusion Replication é compatível com bancos de dados MySQL, Microsoft SQL Server e Oracle.
Alterar solução de rastreamento	Em vez de ser executado em um agente executado no banco de dados de origem, o Cloud Data Fusion conta com uma solução de rastreamento de alterações para ler as alterações no banco de dados de origem. A solução pode ser um componente do banco de dados de origem ou uma solução de terceiros licenciada separadamente. No último caso, a solução de rastreamento de alterações é executada no local, co-localizada com o banco de dados de origem ou no Google Cloud. Cada origem precisa estar associada a uma solução de rastreamento de alterações. SQL Server Solução compatível: SQL Server CDC (alterar tabelas de acompanhamento) Software adicional:não Licença/custo: N/A Comentários: disponível no SQL Server 2016 e posterior MySQL Solução compatível: registro binário do MySQL Software adicional: Não Licença/custo: N/A Comentários: N/D. Oracle Solução compatível: Oracle LogMiner Software adicional:não Licença/custo: N/A Comentários:confira as versões compatíveis com o Datastream
Banco de dados de destino	O local de destino para replicação e análise. O Cloud Data Fusion é compatível com o banco de dados de destino do BigQuery.
Authentication	Os mecanismos de autenticação variam de acordo com o banco de dados de origem ou com o software de rastreamento de alterações. Ao usar os recursos integrados de bancos de dados de origem, como o SQL Server e o MySQL, os logins de banco de dados são usados para autenticação. Ao usar o software de acompanhamento de alterações, é usado o mecanismo de autenticação do software.

Conectividade

A tabela a seguir descreve as conexões de rede necessárias para replicação e os mecanismos de segurança que eles usam.

De	To	Opcional	Protocolo	Rede	Segurança da autenticação	Finalidade
Serviço (locatário do projeto)	DB de origem	Sim	Depende da origem da replicação. JDBC para conexão direta com o banco de dados.	Peering + regras de firewall + VPN/Interconexão + roteador	Login no banco de dados	Necessário desde a concepção, não a execução Funções de tempo: listagem de tabela, avaliação (etapas opcionais, replicação possível sem elas)
Serviço (locatário do projeto)	Cloud Storage	Não	Cloud API	VPC-SC	IAM	Gerenciamento de estados: deslocamentos e estados de replicação
Dataproc (seu projeto)	DB de origem	Não	Depende da origem. JDBC para conexão direta com o banco de dados.	Peering + regras de firewall + VPN/Interconexão + roteador	Login no banco de dados	Necessárias no momento da execução para ler as alterações do banco de dados de origem para replicar para o destino
Dataproc (seu projeto)	Cloud Storage	Não	Cloud API	VPC-SC	IAM	Gerenciamento de estados: deslocamentos e estados de replicação
Dataproc (seu projeto)	BigQuery	Não	Cloud API	VPC-SC	IAM	Necessário no momento da execução para aplicar alterações do banco de dados de origem ao destino

A seguir

Consulte a referência da API Replication.
Consulte os mapeamentos de tipos de dados para a replicação.