Fonte em lote do banco de dados

Nesta página, você encontra orientações sobre como configurar a origem em lote do banco de dados. plug-in no Cloud Data Fusion.

Você pode usar essa fonte genérica sempre que precisar ler de um banco de dados. Por exemplo, é possível usá-lo para criar snapshots diários de uma tabela de banco de dados genérica e gravar a saída no BigQuery.

Configurar o plug-in

  1. Acessar a interface da Web do Cloud Data Fusion e clique em Studio.
  2. Verifique se Pipeline de dados – lote está selecionado (não Tempo real).
  3. No menu Origem, clique em Banco de dados.
  4. Para configurar o plug-in, mantenha o ponteiro sobre o nó do plug-in e clique em Propriedades.
  5. Insira as propriedades a seguir. Para mais informações sobre cada propriedade, consulte Propriedades.

    1. Digite um Rótulo para o nó do banco de dados: exemplo: database tables.
    2. Insira os detalhes da conexão. É possível configurar uma nova conexão única ou uma conexão existente e reutilizável.

      Nova conexão

      Para adicionar uma conexão única ao banco de dados, siga estas etapas:

      1. Mantenha a opção Usar conexão desativada.
      2. Digite as seguintes propriedades de conexão:
        1. No campo "Nome do driver JDBC", insira o nome do driver, se houver um. Caso contrário, mantenha a opção Nenhum plug-in do JDBC selecionado.
        2. No campo String de conexão, insira a conexão JDBC incluindo o nome do banco de dados.
        3. Opcional: se o banco de dados exigir autenticação, digite nome de usuário e senha do banco de dados.
        4. Opcional: se o driver JDBC precisar de mais configurações, No campo Argumentos de conexão, insira a chave-valor da conexão.

      Conexão reutilizável

      Para reutilizar uma conexão existente, siga estas etapas:

      1. Ative a opção Usar conexão.
      2. Clique em Procurar conexões.
      3. Selecione a conexão.

      4. Opcional: se uma conexão não existir e você quiser criar uma nova conexão reutilizável, clique em Adicionar conexão e consulte as etapas na guia Nova conexão desta página.

    3. Opcional: para testar a conectividade, clique em Ver esquema. Este esquema é usada no lugar de qualquer esquema retornado da consulta. Ele deve corresponder ao esquema retornado da consulta, mas é possível marca os campos como anuláveis e pode conter um subconjunto deles.

    4. No campo Importar consulta, insira uma consulta SELECT para importar dados da tabela especificada, por exemplo, select id, name, email, phone from users;.

    5. Opcional: no campo Consulta de limite, insira os valores mínimo e máximo a serem lidos. Por exemplo, SELECT * FROM table WHERE $CONDITIONS.

    6. Opcional: no campo Dividir por nome do campo, digite o nome que gera as divisões.

    7. Opcional: no campo Número de divisões a gerar, digite um número, por exemplo, 2.

    8. Opcional: no campo Tamanho da busca, insira um número, por exemplo, 1000.

    9. Opcional: insira as Propriedades avançadas, como alterar o caso de os nomes das colunas.

  6. Opcional: clique em Validar e corrija os erros encontrados.

  7. Clique em Fechar. As propriedades serão salvas, e você poderá continuar criando seu pipeline de dados no Studio do Cloud Data Fusion.

Propriedades

Propriedade Macro ativada Obrigatório Descrição
Rótulo Não Sim O nome do nó no pipeline de dados.
Usar conexão Não Não Procure uma conexão com a origem. Se Usar conexão está selecionado, você não precisa fornecer credenciais.
Conexão Sim Sim Nome da conexão a ser usada. Se a opção Usar conexão estiver selecionada, esse campo vai aparecer. As informações do banco de dados e da tabela são fornecidas pela conexão.
Nome do driver JDBC Sim Sim O driver JDBC a ser usado.
O padrão é Nenhum plug-in JDBC.
String de conexão Sim Sim String de conexão do JDBC, incluindo o nome do banco de dados.
Nome de usuário Sim Não Identidade do usuário para conexão com o banco de dados. Obrigatório para bancos de dados que precisam de autenticação. Opcional para bancos de dados que não exigem autenticação.
Senha Sim Não Senha a ser usada para se conectar ao banco de dados especificado. Obrigatório para bancos de dados que precisam de autenticação. Opcional para bancos de dados que não que exigem autenticação.
Argumentos de conexão Sim Não Uma lista de pares de tag/valor de string arbitrários como argumentos de conexão. Para drivers JDBC que precisam de configuração adicional, esses argumentos são passados para o driver JDBC como argumentos de conexão no formato: key1=value1;key2=value.
Nome de referência Não Sim Um nome que identifica exclusivamente essa origem para definir linhagem e anotar metadados. Geralmente é o nome da tabela ou da visualização.
Receber esquema Não Não O esquema de registros gerados pela origem. Ele é usado no lugar do esquema retornado pela consulta. Ele precisa corresponder ao esquema que vem da consulta, exceto por permitir que você marque campos como anuláveis e e pode conter um subconjunto dos campos.
Importar consulta Sim Sim A consulta SELECT para importar dados da tabela especificada. Você pode especificar um número arbitrário de colunas para importar ou importar todas as colunas usando *. A consulta deve conter o String $CONDITIONS. Por exemplo: SELECT * FROM table WHERE $CONDITIONS: A string $CONDITIONS é substituída pelo limite do campo splitBy especificado no campo Consulta de limite. O A string $CONDITIONS não é necessária se o Número de splits é definido como 1.
Consulta delimitadora Sim Não A consulta de limite que retorna o mínimo e o máximo dos valores da coluna dividida. Por exemplo: SELECT MIN(id),MAX(id) FROM table Não é necessário se o número de divisões for definido como 1.
Dividir por nome de campo Sim Não O nome do campo usado para gerar divisões. Não será necessário se o número de a ser gerada é definido como 1.
Número de divisões a serem geradas Sim Não Número de divisões a serem geradas.
O padrão é 1.
Tamanho da busca Sim Não O número de linhas a serem buscadas por vez por divisão. Um tamanho de busca maior pode causar uma importação mais rápida, com a compensação de maior uso de memória.
O padrão é 1000.
Ativar a confirmação automática Não Não Define se a confirmação automática será ativada para consultas executadas por essa fonte. Manter defina como False, a menos que você use um driver JDBC que causa um erro quando a operação de confirmação é executada.
O padrão é False.
Nome da coluna em maiúsculas Sim Não Define a caixa alta e baixa dos nomes das colunas retornados pela consulta. Você pode escolher maiúsculas ou minúsculas. Por padrão ou para qualquer outra entrada, os nomes das colunas não são modificados, e a maiúscula retornada do banco de dados é usada. Definir essa propriedade fornece previsibilidade de letras maiúsculas no nome da coluna em diferentes bancos de dados, mas pode causar entre em conflito se os nomes de várias colunas forem iguais quando o caso é ignorado.
O padrão é Nenhuma alteração.
Nível de isolamento de transações Sim Não O nível de isolamento da transação para consultas executadas por este coletor. Para mais informações, consulte o setTransactionIsolation(). O driver JDBC do Phoenix gera uma exceção se o banco de dados do Phoenix não tiver transações ativadas e esse campo estiver definido como true. Para drivers assim, defina esse campo como TRANSACTION_NONE.
O padrão é TRANSACTION_SERIALIZABLE.
Padrão a ser substituído Não Não O padrão a ser substituído no nome do campo na tabela (geralmente usado com a propriedade Replace with). Se a propriedade Replace with não estiver definida, o padrão será removido do nome do campo.
Substituir por Não Não A string que é substituída no nome do campo na tabela. Você deve também configure o campo Padrão a ser substituído.
Esquema de saída Não Não Especifica o esquema de saída. Somente colunas definidas no esquema são incluídas no registro de saída.

Práticas recomendadas

Verifique se há um plug-in mais específico disponível para seu banco de dados. Por exemplo, se você tem uma fonte de banco de dados Oracle, em vez disso, use a fonte em lote do banco de dados Oracle porque ele foi projetado para funcionar com o esquema do Oracle.

A seguir