Origem de lotes de base de dados

Esta página fornece orientações sobre a configuração do plug-in de origem de lotes de base de dados no Cloud Data Fusion.

Pode usar esta origem genérica sempre que precisar de ler a partir de uma base de dados. Por exemplo, pode usá-lo para criar instantâneos diários de uma tabela de base de dados genérica e escrever o resultado no BigQuery.

Configure o plug-in

  1. Aceda à interface Web do Cloud Data Fusion e clique em Studio.
  2. Verifique se a opção Data Pipeline - Batch está selecionada (e não Tempo Real).
  3. No menu Origem, clique em Base de dados.
  4. Para configurar o plug-in, coloque o cursor do rato sobre o nó do plug-in e clique em Propriedades.
  5. Introduza as seguintes propriedades. Para mais informações sobre cada propriedade, consulte o artigo Propriedades.

    1. Introduza uma etiqueta para o nó da base de dados, por exemplo, database tables.
    2. Introduza os detalhes da associação. Pode configurar uma nova associação única ou uma associação existente reutilizável.

      Nova associação

      Para adicionar uma associação única à base de dados, siga estes passos:

      1. Mantenha a opção Usar ligação desativada.
      2. Introduza as seguintes propriedades da ligação:
        1. No campo do nome do controlador JDBC, introduza o nome do controlador, se existir. Caso contrário, mantenha a opção Sem plug-ins JDBC selecionada.
        2. No campo String de ligação, introduza a string de ligação JDBC, incluindo o nome da base de dados.
        3. Opcional: se a sua base de dados exigir autenticação, introduza as credenciais de nome de utilizador e palavra-passe da base de dados.
        4. Opcional: se o seu controlador JDBC precisar de configurações adicionais, no campo Argumentos de ligação, introduza argumentos de chave-valor para a ligação.

      Ligação reutilizável

      Para reutilizar uma associação existente, siga estes passos:

      1. Ative a opção Usar ligação.
      2. Clique em Procurar associações.
      3. Selecione a ligação.

      4. Opcional: se não existir uma associação e quiser criar uma nova associação reutilizável, clique em Adicionar associação e consulte os passos no separador Nova associação desta página.

    3. Opcional: para testar a conetividade, clique em Obter esquema. Este esquema é usado em vez do esquema devolvido pela consulta. Tem de corresponder ao esquema devolvido pela consulta, exceto que pode marcar campos como anuláveis e pode conter um subconjunto dos campos.

    4. No campo Importar consulta, introduza uma consulta SELECT para importar dados da tabela especificada. Por exemplo, select id, name, email, phone from users;.

    5. Opcional: no campo Consulta de limite, introduza os valores mínimo e máximo a ler, por exemplo, SELECT * FROM table WHERE $CONDITIONS.

    6. Opcional: no campo Nome do campo de divisão, introduza o nome do campo que gera as divisões.

    7. Opcional: no campo Número de divisões a gerar, introduza um número, por exemplo, 2.

    8. Opcional: no campo Tamanho da obtenção, introduza um número, por exemplo, 1000.

    9. Opcional: introduza Propriedades avançadas, como alterar a capitalização dos nomes das colunas.

  6. Opcional: clique em Validar e resolva os erros encontrados.

  7. Clique em Fechar. As propriedades são guardadas e pode continuar a criar o seu pipeline de dados no Cloud Data Fusion Studio.

Propriedades

Propriedade O modo macro está ativado Obrigatória Descrição
Etiqueta Não Sim O nome do nó no pipeline de dados.
Usar ligação Não Não Procure uma associação à origem. Se a opção Usar ligação estiver selecionada, não tem de fornecer credenciais.
Ligação Sim Sim Nome da associação a usar. Se a opção Usar ligação estiver selecionada, este campo é apresentado. As informações da base de dados e da tabela são fornecidas pela associação.
Nome do controlador JDBC Sim Sim O controlador JDBC a usar.
A predefinição é Nenhum plug-in JDBC.
String de ligação Sim Sim String de ligação JDBC, incluindo o nome da base de dados.
Nome de utilizador Sim Não Identidade do utilizador para estabelecer ligação à base de dados. Obrigatório para bases de dados que precisam de autenticação. Opcional para bases de dados que não requerem autenticação.
Palavra-passe Sim Não Palavra-passe a usar para estabelecer ligação à base de dados especificada. Obrigatório para bases de dados que precisam de autenticação. Opcional para bases de dados que não exigem autenticação.
Argumentos de ligação Sim Não Uma lista de pares de etiquetas/valores de strings arbitrários como argumentos de ligação. Para controladores JDBC que precisam de configuração adicional, estes argumentos são transmitidos ao controlador JDBC como argumentos de ligação no seguinte formato: key1=value1;key2=value.
Nome de referência Não Sim Um nome que identifica exclusivamente esta origem para a linhagem e a anotação de metadados. Normalmente, é o nome da tabela ou da vista.
Obter esquema Não Não O esquema dos registos gerados pela origem. É usado em vez do esquema devolvido pela consulta. Tem de corresponder ao esquema devolvido pela consulta, exceto que permite marcar campos como anuláveis e pode conter um subconjunto dos campos.
Consulta de importação Sim Sim A consulta SELECT para importar dados da tabela especificada. Pode especificar um número arbitrário de colunas para importar ou importar todas as colunas através de *. A consulta deve conter a string $CONDITIONS. Por exemplo, SELECT * FROM table WHERE $CONDITIONS. A string $CONDITIONS é substituída pelo campo splitBy limit especificado no campo Bounding query. A string $CONDITIONS não é necessária se o campo Number of splits estiver definido como 1.
Consulta delimitadora Sim Não A consulta de limite que devolve o mínimo e o máximo dos valores da coluna dividida. Por exemplo, SELECT MIN(id),MAX(id) FROM table. Não é necessário se o número de divisões estiver definido como 1.
Nome do campo de divisão Sim Não O nome do campo usado para gerar divisões. Não é necessário se o número de divisões a gerar estiver definido como 1.
Número de divisões a gerar Sim Não Número de divisões a gerar.
O valor predefinido é 1.
Tamanho da obtenção Sim Não O número de linhas a obter de cada vez por divisão. Um tamanho de obtenção maior pode causar uma importação mais rápida, com a desvantagem de uma utilização de memória mais elevada.
O valor predefinido é 1000.
Ative a confirmação automática Não Não Se deve ativar a confirmação automática para as consultas executadas por esta origem. Mantenha esta opção definida como Falso, a menos que use um controlador JDBC que cause um erro quando a operação de confirmação é executada.
A predefinição é False.
Diferença entre maiúsculas e minúsculas no nome da coluna Sim Não Define a capitalização dos nomes das colunas devolvidos pela consulta. Pode escolher letras maiúsculas ou minúsculas. Por predefinição ou para qualquer outra entrada, os nomes das colunas não são modificados e é usada a capitalização de letras devolvida pela base de dados. A definição desta propriedade oferece previsibilidade da utilização de letras maiúsculas nos nomes das colunas em diferentes bases de dados, mas pode causar conflitos de nomes de colunas se vários nomes de colunas forem iguais quando a distinção entre maiúsculas e minúsculas é ignorada.
A predefinição é Sem alteração.
Nível de isolamento de transações Sim Não O nível de isolamento de transações para consultas executadas por este destino. Para mais informações, consulte o setTransactionIsolation(). O controlador JDBC do Phoenix gera uma exceção se a base de dados do Phoenix não tiver as transações ativadas e este campo estiver definido como true. Para condutores como esse, defina este campo como TRANSACTION_NONE.
A predefinição é TRANSACTION_SERIALIZABLE.
Padrão a substituir Não Não O padrão a substituir no nome do campo na tabela (normalmente usado com a propriedade Substituir por). Se a propriedade Replace with não estiver definida, o padrão é removido do nome do campo.
Substituir por Não Não A string que é substituída no nome do campo na tabela. Também tem de configurar o campo Padrão a substituir.
Esquema de saída Não Não Especifica o esquema que é produzido. Apenas as colunas definidas no esquema são incluídas no registo de saída.

Práticas recomendadas

Verifique se está disponível um plug-in mais específico para a sua base de dados. Por exemplo, se tiver uma origem de base de dados Oracle, use o plug-in de origem de lote da base de dados Oracle, uma vez que foi concebido para funcionar com o esquema Oracle.

O que se segue?