Origine batch del database

Questa pagina fornisce indicazioni sulla configurazione del plug-in dell'origine batch del database in Cloud Data Fusion.

Puoi utilizzare questa origine generica ogni volta che devi leggere da un database. Ad esempio, puoi utilizzarlo per creare snapshot giornalieri di una tabella di database generica e scrivere l'output in BigQuery.

Configura il plug-in

  1. Vai all'interfaccia web di Cloud Data Fusion e fai clic su Studio.
  2. Verifica che sia selezionata l'opzione Pipeline di dati - Batch (non In tempo reale).
  3. Nel menu Origine, fai clic su Database.
  4. Per configurare il plug-in, tieni il puntatore del mouse sul nodo del plug-in e fai clic su Properties (Proprietà).
  5. Inserisci le seguenti proprietà. Per saperne di più su ciascuna proprietà, consulta Proprietà.

    1. Inserisci un'Etichetta per il nodo del database, ad esempio database tables.
    2. Inserisci i dettagli della connessione. Puoi configurare una nuova connessione una tantum o una connessione esistente riutilizzabile.

      Nuova connessione

      Per aggiungere una connessione una tantum al database:

      1. Mantieni disattivata l'opzione Usa connessione.
      2. Inserisci le seguenti proprietà di connessione:
        1. Nel campo del nome del driver JDBC, inserisci il nome del driver, se presente. In caso contrario, mantieni selezionata l'opzione Nessun plug-in JDBC.
        2. Nel campo Stringa di connessione, inserisci la stringa di connessione JDBC, incluso il nome del database.
        3. (Facoltativo) Se il database richiede l'autenticazione, inserisci le credenziali di nome utente e password del database.
        4. (Facoltativo) Se il driver JDBC richiede configurazioni aggiuntive, nel campo Argomenti di connessione, inserisci gli argomenti chiave-valore per la connessione.

      Connessione riutilizzabile

      Per riutilizzare una connessione esistente:

      1. Attiva l'opzione Usa connessione.
      2. Fai clic su Browse connections (Sfoglia connessioni).
      3. Seleziona la connessione.

      4. (Facoltativo) Se non esiste una connessione e vuoi crearne una nuova e riutilizzabile, fai clic su Aggiungi connessione e segui la procedura descritta nella scheda Nuova connessione di questa pagina.

    3. (Facoltativo) Per testare la connettività, fai clic su Ottieni schema. Questo schema viene utilizzato al posto dello schema restituito dalla query. Deve corrispondere allo schema restituito dalla query, tranne per il fatto che puoi contrassegnare i campi come consententi valori null e può contenere un sottoinsieme di campi.

    4. Nel campo Query di importazione, inserisci una query SELECT per l'importazione dei dati dalla tabella specificata, ad esempio select id, name, email, phone from users;.

    5. (Facoltativo) Nel campo Query di confine, inserisci i valori minimo e massimo da leggere, ad esempio SELECT * FROM table WHERE $CONDITIONS.

    6. (Facoltativo) Nel campo Nome campo di suddivisione, inserisci il nome del campo che genera le suddivisioni.

    7. (Facoltativo) Nel campo Numero di suddivisioni da generare, inserisci un numero, ad esempio 2.

    8. (Facoltativo) Nel campo Dimensioni di recupero, inserisci un numero, ad esempio 1000.

    9. (Facoltativo) Inserisci le proprietà avanzate, ad esempio la modifica della maiuscola dei nomi delle colonne.

  6. (Facoltativo) Fai clic su Convalida e correggi gli eventuali errori rilevati.

  7. Fai clic su Chiudi. Le proprietà vengono salvate e puoi continuare a creare la tua pipeline di dati in Cloud Data Fusion Studio.

Proprietà

Proprietà Macro attivata Obbligatorio Descrizione
Etichetta No Il nome del nodo nella pipeline di dati.
Utilizzare la connessione No No Cerca una connessione all'origine. Se è selezionata l'opzione Usa connessione, non è necessario fornire le credenziali.
Connessione Il nome della connessione da utilizzare. Se è selezionata l'opzione Usa connessione, viene visualizzato questo campo. Le informazioni sul database e sulle tabelle sono fornite dalla connessione.
Nome del driver JDBC Il driver JDBC da utilizzare.
Il valore predefinito è Nessun plug-in JDBC.
Stringa di connessione Stringa di connessione JDBC, incluso il nome del database.
Nome utente No Id utente per la connessione al database. Obbligatorio per i database che richiedono l'autenticazione. Facoltativo per i database che non richiedono l'autenticazione.
Password No La password da utilizzare per connettersi al database specificato. Obbligatorio per i database che richiedono l'autenticazione. Facoltativo per i database che non richiedono l'autenticazione.
Argomenti di connessione No Un elenco di coppie di tag/valori di stringa arbitrarie come argomenti di connessione. Per i driver JDBC che richiedono una configurazione aggiuntiva, questi argomenti vengono passati al driver JDBC come argomenti di connessione nel seguente formato: key1=value1;key2=value.
Nome di riferimento No Un nome che identifica in modo univoco questa origine per la definizione della struttura e l'annotazione degli metadati. Di solito corrisponde al nome della tabella o della visualizzazione.
Ottieni schema No No Lo schema dei record generati dall'origine. Viene utilizzato al posto dello schema restituito dalla query. Deve corrispondere allo schema restituito dalla query, tranne per il fatto che consente di contrassegnare i campi come consententi valori null e può contenere un sottoinsieme di campi.
Query di importazione La query SELECT per l'importazione dei dati dalla tabella specificata. Puoi specificare un numero arbitrario di colonne da importare o importare tutte le colonne utilizzando *. La query deve contenere la stringa $CONDITIONS. Ad esempio, SELECT * FROM table WHERE $CONDITIONS. La stringa $CONDITIONS viene sostituita dal limite del campo splitBy specificato nel campo Query di confine. La stringa $CONDITIONS non è obbligatoria se il campo Numero di suddivisioni è impostato su 1.
Query di delimitazione No La query di confine che restituisce il minimo e il massimo dei valori della colonna divisa. Ad esempio, SELECT MIN(id),MAX(id) FROM table. Non obbligatorio se il numero di suddivisioni è impostato su 1.
Nome del campo di suddivisione No Il nome del campo utilizzato per generare le suddivisioni. Non obbligatorio se il numero di suddivisioni da generare è impostato su 1.
Numero di suddivisioni da generare No Numero di suddivisioni da generare.
Il valore predefinito è 1.
Dimensioni recupero No Il numero di righe da recuperare alla volta per suddivisione. Una dimensione di recupero maggiore può causare un'importazione più rapida, con il compromesso di un maggiore utilizzo della memoria.
Il valore predefinito è 1000.
Attivare l'commit automatico No No Se attivare l'commit automatico per le query eseguite da questa origine. Mantieni questa impostazione su False, a meno che non utilizzi un driver JDBC che causa un errore durante l'esecuzione dell'operazione di commit.
Il valore predefinito è False.
Maiuscole/minuscole dei nomi delle colonne No Imposta la maiuscola dei nomi delle colonne restituiti dalla query. Puoi scegliere tra lettere maiuscole o minuscole. Per impostazione predefinita o per qualsiasi altro input, i nomi delle colonne non vengono modificati e viene utilizzata la maiuscola restituita dal database. L'impostazione di questa proprietà garantisce la prevedibilità della maiuscola dei nomi delle colonne in diversi database, ma potrebbe causare conflitti di nomi di colonna se più nomi di colonna sono uguali quando la maiuscola viene ignorata.
Il valore predefinito è Nessuna modifica.
Livello di isolamento delle transazioni No Il livello di isolamento delle transazioni per le query eseguite da questo sink. Per ulteriori informazioni, consulta la sezione setTransactionIsolation(). Il driver JDBC Phoenix genera un'eccezione se le transazioni non sono attivate nel database Phoenix e questo campo è impostato su true. Per questi conducenti, imposta questo campo su TRANSACTION_NONE.
Il valore predefinito è TRANSACTION_SERIALIZABLE.
Pattern da sostituire No No Il pattern da sostituire nel nome del campo nella tabella (in genere utilizzato con la proprietà Sostituisci con). Se la proprietà Sostituisci con non è impostata, il pattern viene rimosso dal nome del campo.
Sostituisci con No No La stringa sostituita nel nome del campo nella tabella. Devi anche configurare il campo Pattern da sostituire.
Schema di output No No Specifica lo schema da generare. Nel record di output sono incluse solo le colonne definite nello schema.

Best practice

Controlla se è disponibile un plug-in più specifico per il tuo database. Ad esempio, se hai un'origine database Oracle, utilizza il plug-in dell'origine batch del database Oracle perché è progettato per funzionare con lo schema Oracle.

Passaggi successivi