Questa pagina è stata tradotta dall'API Cloud Translation.

Origine batch del database

Questa pagina fornisce indicazioni sulla configurazione del plug-in dell'origine batch del database in Cloud Data Fusion.

Puoi utilizzare questa origine generica ogni volta che devi leggere da un database. Ad esempio, puoi utilizzarlo per creare snapshot giornalieri di una tabella di database generica e scrivere l'output in BigQuery.

Configura il plug-in

Vai all'interfaccia web di Cloud Data Fusion e fai clic su Studio.
Verifica che sia selezionata l'opzione Pipeline di dati - Batch (non In tempo reale).
Nel menu Origine, fai clic su Database.
Per configurare il plug-in, tieni il puntatore del mouse sul nodo del plug-in e fai clic su Properties (Proprietà).
Inserisci le seguenti proprietà. Per saperne di più su ciascuna proprietà, consulta Proprietà.
1. Inserisci un'Etichetta per il nodo del database, ad esempio database tables.
2. Inserisci i dettagli della connessione. Puoi configurare una nuova connessione una tantum o una connessione esistente riutilizzabile.
  Nuova connessione
  Per aggiungere una connessione una tantum al database:
  1. Mantieni disattivata l'opzione Usa connessione.
  2. Inserisci le seguenti proprietà di connessione:
    
    Nel campo del nome del driver JDBC, inserisci il nome del driver, se presente. In caso contrario, mantieni selezionata l'opzione Nessun plug-in JDBC.
    
    Nel campo Stringa di connessione, inserisci la stringa di connessione JDBC, incluso il nome del database.
    
    (Facoltativo) Se il database richiede l'autenticazione, inserisci le credenziali di nome utente e password del database.
    
    (Facoltativo) Se il driver JDBC richiede configurazioni aggiuntive, nel campo Argomenti di connessione, inserisci gli argomenti chiave-valore per la connessione.
  Connessione riutilizzabile
  Per riutilizzare una connessione esistente:
  1. Attiva l'opzione Usa connessione.
  2. Fai clic su Browse connections (Sfoglia connessioni).
  3. Seleziona la connessione.
    
    Nota: per ulteriori informazioni su come aggiungere, importare e modificare le connessioni visualizzate quando le sfogli, consulta Creare e gestire le connessioni.
  4. (Facoltativo) Se non esiste una connessione e vuoi crearne una nuova e riutilizzabile, fai clic su Aggiungi connessione e segui la procedura descritta nella scheda Nuova connessione di questa pagina.
3. (Facoltativo) Per testare la connettività, fai clic su Ottieni schema. Questo schema viene utilizzato al posto dello schema restituito dalla query. Deve corrispondere allo schema restituito dalla query, tranne per il fatto che puoi contrassegnare i campi come consententi valori null e può contenere un sottoinsieme di campi.
4. Nel campo Query di importazione, inserisci una query SELECT per l'importazione dei dati dalla tabella specificata, ad esempio select id, name, email, phone from users;.
5. (Facoltativo) Nel campo Query di confine, inserisci i valori minimo e massimo da leggere, ad esempio SELECT * FROM table WHERE $CONDITIONS.
6. (Facoltativo) Nel campo Nome campo di suddivisione, inserisci il nome del campo che genera le suddivisioni.
7. (Facoltativo) Nel campo Numero di suddivisioni da generare, inserisci un numero, ad esempio 2.
8. (Facoltativo) Nel campo Dimensioni di recupero, inserisci un numero, ad esempio 1000.
9. (Facoltativo) Inserisci le proprietà avanzate, ad esempio la modifica della maiuscola dei nomi delle colonne.
(Facoltativo) Fai clic su Convalida e correggi gli eventuali errori rilevati.
Fai clic su Chiudi. Le proprietà vengono salvate e puoi continuare a creare la tua pipeline di dati in Cloud Data Fusion Studio.

Proprietà

Proprietà	Macro attivata	Obbligatorio	Descrizione
Etichetta	No	Sì	Il nome del nodo nella pipeline di dati.
Utilizzare la connessione	No	No	Cerca una connessione all'origine. Se è selezionata l'opzione Usa connessione, non è necessario fornire le credenziali.
Connessione	Sì	Sì	Il nome della connessione da utilizzare. Se è selezionata l'opzione Usa connessione, viene visualizzato questo campo. Le informazioni sul database e sulle tabelle sono fornite dalla connessione.
Nome del driver JDBC	Sì	Sì	Il driver JDBC da utilizzare. Il valore predefinito è Nessun plug-in JDBC.
Stringa di connessione	Sì	Sì	Stringa di connessione JDBC, incluso il nome del database.
Nome utente	Sì	No	Id utente per la connessione al database. Obbligatorio per i database che richiedono l'autenticazione. Facoltativo per i database che non richiedono l'autenticazione.
Password	Sì	No	La password da utilizzare per connettersi al database specificato. Obbligatorio per i database che richiedono l'autenticazione. Facoltativo per i database che non richiedono l'autenticazione.
Argomenti di connessione	Sì	No	Un elenco di coppie di tag/valori di stringa arbitrarie come argomenti di connessione. Per i driver JDBC che richiedono una configurazione aggiuntiva, questi argomenti vengono passati al driver JDBC come argomenti di connessione nel seguente formato: `key1=value1;key2=value`.
Nome di riferimento	No	Sì	Un nome che identifica in modo univoco questa origine per la definizione della struttura e l'annotazione degli metadati. Di solito corrisponde al nome della tabella o della visualizzazione.
Ottieni schema	No	No	Lo schema dei record generati dall'origine. Viene utilizzato al posto dello schema restituito dalla query. Deve corrispondere allo schema restituito dalla query, tranne per il fatto che consente di contrassegnare i campi come consententi valori null e può contenere un sottoinsieme di campi.
Query di importazione	Sì	Sì	La query `SELECT` per l'importazione dei dati dalla tabella specificata. Puoi specificare un numero arbitrario di colonne da importare o importare tutte le colonne utilizzando ``. La query deve contenere la stringa `$CONDITIONS`. Ad esempio, `SELECT FROM table WHERE $CONDITIONS`. La stringa `$CONDITIONS` viene sostituita dal limite del campo `splitBy` specificato nel campo Query di confine. La stringa `$CONDITIONS` non è obbligatoria se il campo Numero di suddivisioni è impostato su 1.
Query di delimitazione	Sì	No	La query di confine che restituisce il minimo e il massimo dei valori della colonna divisa. Ad esempio, `SELECT MIN(id),MAX(id) FROM table`. Non obbligatorio se il numero di suddivisioni è impostato su 1.
Nome del campo di suddivisione	Sì	No	Il nome del campo utilizzato per generare le suddivisioni. Non obbligatorio se il numero di suddivisioni da generare è impostato su 1.
Numero di suddivisioni da generare	Sì	No	Numero di suddivisioni da generare. Il valore predefinito è 1.
Dimensioni recupero	Sì	No	Il numero di righe da recuperare alla volta per suddivisione. Una dimensione di recupero maggiore può causare un'importazione più rapida, con il compromesso di un maggiore utilizzo della memoria. Il valore predefinito è 1000.
Attivare l'commit automatico	No	No	Se attivare l'commit automatico per le query eseguite da questa origine. Mantieni questa impostazione su False, a meno che non utilizzi un driver JDBC che causa un errore durante l'esecuzione dell'operazione di commit. Il valore predefinito è False.
Maiuscole/minuscole dei nomi delle colonne	Sì	No	Imposta la maiuscola dei nomi delle colonne restituiti dalla query. Puoi scegliere tra lettere maiuscole o minuscole. Per impostazione predefinita o per qualsiasi altro input, i nomi delle colonne non vengono modificati e viene utilizzata la maiuscola restituita dal database. L'impostazione di questa proprietà garantisce la prevedibilità della maiuscola dei nomi delle colonne in diversi database, ma potrebbe causare conflitti di nomi di colonna se più nomi di colonna sono uguali quando la maiuscola viene ignorata. Il valore predefinito è Nessuna modifica.
Livello di isolamento delle transazioni	Sì	No	Il livello di isolamento delle transazioni per le query eseguite da questo sink. Per ulteriori informazioni, consulta la sezione `setTransactionIsolation()`. Il driver JDBC Phoenix genera un'eccezione se le transazioni non sono attivate nel database Phoenix e questo campo è impostato su `true`. Per questi conducenti, imposta questo campo su `TRANSACTION_NONE`. Il valore predefinito è TRANSACTION_SERIALIZABLE.
Pattern da sostituire	No	No	Il pattern da sostituire nel nome del campo nella tabella (in genere utilizzato con la proprietà Sostituisci con). Se la proprietà Sostituisci con non è impostata, il pattern viene rimosso dal nome del campo.
Sostituisci con	No	No	La stringa sostituita nel nome del campo nella tabella. Devi anche configurare il campo Pattern da sostituire.
Schema di output	No	No	Specifica lo schema da generare. Nel record di output sono incluse solo le colonne definite nello schema.

Best practice

Controlla se è disponibile un plug-in più specifico per il tuo database. Ad esempio, se hai un'origine database Oracle, utilizza il plug-in dell'origine batch del database Oracle perché è progettato per funzionare con lo schema Oracle.

Note di rilascio

Passaggi successivi

Scopri di più sui plug-in in Cloud Data Fusion.