Puoi utilizzare questa origine generica ogni volta che devi leggere da un database. Ad esempio, puoi utilizzarlo per creare snapshot giornalieri di una tabella di database generica e scrivere l'output in BigQuery.
Configura il plug-in
- Vai all'interfaccia web di Cloud Data Fusion e fai clic su Studio.
- Verifica che sia selezionata l'opzione Pipeline di dati - Batch (non In tempo reale).
- Nel menu Origine, fai clic su Database.
- Per configurare il plug-in, tieni il puntatore del mouse sul nodo del plug-in e fai clic su Properties (Proprietà).
Inserisci le seguenti proprietà. Per saperne di più su ciascuna proprietà, consulta Proprietà.
- Inserisci un'Etichetta per il nodo del database, ad esempio
database tables
. Inserisci i dettagli della connessione. Puoi configurare una nuova connessione una tantum o una connessione esistente riutilizzabile.
Nuova connessione
Per aggiungere una connessione una tantum al database:
- Mantieni disattivata l'opzione Usa connessione.
- Inserisci le seguenti proprietà di connessione:
- Nel campo del nome del driver JDBC, inserisci il nome del driver, se presente. In caso contrario, mantieni selezionata l'opzione Nessun plug-in JDBC.
- Nel campo Stringa di connessione, inserisci la stringa di connessione JDBC, incluso il nome del database.
- (Facoltativo) Se il database richiede l'autenticazione, inserisci le credenziali di nome utente e password del database.
- (Facoltativo) Se il driver JDBC richiede configurazioni aggiuntive, nel campo Argomenti di connessione, inserisci gli argomenti chiave-valore per la connessione.
Connessione riutilizzabile
Per riutilizzare una connessione esistente:
- Attiva l'opzione Usa connessione.
- Fai clic su Browse connections (Sfoglia connessioni).
Seleziona la connessione.
(Facoltativo) Se non esiste una connessione e vuoi crearne una nuova e riutilizzabile, fai clic su Aggiungi connessione e segui la procedura descritta nella scheda Nuova connessione di questa pagina.
(Facoltativo) Per testare la connettività, fai clic su Ottieni schema. Questo schema viene utilizzato al posto dello schema restituito dalla query. Deve corrispondere allo schema restituito dalla query, tranne per il fatto che puoi contrassegnare i campi come consententi valori null e può contenere un sottoinsieme di campi.
Nel campo Query di importazione, inserisci una query
SELECT
per l'importazione dei dati dalla tabella specificata, ad esempioselect id, name, email, phone from users;
.(Facoltativo) Nel campo Query di confine, inserisci i valori minimo e massimo da leggere, ad esempio
SELECT * FROM table WHERE $CONDITIONS
.(Facoltativo) Nel campo Nome campo di suddivisione, inserisci il nome del campo che genera le suddivisioni.
(Facoltativo) Nel campo Numero di suddivisioni da generare, inserisci un numero, ad esempio
2
.(Facoltativo) Nel campo Dimensioni di recupero, inserisci un numero, ad esempio
1000
.(Facoltativo) Inserisci le proprietà avanzate, ad esempio la modifica della maiuscola dei nomi delle colonne.
- Inserisci un'Etichetta per il nodo del database, ad esempio
(Facoltativo) Fai clic su Convalida e correggi gli eventuali errori rilevati.
Fai clic su Chiudi. Le proprietà vengono salvate e puoi continuare a creare la tua pipeline di dati in Cloud Data Fusion Studio.
Proprietà
Proprietà | Macro attivata | Obbligatorio | Descrizione |
---|---|---|---|
Etichetta | No | Sì | Il nome del nodo nella pipeline di dati. |
Utilizzare la connessione | No | No | Cerca una connessione all'origine. Se è selezionata l'opzione Usa connessione, non è necessario fornire le credenziali. |
Connessione | Sì | Sì | Il nome della connessione da utilizzare. Se è selezionata l'opzione Usa connessione, viene visualizzato questo campo. Le informazioni sul database e sulle tabelle sono fornite dalla connessione. |
Nome del driver JDBC | Sì | Sì | Il driver JDBC da utilizzare. Il valore predefinito è Nessun plug-in JDBC. |
Stringa di connessione | Sì | Sì | Stringa di connessione JDBC, incluso il nome del database. |
Nome utente | Sì | No | Id utente per la connessione al database. Obbligatorio per i database che richiedono l'autenticazione. Facoltativo per i database che non richiedono l'autenticazione. |
Password | Sì | No | La password da utilizzare per connettersi al database specificato. Obbligatorio per i database che richiedono l'autenticazione. Facoltativo per i database che non richiedono l'autenticazione. |
Argomenti di connessione | Sì | No | Un elenco di coppie di tag/valori di stringa arbitrarie come argomenti di connessione.
Per i driver JDBC che richiedono una configurazione aggiuntiva, questi argomenti vengono passati al driver JDBC come argomenti di connessione nel seguente formato: key1=value1;key2=value . |
Nome di riferimento | No | Sì | Un nome che identifica in modo univoco questa origine per la definizione della struttura e l'annotazione degli metadati. Di solito corrisponde al nome della tabella o della visualizzazione. |
Ottieni schema | No | No | Lo schema dei record generati dall'origine. Viene utilizzato al posto dello schema restituito dalla query. Deve corrispondere allo schema restituito dalla query, tranne per il fatto che consente di contrassegnare i campi come consententi valori null e può contenere un sottoinsieme di campi. |
Query di importazione | Sì | Sì | La query SELECT per l'importazione dei dati dalla tabella specificata. Puoi specificare un numero arbitrario di colonne da importare o
importare tutte le colonne utilizzando * . La query deve contenere la stringa
$CONDITIONS . Ad esempio,
SELECT * FROM table WHERE $CONDITIONS . La
stringa $CONDITIONS viene sostituita dal limite
del campo splitBy specificato nel campo Query di confine. La stringa
$CONDITIONS non è obbligatoria se il campo Numero di
suddivisioni è impostato su 1. |
Query di delimitazione | Sì | No | La query di confine che restituisce il minimo e il massimo dei valori
della colonna divisa. Ad esempio,
SELECT MIN(id),MAX(id) FROM table . Non obbligatorio se il
numero di suddivisioni è impostato su 1. |
Nome del campo di suddivisione | Sì | No | Il nome del campo utilizzato per generare le suddivisioni. Non obbligatorio se il numero di suddivisioni da generare è impostato su 1. |
Numero di suddivisioni da generare | Sì | No | Numero di suddivisioni da generare. Il valore predefinito è 1. |
Dimensioni recupero | Sì | No | Il numero di righe da recuperare alla volta per suddivisione. Una dimensione di recupero maggiore
può causare un'importazione più rapida, con il compromesso di un maggiore utilizzo della memoria. Il valore predefinito è 1000. |
Attivare l'commit automatico | No | No | Se attivare l'commit automatico per le query eseguite da questa origine. Mantieni
questa impostazione su False, a meno che non utilizzi un driver JDBC che
causa un errore durante l'esecuzione dell'operazione di commit. Il valore predefinito è False. |
Maiuscole/minuscole dei nomi delle colonne | Sì | No | Imposta la maiuscola dei nomi delle colonne restituiti dalla query. Puoi scegliere tra lettere maiuscole o minuscole. Per impostazione predefinita o per qualsiasi altro input,
i nomi delle colonne non vengono modificati e viene utilizzata la maiuscola restituita dal
database. L'impostazione di questa proprietà garantisce la prevedibilità della maiuscola
dei nomi delle colonne in diversi database, ma potrebbe causare
conflitti di nomi di colonna se più nomi di colonna sono uguali quando la maiuscola
viene ignorata. Il valore predefinito è Nessuna modifica. |
Livello di isolamento delle transazioni | Sì | No | Il livello di isolamento delle transazioni per le query eseguite da questo sink. Per ulteriori informazioni, consulta la sezione setTransactionIsolation() .
Il driver JDBC Phoenix genera un'eccezione se le transazioni non sono attivate nel database Phoenix e questo campo è impostato su true . Per questi conducenti, imposta questo campo su
TRANSACTION_NONE .Il valore predefinito è TRANSACTION_SERIALIZABLE. |
Pattern da sostituire | No | No | Il pattern da sostituire nel nome del campo nella tabella (in genere utilizzato con la proprietà Sostituisci con). Se la proprietà Sostituisci con non è impostata, il pattern viene rimosso dal nome del campo. |
Sostituisci con | No | No | La stringa sostituita nel nome del campo nella tabella. Devi anche configurare il campo Pattern da sostituire. |
Schema di output | No | No | Specifica lo schema da generare. Nel record di output sono incluse solo le colonne definite nello schema. |
Best practice
Controlla se è disponibile un plug-in più specifico per il tuo database. Ad esempio, se hai un'origine database Oracle, utilizza il plug-in dell'origine batch del database Oracle perché è progettato per funzionare con lo schema Oracle.
Note di rilascio
Passaggi successivi
- Scopri di più sui plug-in in Cloud Data Fusion.