Vous pouvez utiliser cette source générique chaque fois que vous avez besoin de lire une base de données. Par exemple, vous pouvez l'utiliser pour créer des instantanés quotidiens d'une table de base de données générique et écrire la sortie dans BigQuery.
Configurer le plug-in
- Accédez à l'interface Web de Cloud Data Fusion, puis cliquez sur Studio.
- Vérifiez que Pipeline de données – lot est sélectionné (et non Temps réel).
- Dans le menu Source, cliquez sur Base de données.
- Pour configurer le plug-in, maintenez le pointeur sur le nœud du plug-in, puis cliquez sur Propriétés.
Saisissez les propriétés suivantes. Pour en savoir plus sur chaque propriété, consultez la section Propriétés.
- Saisissez un libellé pour le nœud de base de données (par exemple,
database tables
). Saisissez les informations de connexion. Vous pouvez configurer une nouvelle connexion unique, ou d'une connexion existante réutilisable.
Nouvelle connexion
Pour ajouter une connexion unique à la base de données, procédez comme suit :
- Laissez l'option Utiliser la connexion désactivée.
- Saisissez les propriétés de connexion suivantes:
- Dans le champ "Nom du pilote JDBC", saisissez le nom du pilote. s'il y en a une. Sinon, laissez l'option No JDBC plugins (Aucun plug-in JDBC) sélectionné.
- Dans le champ Connection string (Chaîne de connexion), saisissez la connexion JDBC. incluant le nom de la base de données.
- Facultatif : si votre base de données nécessite une authentification, saisissez le nom d'utilisateur et le mot de passe de la base de données.
- Facultatif: si votre pilote JDBC nécessite des configurations supplémentaires, Dans le champ Arguments de connexion, saisissez une clé-valeur. pour la connexion.
Connexion réutilisable
Pour réutiliser une connexion existante, procédez comme suit:
- Activez l'option Utiliser la connexion.
- Cliquez sur Parcourir les connexions.
Sélectionnez la connexion.
Facultatif: Si aucune connexion n'existe et que vous souhaitez créer un nouvelle connexion réutilisable, cliquez sur Ajouter une connexion et consultez suivez la procédure décrite dans l'onglet Nouvelle connexion de cette page.
Facultatif: Pour tester la connectivité, cliquez sur Obtenir un schéma. Ce schéma est utilisé à la place du schéma renvoyé par la requête. Il doit correspondre au schéma renvoyé par la requête, si ce n'est que vous pouvez marquer les champs comme nullables et il peut contenir un sous-ensemble des champs.
Dans le champ Importer une requête, saisissez une requête
SELECT
pour importer des données de la table spécifiée, par exempleselect id, name, email, phone from users;
.Facultatif: dans le champ Requête de limite, saisissez les valeurs minimale et maximale valeurs à lire (par exemple,
SELECT * FROM table WHERE $CONDITIONS
).Facultatif: dans le champ Nom du champ de répartition par, saisissez le nom du qui génère les fractionnements.
Facultatif: dans le champ Nombre de fractionnements à générer, saisissez une numérique (par exemple,
2
).Facultatif : Dans le champ Taille de récupération, saisissez un nombre, par exemple
1000
.Facultatif : saisissez des propriétés avancées, par exemple pour modifier la casse des noms de colonnes.
- Saisissez un libellé pour le nœud de base de données (par exemple,
(Facultatif) Cliquez sur Valider et corrigez les erreurs détectées.
Cliquez sur Fermer. Les propriétés sont enregistrées, et vous pouvez continuer à créer dans Cloud Data Fusion Studio.
Propriétés
Propriété | Macro activée | Obligatoire | Description |
---|---|---|---|
Label | Non | Oui | Nom du nœud de votre pipeline de données. |
Utiliser la connexion | Non | Non | Recherchez une connexion à la source. Si Utiliser la connexion est sélectionné, vous n'avez pas besoin de fournir identifiants de connexion. |
Connexion | Oui | Oui | Nom de la connexion à utiliser. Si l'option Utiliser la connexion est sélectionnée, ce champ s'affiche. Les informations sur les bases de données et les tables fournies par la connexion. |
Nom du pilote JDBC | Oui | Oui | Pilote JDBC à utiliser. La valeur par défaut est Aucun plug-in JDBC. |
Chaîne de connexion | Oui | Oui | Chaîne de connexion JDBC, y compris le nom de la base de données. |
Username (Nom d'utilisateur) | Oui | Non | Identité d'utilisateur pour la connexion à la base de données. Obligatoire pour les bases de données nécessitant une authentification. Facultatif pour les bases de données qui ne nécessitent pas l'authentification unique. |
Mot de passe | Oui | Non | Mot de passe à utiliser pour se connecter à la base de données spécifiée. Obligatoire pour les bases de données qui nécessitent une authentification. Facultatif pour les bases de données qui ne et exigent une authentification. |
Arguments de connexion | Oui | Non | Liste de paires chaîne balise/valeur arbitraires en tant qu'arguments de connexion.
Pour les pilotes JDBC nécessitant une configuration supplémentaire, ces arguments sont
transmis au pilote JDBC en tant qu'arguments de connexion dans
format: key1=value1;key2=value . |
Nom de référence | Non | Oui | Nom identifiant de manière unique cette source pour la traçabilité et l'annotation des métadonnées. Il s'agit généralement du nom de la table ou de la vue. |
Obtenir un schéma | Non | Non | Schéma des enregistrements générés par la source. Il est utilisé à la place qui est renvoyé par la requête. Il doit correspondre au schéma renvoyé par la requête, sauf qu'il vous permet de marquer des champs comme pouvant être vides et qu'il peut contenir un sous-ensemble des champs. |
Importer la requête | Oui | Oui | La requête SELECT pour importer des données depuis
tableau. Vous pouvez spécifier un nombre arbitraire de colonnes à importer, ou
Importez toutes les colonnes à l'aide de * . La requête doit contenir la chaîne $CONDITIONS . Par exemple :
SELECT * FROM table WHERE $CONDITIONS La
La chaîne $CONDITIONS est remplacée par le champ splitBy
spécifiée dans le champ Requête de limite. La
La chaîne $CONDITIONS n'est pas obligatoire si la valeur Nombre
splits est défini sur 1. |
Requête de délimitation | Oui | Non | Requête de délimitation qui renvoie les valeurs minimale et maximale des valeurs
de la colonne scindée. Exemple : SELECT MIN(id),MAX(id) FROM table . Non obligatoire si la propriété
le nombre de divisions est défini sur 1. |
Nom du champ à diviser | Oui | Non | Nom de champ utilisé pour générer les fractionnements. Non obligatoire si le nombre de divisions à générer est défini sur 1. |
Nombre de divisions à générer | Oui | Non | Nombre de divisions à générer. La valeur par défaut est 1. |
Taille de récupération | Oui | Non | Nombre de lignes à récupérer à la fois par fractionnement. Une taille de récupération plus importante
peut accélérer l'importation, en contrepartie d'une utilisation plus importante de la mémoire. La valeur par défaut est 1000. |
Activer le commit automatique | Non | Non | Permet d'activer ou non le commit automatique pour les requêtes exécutées par cette source. Laissez cette valeur définie sur False, sauf si vous utilisez un pilote JDBC qui génère une erreur lors de l'exécution de l'opération de validation. La valeur par défaut est False. |
Majuscule au début de chaque nom de colonne | Oui | Non | Définit la casse des noms de colonne renvoyés par la requête. Toi
vous pouvez choisir
des majuscules ou des minuscules. Par défaut, ou pour toute autre entrée,
les noms des colonnes ne sont pas modifiés et la casse renvoyée par le
base de données est utilisée. Définir cette propriété permet de prédire
des majuscules dans les noms de colonnes
différentes des bases de données, mais cela peut entraîner
les noms de colonne sont en conflit si les noms de plusieurs colonnes sont identiques lorsque la casse
est ignoré. La valeur par défaut est Aucun changement. |
Niveau d'isolation des transactions | Oui | Non | Niveau d'isolation des transactions pour les requêtes exécutées par ce récepteur. Pour plus
consultez les
setTransactionIsolation()
Le pilote JDBC Phoenix génère une exception si la base de données Phoenix
n'a pas de transactions activées et que ce champ est défini sur
true Pour les pilotes de ce type, définissez ce champ sur
TRANSACTION_NONE La valeur par défaut est TRANSACTION_SERIALIZABLE. |
Schéma à remplacer | Non | Non | Modèle à remplacer dans le nom du champ de la table (généralement utilisé avec la propriété Remplacer par). Si le Replace with (Remplacer par) n'est pas définie, le format est supprimé à partir du nom du champ. |
Remplacer par | Non | Non | Chaîne qui est remplacée dans le nom du champ dans la table. Vous devez configurez également le champ Modèle à remplacer. |
Schéma de sortie | Non | Non | Spécifie le schéma de sortie. Seules les colonnes définies dans le schéma sont inclus dans l'enregistrement de sortie. |
Bonnes pratiques
Vérifiez si un plug-in plus spécifique est disponible pour votre base de données. Par exemple, si vous disposez d'une source de base de données Oracle, utilisez plutôt la source par lots de la base de données Oracle. car il est conçu pour fonctionner avec le schéma Oracle.
Notes de version
Étape suivante
- Apprenez-en plus sur les plug-ins dans Cloud Data Fusion.