Source par lot de la base de données

Cette page fournit des conseils sur la configuration de la source par lot de la base de données dans Cloud Data Fusion.

Vous pouvez utiliser cette source générique chaque fois que vous avez besoin de lire une base de données. Par exemple, vous pouvez l'utiliser pour créer des instantanés quotidiens d'une table de base de données générique et écrire la sortie dans BigQuery.

Configurer le plug-in

  1. Accédez à l'interface Web de Cloud Data Fusion, puis cliquez sur Studio.
  2. Vérifiez que Pipeline de données – lot est sélectionné (et non Temps réel).
  3. Dans le menu Source, cliquez sur Base de données.
  4. Pour configurer le plug-in, maintenez le pointeur sur le nœud du plug-in, puis cliquez sur Propriétés.
  5. Saisissez les propriétés suivantes. Pour en savoir plus sur chaque propriété, consultez la section Propriétés.

    1. Saisissez un libellé pour le nœud de base de données (par exemple, database tables).
    2. Saisissez les informations de connexion. Vous pouvez configurer une nouvelle connexion unique, ou d'une connexion existante réutilisable.

      Nouvelle connexion

      Pour ajouter une connexion unique à la base de données, procédez comme suit :

      1. Laissez l'option Utiliser la connexion désactivée.
      2. Saisissez les propriétés de connexion suivantes:
        1. Dans le champ "Nom du pilote JDBC", saisissez le nom du pilote. s'il y en a une. Sinon, laissez l'option No JDBC plugins (Aucun plug-in JDBC) sélectionné.
        2. Dans le champ Connection string (Chaîne de connexion), saisissez la connexion JDBC. incluant le nom de la base de données.
        3. Facultatif : si votre base de données nécessite une authentification, saisissez le nom d'utilisateur et le mot de passe de la base de données.
        4. Facultatif: si votre pilote JDBC nécessite des configurations supplémentaires, Dans le champ Arguments de connexion, saisissez une clé-valeur. pour la connexion.

      Connexion réutilisable

      Pour réutiliser une connexion existante, procédez comme suit:

      1. Activez l'option Utiliser la connexion.
      2. Cliquez sur Parcourir les connexions.
      3. Sélectionnez la connexion.

      4. Facultatif: Si aucune connexion n'existe et que vous souhaitez créer un nouvelle connexion réutilisable, cliquez sur Ajouter une connexion et consultez suivez la procédure décrite dans l'onglet Nouvelle connexion de cette page.

    3. Facultatif: Pour tester la connectivité, cliquez sur Obtenir un schéma. Ce schéma est utilisé à la place du schéma renvoyé par la requête. Il doit correspondre au schéma renvoyé par la requête, si ce n'est que vous pouvez marquer les champs comme nullables et il peut contenir un sous-ensemble des champs.

    4. Dans le champ Importer une requête, saisissez une requête SELECT pour importer des données de la table spécifiée, par exemple select id, name, email, phone from users;.

    5. Facultatif: dans le champ Requête de limite, saisissez les valeurs minimale et maximale valeurs à lire (par exemple, SELECT * FROM table WHERE $CONDITIONS).

    6. Facultatif: dans le champ Nom du champ de répartition par, saisissez le nom du qui génère les fractionnements.

    7. Facultatif: dans le champ Nombre de fractionnements à générer, saisissez une numérique (par exemple, 2).

    8. Facultatif : Dans le champ Taille de récupération, saisissez un nombre, par exemple 1000.

    9. Facultatif : saisissez des propriétés avancées, par exemple pour modifier la casse des noms de colonnes.

  6. (Facultatif) Cliquez sur Valider et corrigez les erreurs détectées.

  7. Cliquez sur Fermer. Les propriétés sont enregistrées, et vous pouvez continuer à créer dans Cloud Data Fusion Studio.

Propriétés

Propriété Macro activée Obligatoire Description
Label Non Oui Nom du nœud de votre pipeline de données.
Utiliser la connexion Non Non Recherchez une connexion à la source. Si Utiliser la connexion est sélectionné, vous n'avez pas besoin de fournir identifiants de connexion.
Connexion Oui Oui Nom de la connexion à utiliser. Si l'option Utiliser la connexion est sélectionnée, ce champ s'affiche. Les informations sur les bases de données et les tables fournies par la connexion.
Nom du pilote JDBC Oui Oui Pilote JDBC à utiliser.
La valeur par défaut est Aucun plug-in JDBC.
Chaîne de connexion Oui Oui Chaîne de connexion JDBC, y compris le nom de la base de données.
Username (Nom d'utilisateur) Oui Non Identité d'utilisateur pour la connexion à la base de données. Obligatoire pour les bases de données nécessitant une authentification. Facultatif pour les bases de données qui ne nécessitent pas l'authentification unique.
Mot de passe Oui Non Mot de passe à utiliser pour se connecter à la base de données spécifiée. Obligatoire pour les bases de données qui nécessitent une authentification. Facultatif pour les bases de données qui ne et exigent une authentification.
Arguments de connexion Oui Non Liste de paires chaîne balise/valeur arbitraires en tant qu'arguments de connexion. Pour les pilotes JDBC nécessitant une configuration supplémentaire, ces arguments sont transmis au pilote JDBC en tant qu'arguments de connexion dans format: key1=value1;key2=value.
Nom de référence Non Oui Nom identifiant de manière unique cette source pour la traçabilité et l'annotation des métadonnées. Il s'agit généralement du nom de la table ou de la vue.
Obtenir un schéma Non Non Schéma des enregistrements générés par la source. Il est utilisé à la place qui est renvoyé par la requête. Il doit correspondre au schéma renvoyé par la requête, sauf qu'il vous permet de marquer des champs comme pouvant être vides et qu'il peut contenir un sous-ensemble des champs.
Importer la requête Oui Oui La requête SELECT pour importer des données depuis tableau. Vous pouvez spécifier un nombre arbitraire de colonnes à importer, ou Importez toutes les colonnes à l'aide de *. La requête doit contenir la chaîne $CONDITIONS. Par exemple : SELECT * FROM table WHERE $CONDITIONS La La chaîne $CONDITIONS est remplacée par le champ splitBy spécifiée dans le champ Requête de limite. La La chaîne $CONDITIONS n'est pas obligatoire si la valeur Nombre splits est défini sur 1.
Requête de délimitation Oui Non Requête de délimitation qui renvoie les valeurs minimale et maximale des valeurs de la colonne scindée. Exemple : SELECT MIN(id),MAX(id) FROM table. Non obligatoire si la propriété le nombre de divisions est défini sur 1.
Nom du champ à diviser Oui Non Nom de champ utilisé pour générer les fractionnements. Non obligatoire si le nombre de divisions à générer est défini sur 1.
Nombre de divisions à générer Oui Non Nombre de divisions à générer.
La valeur par défaut est 1.
Taille de récupération Oui Non Nombre de lignes à récupérer à la fois par fractionnement. Une taille de récupération plus importante peut accélérer l'importation, en contrepartie d'une utilisation plus importante de la mémoire.
La valeur par défaut est 1000.
Activer le commit automatique Non Non Permet d'activer ou non le commit automatique pour les requêtes exécutées par cette source. Laissez cette valeur définie sur False, sauf si vous utilisez un pilote JDBC qui génère une erreur lors de l'exécution de l'opération de validation.
La valeur par défaut est False.
Majuscule au début de chaque nom de colonne Oui Non Définit la casse des noms de colonne renvoyés par la requête. Toi vous pouvez choisir des majuscules ou des minuscules. Par défaut, ou pour toute autre entrée, les noms des colonnes ne sont pas modifiés et la casse renvoyée par le base de données est utilisée. Définir cette propriété permet de prédire des majuscules dans les noms de colonnes différentes des bases de données, mais cela peut entraîner les noms de colonne sont en conflit si les noms de plusieurs colonnes sont identiques lorsque la casse est ignoré.
La valeur par défaut est Aucun changement.
Niveau d'isolation des transactions Oui Non Niveau d'isolation des transactions pour les requêtes exécutées par ce récepteur. Pour plus consultez les setTransactionIsolation() Le pilote JDBC Phoenix génère une exception si la base de données Phoenix n'a pas de transactions activées et que ce champ est défini sur true Pour les pilotes de ce type, définissez ce champ sur TRANSACTION_NONE
La valeur par défaut est TRANSACTION_SERIALIZABLE.
Schéma à remplacer Non Non Modèle à remplacer dans le nom du champ de la table (généralement utilisé avec la propriété Remplacer par). Si le Replace with (Remplacer par) n'est pas définie, le format est supprimé à partir du nom du champ.
Remplacer par Non Non Chaîne qui est remplacée dans le nom du champ dans la table. Vous devez configurez également le champ Modèle à remplacer.
Schéma de sortie Non Non Spécifie le schéma de sortie. Seules les colonnes définies dans le schéma sont inclus dans l'enregistrement de sortie.

Bonnes pratiques

Vérifiez si un plug-in plus spécifique est disponible pour votre base de données. Par exemple, si vous disposez d'une source de base de données Oracle, utilisez plutôt la source par lots de la base de données Oracle. car il est conçu pour fonctionner avec le schéma Oracle.

Étape suivante