Répliquer les données d'une base de données Oracle vers BigQuery


Ce tutoriel explique comment déployer une tâche qui réplique en continu les données modifiées d'une base de données Oracle vers un ensemble de données BigQuery à l'aide de Cloud Data Fusion Replication. Cette fonctionnalité est fournie par Datastream.

Objectifs

Dans ce tutoriel, vous allez :

  1. Configurer votre base de données Oracle pour activer la journalisation complémentaire.
  2. Créer et exécuter un job de réplication Cloud Data Fusion
  3. Afficher les résultats dans BigQuery.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Lorsque la réplication est exécutée, le cluster Dataproc et Cloud Storage vous sont facturés, ainsi que des coûts de traitement pour Datastream et BigQuery. Pour optimiser ces coûts, nous vous recommandons vivement d'utiliser les tarifs forfaitaires de BigQuery.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Créez une instance Cloud Data Fusion publique dans la version 6.3.0 ou une version ultérieure. Si vous créez une instance privée, configurez l'appairage de réseaux VPC.
    • Lorsque vous créez l'instance, activez la réplication en cliquant sur Ajouter des accélérateurs et en cochant la case Réplication.
    • Pour l'activer dans une instance existante, consultez Activer la réplication.

Rôles requis

Pour obtenir les autorisations nécessaires pour vous connecter à une base de données Oracle, demandez à votre administrateur de vous attribuer les rôles IAM suivants:

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Facultatif: Installer Oracle dans Compute Engine

Cette section explique comment configurer un exemple de base de données. Si une base de données Oracle est déjà installée, vous pouvez ignorer cette section.

  1. Téléchargez une image Docker Oracle Server.

    Pour connaître les limites de cette image Oracle Express Edition 11g, consultez la page Oracle Database Editions.

  2. Déployez votre image Docker sur une nouvelle instance de VM.

  3. Sur la page Disques Compute Engine, définissez la taille du disque sur 500 GB, puis redémarrez la VM.

    Accéder à la page Disques

  4. Installez l'exemple de schéma de ressources humaines.

Créer une règle d'appairage de réseaux VPC ou de pare-feu pour votre serveur Oracle

Si votre base de données Oracle n'autorise pas le trafic d'entrée provenant d'adresses IP publiques, configurez l'appairage de réseaux VPC entre le VPC Datastream et le VPC dans lequel votre base de données Oracle est accessible. Pour en savoir plus, consultez la section Créer une configuration de connectivité privée.

Si votre base de données Oracle autorise le trafic entrant provenant d'adresses IP publiques, créez une règle de pare-feu pour l'instance de VM afin d'autoriser le trafic entrant provenant d'adresses IP publiques Datastream.

Configurer Oracle Server pour activer la journalisation complémentaire

Suivez les étapes pour configurer votre base de données Oracle source.

Créer et exécuter un job de réplication Cloud Data Fusion

Créer la mission

  1. Dans l'interface Web de Cloud Data Fusion, cliquez sur Réplication.

  2. Cliquez sur Créer un job de réplication.

  3. Sur la page Créer une tâche de réplication, indiquez le nom de la tâche de réplication, puis cliquez sur Suivant.

  4. Configurez la source :

    1. Sélectionnez Oracle (by Datastream) comme source.

    2. Pour Méthode de connectivité, si votre serveur Oracle autorise le trafic entrant provenant d'adresses IP publiques DataStream, sélectionnez Liste d'autorisation d'adresses IP. Sinon, pour Nom de la connexion privée, sélectionnez Connectivité privée (appairage VPC), puis saisissez le nom de l'appairage de VPC que vous avez créé dans la section Créer un appairage de réseaux VPC ou une règle de pare-feu pour votre serveur Oracle.

    3. Pour Hôte, saisissez le nom d'hôte du serveur Oracle à lire.

    4. Dans le champ Port, saisissez le port à utiliser pour se connecter au serveur Oracle : 1521.

    5. Pour Identité du système, saisissez xe (exemple de nom de base de données du serveur Oracle).

    6. Dans la section des identifiants, saisissez votre nom d'utilisateur et votre mot de passe pour accéder au serveur Oracle.

    7. Ne modifiez pas toutes les autres propriétés.

  5. Cliquez sur Suivant.

  6. Configurez la cible comme suit :

    1. Sélectionnez la cible BigQuery.

    2. L'ID du projet et la clé du compte de service sont automatiquement détectés. Conservez les valeurs par défaut telles quelles.

    3. Facultatif: Dans la section Avancé, vous pouvez configurer les éléments suivants:

      • Nom et emplacement du bucket de préproduction
      • Intervalle de chargement
      • Préfixe de la table de préproduction
      • Comportement en cas de suppression de tables ou de bases de données
  7. Cliquez sur Suivant.

  8. Si la connexion aboutit, une liste de tables s'affiche. Pour ce tutoriel, sélectionnez quelques tables.

  9. Cliquez sur Suivant.

  10. Sur la page Examiner l'évaluation, cliquez sur Afficher les mappages à partir de l'une des tables pour obtenir une évaluation des problèmes de schéma, des fonctionnalités manquantes ou des problèmes de connectivité pouvant se produire pendant la réplication.

    Si des problèmes surviennent, vous devez les résoudre avant de continuer. Pour ce tutoriel, si l'une des tables présente des problèmes, procédez comme suit:

    1. Revenez à l'étape où vous avez sélectionné des tables.
    2. Sélectionnez une table ou un événement (insertions, mises à jour ou suppressions) qui ne présente aucun problème.

    Pour en savoir plus sur les conversions de types de données de la base de données source vers la destination BigQuery, consultez la page Types de données de réplication.

  11. Cliquez sur Back (Retour).

  12. Cliquez sur Suivant.

  13. Vérifiez les détails de la tâche de réplication récapitulative, puis cliquez sur Déployer la tâche de réplication.

Démarrer la tâche

  1. Dans l'interface Web de Cloud Data Fusion, accédez à la page Informations sur le job de réplication.

  2. Cliquez sur Start (Démarrer).

La tâche de réplication passe de l'état Provisionnement à Démarrage, puis à l'état En cours d'exécution. Lorsqu'elle est en cours d'exécution, la tâche de réplication charge dans BigQuery un instantané initial des données de la table que vous avez sélectionnées. Dans cet état, l'état de la table est répertorié comme Création d'instantanés. Une fois l'instantané initial chargé dans BigQuery, toutes les modifications apportées à la table sont répliquées dans BigQuery et l'état de la table est répertorié en tant qu'instance dupliquée.

Surveiller la tâche

Vous pouvez démarrer et arrêter le job de réplication, examiner sa configuration et ses journaux, et surveiller votre job de réplication.

Vous pouvez surveiller les activités des tâches de réplication sur la page Informations sur le job de réplication.

  1. Sur la page Réplication, cliquez sur le nom de la tâche de réplication souhaitée.

  2. Cliquez sur Surveillance.

Afficher les résultats dans BigQuery

La tâche de réplication crée un ensemble de données et une table répliqués dans BigQuery, avec les noms hérités des noms de base de données et de table Oracle correspondants.

  1. Dans la console Google Cloud, accédez à la page BigQuery.

  2. Dans le panneau de gauche, cliquez sur le nom de votre projet pour développer la liste des ensembles de données.

  3. Sélectionnez l'ensemble de données xe, puis sélectionnez une table à afficher.

Pour en savoir plus, consultez la documentation de BigQuery.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Une fois le tutoriel terminé, nettoyez les ressources que vous avez créées sur Google Cloud afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer l'instance de VM

  1. Dans Google Cloud Console, accédez à la page Instances de VM.

    Accéder à la page Instances de VM

  2. Cochez la case correspondant à l'instance que vous souhaitez supprimer.

  3. Pour supprimer l'instance, cliquez sur Supprimer.

Supprimer l'instance Cloud Data Fusion

Suivez les instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Étapes suivantes