Cette page a été traduite par l'API Cloud Translation.

Répliquer des données de SQL Server vers BigQuery

Ce tutoriel explique comment créer et déployer une tâche qui réplique en continu les données modifiées d'une base de données Microsoft SQL Server vers une table BigQuery.

Objectifs

Dans ce tutoriel, vous allez :

Activez la capture de données modifiées (CDC) dans votre base de données SQL Server.
Créez et exécutez une tâche de réplication Cloud Data Fusion.
Afficher les résultats dans BigQuery.

Coûts

Dans ce document, vous utilisez les composants facturables de Google Cloudsuivants :

Vous pouvez obtenir une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.

Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Lors de l'exécution de la réplication, le cluster Dataproc vous est facturé et des frais de traitement vous sont facturés pour BigQuery. Pour optimiser ces coûts, nous vous recommandons vivement d'utiliser les tarifs forfaitaires de BigQuery.

Avant de commencer

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Créez une instance Cloud Data Fusion publique dans la version 6.3.0 ou ultérieure. Si vous créez une instance privée, configurez l'appairage de réseaux VPC.
- Lorsque vous créez l'instance, activez la réplication en cliquant sur Ajouter des accélérateurs et en cochant la case Réplication.
- Pour l'activer dans une instance existante, consultez Activer la réplication.

Pour en savoir plus sur la mise en réseau, consultez Utiliser HAProxy avec Cloud Data Fusion pour parcourir des topologies réseau complexes.

Rôles requis

Pour obtenir les autorisations dont vous avez besoin pour ce tutoriel, consultez Contrôle des accès avec IAM et Accorder l'autorisation d'utilisateur à un compte de service.

Facultatif : Configurer une instance de VM SQL Server

Créez une instance SQL Server.
Téléchargez la base de données AdventureWorks2017 (OLTP) et chargez les données dans votre instance SQL Server.

Activer la CDC dans votre base de données SQL Server

Pour la réplication, activez la capture des données modifiées (CDC) sur la base de données et la table que vous souhaitez répliquer.

Si vous avez défini des types de données personnalisés dans les colonnes de table répliquées, le propriétaire de la table doit accorder des autorisations EXECUTE pour les types de données personnalisés à l'utilisateur de la base de données spécifié dans la tâche de réplication.

Créer et exécuter une tâche de réplication Cloud Data Fusion

Importer le pilote JDBC

Téléchargez le pilote JDBC SQL Server sur votre ordinateur local.
Dans l'interface Web de Cloud Data Fusion, importez le pilote JDBC. Configurez le pilote JDBC à l'aide des valeurs suivantes :
- Dans le champ Nom, saisissez sqlserver.
- Dans le champ Nom de la classe, saisissez com.microsoft.sqlserver.jdbc.SQLServerDriver.
- Dans le champ Version, conservez la valeur par défaut.

Créer la mission

Dans l'interface Web de Cloud Data Fusion, cliquez sur Réplication.
Cliquez sur Créer un job de réplication.
Sur la page Créer une tâche de réplication, spécifiez un nom de tâche de réplication, puis cliquez sur Suivant.
Configurez la source:
1. Sélectionnez Microsoft SQL Server comme source.
2. Pour le champ Hôte, saisissez le nom d'hôte de SQL Server à lire.
3. Pour le Port, saisissez le port à utiliser pour vous connecter à SQL Server: 1433.
4. Dans le champ Nom du plug-in JDBC, sélectionnez sqlserver ou le nom que vous avez spécifié lors de la configuration du pilote JDBC.
5. Dans le champ Nom de base de données), saisissez AdventureWorks2017.
6. Dans la section Identifiants, saisissez votre nom d'utilisateur et votre mot de passe pour accéder à SQL Server.
Cliquez sur Suivant.
Configurez la cible comme suit :
1. Sélectionnez la cible BigQuery.
2. L'ID du projet et la clé du compte de service sont automatiquement détectés. Conservez les valeurs par défaut.
3. (Facultatif) Dans la section Avancé, vous pouvez configurer le nom et l'emplacement du bucket Cloud Storage, l'intervalle de charge, le préfixe de la table de préproduction et le comportement lorsque des tables ou des bases de données sont supprimées.
Cliquez sur Suivant.
Si la connexion est établie, une liste de tables AdventureWorks2017 s'affiche. Pour ce tutoriel, sélectionnez quelques tables et événements, tels que les événements Insert, Update et Delete.

Remarque : Pour continuer, vous devez activer la CDC sur les tables sélectionnées.
Facultatif : Configurez les propriétés avancées. Pour ce tutoriel, vous pouvez accepter les paramètres par défaut.
Cliquez sur Suivant.
Sur la page Examiner l'évaluation, cliquez sur Afficher les mappages à partir de l'une des tables pour obtenir une évaluation des problèmes de schéma, des fonctionnalités manquantes ou des problèmes de connectivité pouvant se produire pendant la réplication. Vous devez résoudre les problèmes avant de pouvoir continuer. Pour ce tutoriel, si l'une des tables présente des problèmes, revenez à l'étape où vous avez sélectionné des tables et sélectionnez une table ou un événement ne présentant pas de problème.

Pour en savoir plus sur les conversions de types de données de la base de données source vers la destination BigQuery, consultez Types de données de réplication.
Cliquez sur Back (Retour).
Cliquez sur Suivant.
Examinez les détails de la tâche de réplication, puis cliquez sur Déployer la tâche de réplication.

Démarrer la tâche

Sur la page Informations sur la tâche de réplication, cliquez sur Démarrer.

La tâche de réplication passe de l'état Provisionnement à Démarrage à l'état En cours d'exécution. En cours d'exécution, la tâche de réplication charge dans BigQuery un instantané initial des données de table que vous avez sélectionnées (par exemple, la table "Personnes"). Dans cet état, l'état de la table People est répertorié sous la forme Création d'instantanés. Une fois l'instantané initial chargé dans BigQuery, toutes les modifications apportées à la table "Personnes" sont répliquées dans BigQuery. L'état de la table est indiqué comme Réplication.

Surveiller la tâche

Vous pouvez démarrer et arrêter la tâche de réplication, examiner sa configuration et ses journaux, et surveiller sa tâche.

Vous pouvez surveiller les activités de la tâche de réplication depuis la page Informations sur la tâche de réplication.

Sur la page Réplication, cliquez sur le nom de la tâche de réplication.
Cliquez sur Surveillance.

Afficher les résultats dans BigQuery

La tâche de réplication crée un ensemble de données et une table répliqués dans BigQuery, avec des noms hérités de la base de données SQL Server et des noms de table correspondants.

Ouvrez BigQuery dans la consoleGoogle Cloud .
Dans le panneau de gauche, cliquez sur le nom du projet pour développer la liste des ensembles de données.
Sélectionnez l'ensemble de données adventureworks2017, puis sélectionnez une table à afficher.

Pour en savoir plus, consultez la documentation BigQuery.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Une fois le tutoriel terminé, supprimez les ressources que vous avez créées surGoogle Cloud.

Supprimer l'instance de VM

In the Google Cloud console, go to the VM instances page.
Go to VM instances
Select the checkbox for the instance that you want to delete.
To delete the instance, click More actions, click Delete, and then follow the instructions.

Supprimer l'instance Cloud Data Fusion

Suivez les instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Attention : La suppression d'un projet entraîne les effets décrits ci-dessous :

Tout le contenu du projet est supprimé. Si vous avez utilisé un projet existant pour les tâches décrites dans ce document et que vous le supprimez, vous supprimerez également tout autre travail effectué dans le projet.
Les ID de projets personnalisés sont perdus. Lorsque vous avez créé ce projet, vous avez peut-être créé un ID de projet personnalisé que vous souhaitez utiliser à l'avenir. Pour conserver les URL qui utilisent l'ID de projet, telle qu'une URL appspot.com, supprimez les ressources sélectionnées dans le projet au lieu de supprimer l'ensemble du projet.

Si vous envisagez d'explorer plusieurs architectures, tutoriels et guides de démarrage rapide, réutiliser des projets peut vous aider à ne pas dépasser les limites de quotas des projets.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Étapes suivantes

En savoir plus sur la réplication dans Cloud Data Fusion.
Consultez la documentation de référence de l'API Replication.
Suivez le tutoriel Répliquer les données de MySQL vers BigQuery.
Suivez le tutoriel Répliquer les données d'Oracle vers BigQuery.