Cette page explique comment préparer les fichiers Avro que vous avez exportés à partir de bases de données autres que Spanner, puis les importer dans Spanner. Si vous souhaitez importer une base de données Spanner que vous avez précédemment exportée, consultez la page Importer des fichiers Avro Spanner.
Le processus utilise Dataflow. Il importe les données d'un bucket Cloud Storage contenant un ensemble de fichiers Avro et un fichier manifeste JSON spécifiant les tables de destination et les fichiers Avro qui renseignent chaque table.
Avant de commencer
Pour importer une base de données Spanner, vous devez d'abord activer Spanner, Cloud Storage, API Compute Engine et Dataflow:
Vous devez également disposer d'un quota suffisant, ainsi que des autorisations IAM requises.
Exigences en matière de quota
Voici les exigences de quota concernant les tâches d'importation :
- Spanner : vous devez disposer d'une capacité de calcul suffisante pour prendre en charge la quantité de données que vous importez. Aucune capacité de calcul supplémentaire n'est requise pour importer une base de données, mais il peut s'avérer nécessaire d'ajouter de la capacité de calcul pour que la tâche se termine dans un délai raisonnable. Pour en savoir plus, consultez Optimiser les missions.
- Cloud Storage : pour effectuer des importations, vous devez disposer d'un bucket contenant les fichiers que vous avez exportés auparavant. Vous n'avez pas besoin de définir une taille pour votre bucket.
- Dataflow : les tâches d'importation sont soumises aux mêmes exigences que les autres tâches Dataflow en ce qui concerne les quotas Compute Engine, aussi bien pour l'utilisation de processeurs et d'espace disque que pour le nombre d'adresses IP.
Compute Engine : avant d'exécuter une tâche d'importation, vous devez définir les quotas initiaux Compute Engine utilisés par Dataflow. Ces quotas représentent les quantités maximales de ressources que Dataflow pourra utiliser pour votre tâche. Les valeurs de départ recommandées sont les suivantes :
- Processeurs : 200
- Adresses IP en cours d'utilisation : 200
- Disque persistant standard : 50 To
En règle générale, vous n'avez pas d'autres réglages à effectuer. Dataflow assure un autoscaling qui vous permet de ne payer que pour les ressources réellement utilisées lors de l'importation. S'il apparaît que votre tâche pourrait utiliser davantage de ressources, l'interface utilisateur de Dataflow affiche une icône d'avertissement, mais cela n'empêche normalement pas la tâche d'aboutir.
Rôles requis
Pour obtenir les autorisations nécessaires pour exporter une base de données, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le compte de service de l'agent Dataflow :
-
Lecteur Cloud Spanner (
roles/spanner.viewer
) -
Nœud de calcul Dataflow (
roles/dataflow.worker
) -
Administrateur de l'espace de stockage (
roles/storage.admin
) -
Lecteur de bases de données Spanner (
roles/spanner.databaseReader
) -
Administrateur de base de données (
roles/spanner.databaseAdmin
)
Exporter des données d'une base de données autre que Spanner vers des fichiers Avro
Le processus d'importation apporte des données issues de fichiers Avro situés dans un bucket Cloud Storage. Vous pouvez exporter des données au format Avro depuis n'importe quelle source et utiliser toutes les méthodes disponibles pour le faire.
Pour exporter des données d'une base de données autre que Spanner vers des fichiers Avro, procédez comme suit : procédez comme suit:
Tenez compte des points suivants lorsque vous exportez vos données :
- Vous pouvez exporter les données à l'aide de n'importe lequel des types primitifs Avro, ainsi qu'avec le type complexe Tableau.
Chaque colonne de vos fichiers Avro doit utiliser l'un des types de colonne suivants :
ARRAY
BOOL
BYTES
*DOUBLE
FLOAT
INT
LONG
†STRING
‡
* Une colonne de type
BYTES
permet d'importer unNUMERIC
Spanner. voir la section Mappages recommandés ci-dessous pour en savoir plus.†,‡ Vous pouvez importer un
LONG
stockant un horodatage ou unSTRING
stockant un l'horodatage en tant queTIMESTAMP
Spanner. consultez les ressources suivantes : mappages recommandés.Il n'est pas nécessaire d'inclure ou de générer des métadonnées lorsque vous exportez les fichiers Avro.
Il n'est pas nécessaire de suivre une convention d'attribution de noms particulière pour vos fichiers.
Si vous n'exportez pas vos fichiers directement vers Cloud Storage, vous devez les importer dans un bucket Cloud Storage. Pour obtenir des instructions, consultez Importer des objets dans Cloud Storage.
Importer des fichiers Avro depuis des bases de données autres que Spanner vers Spanner
Pour importer des fichiers Avro d'une base de données autre que Spanner vers Spanner, procédez comme suit :
- Créez des tables cibles et définissez le schéma de votre base de données Spanner.
- Créez un fichier
spanner-export.json
dans votre bucket Cloud Storage. - Exécuter un job d'importation Dataflow à l'aide de gcloud CLI
Étape 1: Créez le schéma de votre base de données Spanner
Avant d'exécuter l'importation, vous devez créer la table cible dans Spanner. et définir son schéma.
Vous devez créer un schéma qui utilise le type de colonne approprié pour chaque colonne des fichiers Avro.
Mappages recommandés
GoogleSQL
Type de colonne Avro | Type de colonne Spanner |
---|---|
ARRAY |
ARRAY |
BOOL |
BOOL |
BYTES |
|
DOUBLE |
FLOAT64 |
FLOAT |
FLOAT64 |
INT |
INT64 |
LONG |
|
STRING |
|
PostgreSQL
Type de colonne Avro | Type de colonne Spanner |
---|---|
ARRAY |
ARRAY |
BOOL |
BOOLEAN |
BYTES |
|
DOUBLE |
DOUBLE PRECISION |
FLOAT |
DOUBLE PRECISION |
INT |
BIGINT |
LONG |
|
STRING |
|
Étape 2 : Créez un fichier spanner-export.json
Vous devez également créer un fichier nommé spanner-export.json
dans votre bucket Cloud Storage. Ce fichier spécifie le dialecte de la base de données et contient un tableau tables
qui répertorie le nom et les emplacements des fichiers de données pour chaque table.
Le contenu du fichier a le format suivant :
{ "tables": [ { "name": "TABLE1", "dataFiles": [ "RELATIVE/PATH/TO/TABLE1_FILE1", "RELATIVE/PATH/TO/TABLE1_FILE2" ] }, { "name": "TABLE2", "dataFiles": ["RELATIVE/PATH/TO/TABLE2_FILE1"] } ], "dialect":"DATABASE_DIALECT" }
Où DATABASE_DIALECT = {GOOGLE_STANDARD_SQL
| POSTGRESQL
}
Si l'élément de dialecte est omis, la valeur par défaut du dialecte est GOOGLE_STANDARD_SQL
.
Étape 3 : Exécuter une tâche d'importation Dataflow à l'aide de la CLI gcloud
Pour démarrer votre tâche d'importation, suivez les instructions permettant d'utiliser la Google Cloud CLI et d'exécuter une tâche avec le modèle Avro vers Spanner.
Après avoir démarré un job d'importation, vous pouvez en consulter les détails dans la console Google Cloud.
Une fois la tâche d'importation terminée, ajoutez les éventuels index secondaires et clés étrangères.
Choisir une région pour votre tâche d'importation
Vous pouvez choisir une autre région en fonction de l'emplacement bucket Cloud Storage. Pour éviter les frais de transfert de données sortants, choisissez une région correspondant à l'emplacement de votre bucket Cloud Storage.
Si l'emplacement de votre bucket Cloud Storage est une région, vous peuvent profiter de l'utilisation gratuite du réseau en choisissant la même région pour votre job d'importation, en supposant que cette région est disponible.
Si l'emplacement de votre bucket Cloud Storage est une région duale, vous pouvez bénéficier de l'utilisation gratuite du réseau en choisissant l'une des deux régions qui la composent pour votre tâche d'importation, à condition que l'une d'elles soit disponible.
Si une région située dans la même zone géographique n'est pas disponible pour votre job d'importation ou si votre L'emplacement du bucket Cloud Storage est multirégional, des frais de transfert de données sortantes s'appliquent. Consultez les tarifs de transfert de données Cloud Storage pour choisir la région qui génère les frais de transfert de données les plus bas.
Afficher ou dépanner des jobs dans l'interface utilisateur de Dataflow
Après avoir démarré un job d'importation, vous pouvez en afficher les détails, y compris dans la section "Dataflow" de la console Google Cloud.
Afficher les détails d'une tâche Dataflow
Pour afficher les détails des tâches d'importation/exportation exécutées au cours de la dernière semaine, y compris les tâches en cours d'exécution :
- Accédez à la page Présentation de la base de données correspondant à la base de données.
- Cliquez sur l'élément de menu du volet Importations/Exportations à gauche. La page Importations/Exportations de la base de données affiche la liste des tâches récentes.
Sur la page Importations/Exportations de la base de données, cliquez sur le nom de la tâche dans la colonne Nom de la tâche Dataflow :
La console Google Cloud affiche les détails de la tâche Dataflow.
Pour afficher une tâche que vous avez exécutée il y a plus d'une semaine :
Accédez à la page des tâches Dataflow dans la console Google Cloud.
Recherchez votre tâche dans la liste, puis cliquez sur son nom.
La console Google Cloud affiche les détails de Dataflow tâche.
Afficher les journaux Dataflow associés à votre job
Pour afficher les journaux d'une tâche Dataflow, accédez à la page des détails de la tâche comme décrit ci-dessus, puis cliquez sur Journaux à droite du nom de la tâche.
Si une tâche échoue, recherchez les erreurs dans les journaux. Si des erreurs ont été enregistrées, leur nombre s'affiche à côté du bouton Logs (Journaux) :
Pour afficher les erreurs relatives à une tâche :
Cliquez sur le nombre d'erreurs affiché à côté du bouton Logs (Journaux).
La console Google Cloud affiche les journaux du job. Vous devrez éventuellement faire défiler l'affichage pour voir les erreurs.
Repérez les entrées signalées par l'icône d'erreur .
Cliquez sur une entrée de journal pour développer son contenu.
Pour en savoir plus sur la résolution des problèmes liés aux jobs Dataflow, consultez la page Résolvez les problèmes liés à votre pipeline.
Résoudre les problèmes liés aux tâches d'importation ayant échoué
Si les erreurs suivantes s'affichent dans les journaux de vos tâches :
com.google.cloud.spanner.SpannerException: NOT_FOUND: Session not found --or-- com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED: Deadline expired before operation could complete.
Consultez le Latence d'écriture de 99% dans le l'onglet Surveillance de votre base de données Spanner dans console Google Cloud. Si elle affiche des valeurs élevées (plusieurs secondes), cela signifie que l'instance est surchargée, ce qui entraîne l'expiration et l'échec de l'écriture.
Cette latence élevée peut s'expliquer notamment par le fait que la tâche Dataflow s'exécute à l'aide d'un trop grand nombre de nœuds de calcul, ce qui surcharge l'instance Spanner.
Pour spécifier une limite de nœuds de calcul Dataflow, au lieu d'utiliser l'onglet "Import/Export" (Importer/Exporter) sur la page d'informations sur l'instance de votre base de données Spanner dans la console Google Cloud, vous devez démarrer l'importation à l'aide du modèle Cloud Storage Avro vers Cloud Spanner Dataflow et spécifier le nombre maximal de nœuds de calcul, comme décrit ci-dessous :Si vous utilisez la console Dataflow, le paramètre Nombre maximal de nœuds de calcul se trouve dans la section Paramètres facultatifs de la page Créer une tâche à partir d'un modèle.
Si vous utilisez gcloud, spécifiez l'argument
max-workers
. Exemple :gcloud dataflow jobs run my-import-job \ --gcs-location='gs://dataflow-templates/latest/GCS_Avro_to_Cloud_Spanner' \ --region=us-central1 \ --parameters='instanceId=test-instance,databaseId=example-db,inputDir=gs://my-gcs-bucket' \ --max-workers=10
Optimiser les tâches d'importation lentes
Si vous avez adopté les paramètres initiaux suggérés plus haut, vous n'avez en principe aucun autre réglage à effectuer. Voici toutefois quelques possibilités d'optimisation supplémentaires à envisager si l'exécution de votre tâche est lente :
Optimisez le job et l'emplacement des données: exécutez votre job Dataflow. dans la même région que celle où votre instance Spanner et bucket Cloud Storage.
Assurez-vous que les ressources Dataflow sont suffisantes: si le quotas Compute Engine pertinents limiter les ressources de votre job Dataflow, Page Dataflow dans la console Google Cloud affiche une icône d'avertissement et journal messages:
Dans ce cas, l'augmentation des quotas en termes de processeurs, d'adresses IP en cours d'utilisation et de disques persistants standards peut accélérer l'exécution de votre tâche, mais également augmenter les frais facturés pour Compute Engine.
Vérifiez l'utilisation du processeur Spanner: si vous constatez que le processeur de l'instance est supérieure à 65%, vous pouvez augmentez la capacité de calcul de cette instance. La capacité ajoute davantage de ressources Spanner et la tâche devrait accélérer, mais vous devrez payer plus de frais pour Spanner.
Facteurs affectant les performances des tâches d'importation
Plusieurs facteurs influent sur le temps nécessaire pour mener à bien une tâche d'importation.
Taille de la base de données Spanner : le temps de traitement et les ressources requises augmentent avec la quantité de données à traiter.
Schéma de la base de données Spanner, y compris :
- Le nombre de tables
- Taille des lignes
- Nombre d'index secondaires
- Nombre de clés étrangères
- Nombre de flux de modifications
Emplacement des données: les données sont transférées entre Spanner et Cloud Storage avec Dataflow. Dans l'idéal, ces trois composants doivent se trouver dans la même région. Dans le cas contraire, le déplacement des données entre les régions ralentit l'exécution de la tâche.
Nombre de nœuds de calcul Dataflow : les nœuds de calcul Dataflow optimaux sont nécessaires pour de bonnes performances. En utilisant l'autoscaling, Dataflow choisit le nombre de nœuds de calcul pour la tâche en fonction de la quantité de travail à effectuer. Le nombre de nœuds de calcul sera toutefois limité par les quotas en matière de processeurs, d'adresses IP en cours d'utilisation et de disques persistants standards. L'interface utilisateur de Dataflow affiche une icône d'avertissement lorsque des limites de quota sont atteintes. Dans ce cas, la progression est ralentie, mais la tâche doit néanmoins aboutir. L'autoscaling peut surcharger Spanner et entraîner des erreurs en cas de une grande quantité de données à importer.
Charge existante sur Spanner : une tâche d'importation ajoute une charge de processeur importante sur une instance Spanner. Si cette instance présentait déjà une charge importante, l'exécution de la tâche est ralentie.
Quantité de capacité de calcul Spanner: si l'utilisation du processeur pour l'instance est supérieure à 65%, le job s'exécute plus lentement.
Régler les nœuds de calcul pour obtenir de bonnes performances d'importation
Lorsque vous démarrez une tâche d'importation Spanner, les nœuds de calcul Dataflow doivent être définis sur une valeur optimale pour optimiser les performances. Trop de nœuds de calcul sur Spanner et un nombre insuffisant de nœuds de calcul entraîne les performances d'importation.
Le nombre maximal de nœuds de calcul dépend fortement de la taille des données. Idéalement, l'utilisation totale du processeur associée à Spanner doit être comprise entre 70 % et 90 %. Cela permet d'obtenir un bon équilibre entre l'efficacité de Spanner et l'exécution d'une tâche sans erreur.
Pour atteindre cet objectif d'utilisation dans la majorité des schémas et scénarios, nous recommandons un nombre maximal de processeurs virtuels de nœud de calcul compris entre 4 et 6 fois le nombre de nœuds Spanner.
Par exemple, pour une instance Spanner à 10 nœuds utilisant des nœuds de calcul n1-standard-2, vous devez définir un nombre maximal de nœuds de calcul sur 25, ce qui donne 50 processeurs virtuels.