Résoudre les problèmes de traçabilité des données

Cette page explique comment résoudre les problèmes liés à la traçabilité des données Data Catalog.

Types de projets

Étant donné que les éléments de données peuvent résider dans différents projets, voici un résumé des projets possibles et de leurs noms d'éléments.

Projet de stockage BigQuery

Ce projet stocke vos éléments de données BigQuery. Vous pouvez le trouver dans les détails de l'asset en tant que partie Table ID, avant le premier point.

Dans l'interface utilisateur BigQuery, le nom du projet de stockage est indiqué dans le champ "ID de la table", avant le premier point du nom complet de la table.
Figure 1. Nom d'un projet de stockage BigQuery.

Projet de calcul

Ce projet stocke les métadonnées de traçabilité des données. Pour BigQuery, c'est ici que vous exécutez un job. Si vous exécutez une tâche à partir de l'interface utilisateur, le nom du projet de calcul se trouve dans le sélecteur de projet:

L'interface utilisateur de BigQuery affiche un projet de calcul appelé docs-compute sur la page où vous exécutez des requêtes SQL.
Figure 2. Nom d'un projet de calcul qui exécute des tâches BigQuery.

Lorsque vous envoyez des requêtes à l'API BigQuery, spécifiez le projet de calcul dans l'URL, par exemple:

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Projet en cours

Il s'agit du projet à partir duquel vous affichez la traçabilité des données. La console Google Cloud affiche le projet actif dans le sélecteur de projet. Si vous utilisez l'API, le projet actif est le projet à partir duquel vous effectuez des appels d'API.

L'interface utilisateur de BigQuery affiche la traçabilité des données pour un ensemble de données nommé source-001, qui se trouve dans un projet appelé docs-source.
Figure 3 : Le projet actif dans la console Google Cloud

La traçabilité des données BigQuery ne s'affiche pas

Le problème suivant se produit après l'exécution d'un job BigQuery. Dans ce cas, le problème peut être causé par trois scénarios:

  • L'API Data Lineage est désactivée dans le projet actif ou le projet de calcul.
  • Vous ne disposez pas du rôle Lecteur de la traçabilité des données (roles/datalineage.viewer) dans le projet actif ou compute.
  • La traçabilité des données n'est pas encore disponible. Selon le volume et la complexité des données traitées, l'affichage de la traçabilité des données peut prendre de 30 minutes à 24 heures standards.

Si le message "Échec de l'extraction de la traçabilité en raison d'autorisations manquantes" s'affiche en bas de la page, cela signifie que vous ne disposez pas des autorisations nécessaires sur le projet actif. Sinon, vous ne disposez pas des autorisations nécessaires sur le projet de calcul.

Capture d'écran montrant un graphique de traçabilité vide.
Figure 4 : Exemple de traçabilité qui ne s'affiche pas dans l'interface utilisateur de BigQuery.

Pour résoudre ce problème, commencez par vérifier si l'API Data Lineage est activée pour le projet de calcul. Après avoir activé l'API, vous devez exécuter une tâche pour voir la traçabilité des données. En fonction du volume et de la complexité des données traitées, l'affichage de la traçabilité des données peut prendre de 30 minutes standards à 24 heures.

Vérifiez ensuite si l'API Data Lineage est activée pour le projet actif. Une fois l'API activée, si vous disposez des autorisations requises (voir ci-dessous), la traçabilité s'affichera.

Lorsque l'API Data Lineage a été activée, accordez le rôle Lecteur de traçabilité de données (roles/datalineage.viewer) dans les projets actifs et compute.

Les métadonnées du processus BigQuery ne s'affichent pas

Description du problème

Le problème suivant se produit lorsque vous ouvrez le volet "Détails de la table", qui n'affiche pas tous les détails, tels que l'instruction SQL ou la propriété Process type. Cela se produit même si la traçabilité des données s'affiche correctement.

Cela peut se produire lorsque vous ne disposez pas des autorisations nécessaires pour voir les métadonnées dans le projet de calcul.

Exemple :

  • Table source BigQuery: docs-source.dataset.source-001
  • Table cible BigQuery: docs-target.dataset.target-001
  • Traçabilité des données entre docs-source.dataset.source-001 et docs-target.dataset.target-001 dans le projet de calcul docs-compute
  • Vous disposez du rôle Lecteur de la traçabilité des données pour les projets docs-compute actifs et compute.

Cliquez sur les détails du processus BigQuery pour afficher le message suivant:

You don't have permission to view BigQuery process metadata in project X.

Dans la console Google Cloud:

Dans l'interface utilisateur BigQuery, dans l'onglet "Traçage", le volet "Détails" affiche un message d'erreur.
Figure 5. Exemple de détails d'un processus BigQuery qui ne s'affichent pas dans l'interface utilisateur BigQuery.

Pour résoudre ce problème, accordez à l'utilisateur l'autorisation bigquery.jobs.get (par exemple incluse dans le rôle Lecteur de ressources BigQuery) dans le projet de calcul.

Les détails de la table BigQuery ne s'affichent pas

Le problème suivant se produit lorsque vous ouvrez le volet "Détails de la table", qui n'affiche que la propriété "Nom complet". Cela se produit même si la traçabilité des données s'affiche correctement. Cela peut se produire lorsque vous ne disposez pas de toutes les autorisations requises dans les projets de stockage de la table.

Exemple :

  • table BigQuery docs-source.dataset.source-001,
  • table BigQuery docs-target.dataset.target-001,
  • la traçabilité des données entre docs-source.dataset.source-001 et docs-target.dataset.target-001 avec le projet de calcul docs-compute ;
  • Utilisateur disposant du rôle Lecteur de la traçabilité des données pour les projets docs-compute actifs et compute.

Dans ce cas, l'utilisateur peut voir le message Entry with this fully qualified name is not available in the Data Catalog lorsqu'il clique sur les détails du nœud BigQuery.

Capture d'écran montrant un panneau de table vide.
Figure 6. Exemple de détails d'une table BigQuery qui ne s'affichent pas dans l'interface utilisateur BigQuery.

Pour résoudre ce problème, accordez à l'utilisateur les autorisations bigquery.tables.get (par exemple incluses dans le rôle Lecteur de données BigQuery) dans le projet de stockage.