Résoudre les problèmes de traçabilité des données

Cette page explique comment résoudre les problèmes liés à la lignée des données de Data Catalog.

Types de projets

Étant donné que les composants de données peuvent se trouver dans différents projets, voici un récapitulatif des projets possibles et de leurs noms de composants.

Projet de stockage BigQuery

Ce projet stocke vos composants de données BigQuery. Vous le trouverez dans les détails de l'élément dans Table ID, avant le premier point.

Dans l'interface utilisateur BigQuery, le nom du projet de stockage est indiqué dans la
    Champ ID de table, avant le premier point du nom complet de la table.
Figure 1. Nom d'un projet de stockage BigQuery.

Projet Compute

Ce projet stocke les métadonnées de traçabilité des données. Pour BigQuery, c'est là que vous exécutez une tâche. Si vous exécutez une tâche à partir de l'interface utilisateur, vous pouvez trouver le nom du projet de calcul dans le sélecteur de projet :

L'UI BigQuery montre un projet de calcul appelé "docs-compute"
    la page où vous exécutez des requêtes SQL.
Figure 2. Nom d'un projet de calcul qui exécute des jobs BigQuery.

Lorsque vous envoyez des requêtes à l'API BigQuery, spécifiez le projet de calcul dans l'URL, par exemple :

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Projet en cours

Il s'agit du projet à partir duquel vous consultez la traçabilité des données. La console Google Cloud affiche le projet actif dans le sélecteur de projets. Si vous utilisez l'API, le projet actif est celui à partir duquel vous effectuez des appels d'API.

L&#39;UI BigQuery affiche la traçabilité des données d&#39;une
    un ensemble de données appelé source-001, qui se trouve dans un projet appelé docs-source.
Figure 3 : Projet actif dans la console Google Cloud.

La lignée des données BigQuery ne s'affiche pas

Le problème suivant se produit après l'exécution d'un job BigQuery. Dans ce cas, le problème peut être causé par trois scénarios :

  • L'API Data Lineage est désactivée dans le projet actif ou le projet de calcul.
  • Vous ne disposez pas du rôle Lecteur de la traçabilité des données (roles/datalineage.viewer). dans la colonne active ou le projet compute.
  • La traçabilité des données n'est pas encore disponible. En fonction du volume et de la complexité des données traitées, l'affichage de la lignée des données peut prendre entre 30 minutes et 24 heures.

Si le message "Échec de la récupération de la traçabilité en raison d'autorisations manquantes" s'affiche. au bas de la page, vous ne disposez pas des autorisations nécessaires projet actif. Sinon, vous ne disposez pas des autorisations nécessaires projet Compute.

Capture d&#39;écran montrant un graphique de lignée vide.
Figure 4 : Exemple de lignée qui ne s'affiche pas dans l'interface utilisateur de BigQuery

Pour résoudre ce problème, commencez par vérifier si l'API Data Lineage est activée pour le projet de calcul. Après avoir activé l'API, vous devez exécuter une tâche pour afficher la traçabilité des données. Selon le volume et la complexité des données traitées, de 30 minutes à 24 heures standards pour que la traçabilité des données s'affiche.

Vérifiez ensuite si l'API Data Lineage est activée pour le projet actif. Après avoir activé l'API, si vous disposez des autorisations requises (voir ci-dessous), la traçabilité s'affiche.

Lorsque l'API Data Lineage a été activée, accordez l'accès au lecteur de la traçabilité des données (roles/datalineage.viewer) dans le projet actif et dans le projet compute.

Les métadonnées de traitement BigQuery ne s'affichent pas

Description du problème

Le problème suivant se produit lorsque vous ouvrez le volet d'informations de la table, qui n'affiche pas tous les détails, comme l'instruction SQL ou la propriété Process type. Cela se produit même si la traçabilité des données s'affiche correctement.

Cela peut se produire lorsque vous n'êtes pas autorisé à voir les métadonnées dans projet Compute.

Exemple :

Cliquez sur les détails du processus BigQuery pour afficher le message suivant:

You don't have permission to view BigQuery process metadata in project X.

Dans la console Google Cloud :

Dans l&#39;UI BigQuery, dans l&#39;onglet &quot;Lignée&quot;, le volet &quot;Détails&quot; affiche un message d&#39;erreur.
Figure 5. Exemple de détails de traitement BigQuery qui ne s'affichent pas dans l'interface utilisateur de BigQuery.

Pour résoudre ce problème, accordez à l'utilisateur l'autorisation bigquery.jobs.get (par exemple, incluse dans le rôle de lecteur de ressources BigQuery) dans le projet Compute.

Les détails de la table BigQuery ne s'affichent pas

Le problème suivant se produit lorsque vous ouvrez le volet d'informations de la table, qui n'affiche que la propriété "Nom complet". Cela se produit même si le la traçabilité des données s'affiche correctement. Cela peut se produire si vous ne disposez pas de toutes les autorisations requises dans les projets de stockage de la table.

Exemple :

  • Table BigQuery docs-source.dataset.source-001,
  • la table BigQuery docs-target.dataset.target-001,
  • la traçabilité des données entre docs-source.dataset.source-001 et docs-target.dataset.target-001 avec projet de calcul docs-compute,
  • Utilisateur disposant du rôle Lecteur de la traçabilité des données le rôle actif et de calcul docs-compute.

Dans ce cas, l'utilisateur peut voir un message Entry with this fully qualified name is not available in the Data Catalog lorsqu'il clique sur les détails du nœud BigQuery.

Capture d&#39;écran montrant un panneau de tableau vide.
Figure 6. Exemple de détails d'une table BigQuery non affichés dans l'UI BigQuery

Pour résoudre ce problème, accordez à l'utilisateur les autorisations bigquery.tables.get (incluse dans la visionneuse de données BigQuery, par exemple) ) dans le projet de stockage.