Cette page a été traduite par l'API Cloud Translation.

Vue INFORMATION_SCHEMA.SHARE_DATASET_USAGE

La vue INFORMATION_SCHEMA.SHARED_DATASET_USAGE contient des métadonnées en quasi-temps réel sur la consommation des tables de vos ensembles de données partagés. Pour commencer à partager vos données entre plusieurs organisations, consultez BigQuery Sharing (anciennement Analytics Hub).

Rôles requis

Pour obtenir l'autorisation dont vous avez besoin afin d'interroger la vue INFORMATION_SCHEMA.SHARED_DATASET_USAGE, demandez à votre administrateur de vous attribuer le rôle IAM Propriétaire de données BigQuery (roles/bigquery.dataOwner) sur votre projet source. Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ce rôle prédéfini contient l'autorisation bigquery.datasets.listSharedDatasetUsage, qui est nécessaire pour interroger la vue INFORMATION_SCHEMA.SHARED_DATASET_USAGE.

Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.

Schéma

Les données sous-jacentes sont partitionnées par la colonne job_start_time et mises en cluster par project_id et dataset_id.

INFORMATION_SCHEMA.SHARED_DATASET_USAGE utilise le schéma suivant :

Nom de colonne	Type de données	Valeur
`project_id`	`STRING`	*(Colonne de clustering)* ID du projet qui contient l'ensemble de données partagé.
`dataset_id`	`STRING`	*(Colonne de clustering)* ID de l'ensemble de données partagé.
`table_id`	`STRING`	ID de la table interrogée.
`data_exchange_id`	`STRING`	Chemin d'accès de ressource de l'échange de données.
`listing_id`	`STRING`	Chemin d'accès de ressource de la fiche.
`job_start_time`	`TIMESTAMP`	*(Colonne de partitionnement)* Heure de début de ce job.
`job_end_time`	`TIMESTAMP`	Heure de fin de ce job.
`job_id`	`STRING`	ID du job. Par exemple, bquxjob_1234.
`job_project_number`	`INTEGER`	Numéro du projet auquel appartient ce job.
`job_location`	`STRING`	Emplacement du job.
`linked_project_number`	`INTEGER`	Numéro du projet de l'abonné.
`linked_dataset_id`	`STRING`	ID de l'ensemble de données associé de l'abonné.
`subscriber_org_number`	`INTEGER`	Numéro de l'organisation dans laquelle le job a été exécuté. Il s'agit du numéro d'organisation de l'abonné. Ce champ est vide pour les projets sans organisation.
`subscriber_org_display_name`	`STRING`	Chaîne de texte lisible faisant référence à l'organisation dans laquelle le job a été exécuté. Il s'agit du numéro d'organisation de l'abonné. Ce champ est vide pour les projets sans organisation.
`job_principal_subject`	`STRING`	Identifiant principal (adresse e-mail de l'utilisateur, compte de service, adresse e-mail du groupe, domaine) des utilisateurs qui exécutent des jobs et des requêtes sur des ensembles de données associés.
`num_rows_processed`	`INTEGER`	Nombre total de lignes traitées par les tables de base référencées par la ressource interrogée.
`total_bytes_processed`	`INTEGER`	Nombre total d'octets traités par les tables de base référencées par la ressource interrogée.
`shared_resource_id`	`STRING`	ID de la ressource interrogée (table, vue ou routine).
`shared_resource_type`	`STRING`	Type de ressource interrogée. Par exemple, `TABLE`, `EXTERNAL_TABLE`, `VIEW`, `MATERIALIZED_VIEW`, `TABLE_VALUED_FUNCTION` ou `SCALAR_FUNCTION`.
`referenced_tables`	`RECORD REPEATED`	Contient les champs `project_id`, `dataset_id`, `table_id` et `processed_bytes` de la table de base.

Conservation des données

La vue INFORMATION_SCHEMA.SHARED_DATASET_USAGE contient les jobs en cours d'exécution ainsi que l'historique des jobs des 180 derniers jours.

Champ d'application et syntaxe

Les requêtes exécutées sur cette vue doivent inclure un qualificatif de région. Si vous ne spécifiez pas de qualificatif de région, les métadonnées sont extraites de la région US. Le tableau suivant explique le champ d'application de la région pour cette vue :

Nom de la vue	Champ d'application de la ressource	Champ d'application de la région
`[PROJECT_ID.]INFORMATION_SCHEMA.SHARED_DATASET_USAGE`	Niveau Projet	Région US
[PROJECT_ID.]`region-REGION`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE	Niveau Projet	`REGION`

Remplacez l'élément suivant :

PROJECT_ID (facultatif) : ID de votre projet Google Cloud . Si non spécifié, le projet par défaut est utilisé.
REGION : tout nom de région d'ensemble de données. Par exemple, `region-us`.

Remarque : Vous devez utiliser un qualificatif de région pour interroger les vues INFORMATION_SCHEMA. L'emplacement d'exécution de la requête doit correspondre à la région de la vue INFORMATION_SCHEMA.

Exemples

Pour exécuter la requête sur un projet autre que celui par défaut, ajoutez l'ID du projet en respectant le format suivant :

PROJECT_ID.region-REGION_NAME.INFORMATION_SCHEMA.SHARED_DATASET_USAGE

Par exemple, myproject.region-us.INFORMATION_SCHEMA.SHARED_DATASET_USAGE.

Obtenir le nombre total de jobs exécutés sur toutes les tables partagées

L'exemple suivant calcule le nombre total de jobs exécutés par des abonnés pour un projet donné :

SELECT
  COUNT(DISTINCT job_id) AS num_jobs
FROM
  `region-us`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE

Le résultat ressemble à ce qui suit :

+------------+
| num_jobs   |
+------------+
| 1000       |
+------------+

Pour vérifier le nombre total de jobs exécutés par des abonnés, utilisez la clause WHERE :

Pour les ensembles de données, utilisez WHERE dataset_id = "...".
Pour les tables, utilisez WHERE dataset_id = "..." AND table_id = "...".

Obtenir la table la plus utilisée en fonction du nombre de lignes traitées

La requête suivante calcule la table la plus utilisée en fonction du nombre de lignes traitées par les abonnés.

SELECT
  dataset_id,
  table_id,
  SUM(num_rows_processed) AS usage_rows
FROM
  `region-us`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE
GROUP BY
  1,
  2
ORDER BY
  3 DESC
LIMIT
  1

Le résultat ressemble à ce qui suit :

+---------------+-------------+----------------+
| dataset_id    | table_id      | usage_rows     |
+---------------+-------------+----------------+
| mydataset     | mytable     | 15             |
+---------------+-------------+----------------+

Identifier les principales organisations qui utilisent vos tables

La requête suivante calcule les principaux abonnés en fonction du nombre d'octets traités à partir de vos tables. Vous pouvez également utiliser la colonne num_rows_processed en tant que métrique.

SELECT
  subscriber_org_number,
  ANY_VALUE(subscriber_org_display_name) AS subscriber_org_display_name,
  SUM(total_bytes_processed) AS usage_bytes
FROM
  `region-us`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE
GROUP BY
  1

Le résultat ressemble à ce qui suit :

+--------------------------+--------------------------------+----------------+
|subscriber_org_number     | subscriber_org_display_name    | usage_bytes    |
+-----------------------------------------------------------+----------------+
| 12345                    | myorganization                 | 15             |
+--------------------------+--------------------------------+----------------+

Pour les abonnés sans organisation, vous pouvez utiliser job_project_number au lieu de subscriber_org_number.

Obtenir les métriques d'utilisation de votre échange de données

Si votre échange de données et votre ensemble de données source se trouvent dans des projets différents, procédez comme suit pour afficher les métriques d'utilisation de votre échange de données :

Recherchez toutes les fiches qui appartiennent à votre échange de données.
Récupérez l'ensemble de données source associé à la fiche.
Pour afficher les métriques d'utilisation de votre échange de données, utilisez la requête suivante :

SELECT
  *
FROM
  source_project_1.`region-us`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE
WHERE
  dataset_id='source_dataset_id'
AND data_exchange_id="projects/4/locations/us/dataExchanges/x1"
UNION ALL
SELECT
  *
FROM
  source_project_2.`region-us`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE
WHERE
  dataset_id='source_dataset_id'
AND data_exchange_id="projects/4/locations/us/dataExchanges/x1"

Obtenir les métriques d'utilisation des vues partagées

La requête suivante affiche les métriques d'utilisation pour toutes les vues partagées présentes dans un projet :

SELECT
  project_id,
  dataset_id,
  table_id,
  num_rows_processed,
  total_bytes_processed,
  shared_resource_id,
  shared_resource_type,
  referenced_tables
FROM `myproject`.`region-us`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE
WHERE shared_resource_type = 'VIEW'

Le résultat ressemble à ce qui suit :

+---------------------+----------------+----------+--------------------+-----------------------+--------------------+----------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|     project_id      |   dataset_id   | table_id | num_rows_processed | total_bytes_processed | shared_resource_id | shared_resource_type |                                                                                                              referenced_tables                                                                                                              |
+---------------------+----------------+----------+--------------------+-----------------------+--------------------+----------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|     myproject       | source_dataset | view1    |                  6 |                    38 | view1              | VIEW                 | [{"project_id":"myproject","dataset_id":"source_dataset","table_id":"test_table","processed_bytes":"21"},
{"project_id":"bq-dataexchange-exp","dataset_id":"other_dataset","table_id":"other_table","processed_bytes":"17"}]                 |

+---------------------+----------------+----------+--------------------+-----------------------+--------------------+----------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

Obtenir des métriques d'utilisation pour les fonctions table partagées

La requête suivante affiche les métriques d'utilisation pour toutes les fonctions de table partagées d'un projet :

SELECT
  project_id,
  dataset_id,
  table_id,
  num_rows_processed,
  total_bytes_processed,
  shared_resource_id,
  shared_resource_type,
  referenced_tables
FROM `myproject`.`region-us`.INFORMATION_SCHEMA.SHARED_DATASET_USAGE
WHERE shared_resource_type = 'TABLE_VALUED_FUNCTION'

Le résultat ressemble à ce qui suit :

+---------------------+----------------+----------+--------------------+-----------------------+--------------------+-----------------------+---------------------------------------------------------------------------------------------------------------------+
|     project_id      |   dataset_id   | table_id | num_rows_processed | total_bytes_processed | shared_resource_id | shared_resource_type  |                                                  referenced_tables                                                  |
+---------------------+----------------+----------+--------------------+-----------------------+--------------------+-----------------------+---------------------------------------------------------------------------------------------------------------------+
|     myproject       | source_dataset |          |                  3 |                    45 | provider_exp       | TABLE_VALUED_FUNCTION | [{"project_id":"myproject","dataset_id":"source_dataset","table_id":"test_table","processed_bytes":"45"}]           |
+---------------------+----------------+----------+--------------------+-----------------------+--------------------+-----------------------+---------------------------------------------------------------------------------------------------------------------+