Vue JOBS

La vue INFORMATION_SCHEMA.JOBS contient les métadonnées en temps quasi-réel sur tous les jobs BigQuery du projet en cours.

Rôle requis

Pour obtenir l'autorisation dont vous avez besoin pour interroger la vue INFORMATION_SCHEMA.JOBS, demandez à votre administrateur de vous attribuer le rôle IAM Lecteur de ressources BigQuery (roles/bigquery.resourceViewer) sur votre projet. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ce rôle prédéfini contient l'autorisation bigquery.jobs.listAll, qui est nécessaire pour interroger la vue INFORMATION_SCHEMA.JOBS.

Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour plus d'informations sur les autorisations BigQuery, consultez la page Contrôle des accès avec IAM.

Schéma

Les données sous-jacentes sont partitionnées par la colonne creation_time et mises en cluster par project_id et user_email. La colonne query_info contient des informations supplémentaires sur les jobs de requête.

La vue INFORMATION_SCHEMA.JOBS présente le schéma suivant :

Nom de colonne	Type de données	Valeur
`bi_engine_statistics`	`RECORD`	Si le projet est configuré pour utiliser l'interface SQL de BI Engine, ce champ contient BiEngineStatistics. Sinon, il est défini sur `NULL`.
`cache_hit`	`BOOLEAN`	Indique si les résultats de requête de cette tâche ont été mis en cache. Si vous avez un job de requête multi-instruction, la valeur `cache_hit` pour votre requête parente est `NULL`.
`creation_time`	`TIMESTAMP`	(Colonne de partitionnement) Heure de création du job. Le partitionnement est basé sur l'heure UTC de cet horodatage.
`destination_table`	`RECORD`	Table de destination des résultats (le cas échéant).
`dml_statistics`	`RECORD`	Si le job est une requête avec une instruction LMD, la valeur est un enregistrement avec les champs suivants : `inserted_row_count` : nombre de lignes insérées. `deleted_row_count` : nombre de lignes supprimées. `updated_row_count` : nombre de lignes mises à jour. Pour tous les autres jobs, la valeur est `NULL`. Cette colonne est présente dans les vues `INFORMATION_SCHEMA.JOBS_BY_USER` et `INFORMATION_SCHEMA.JOBS_BY_PROJECT`.
`end_time`	`TIMESTAMP`	Heure de fin de ce job, en millisecondes depuis l'époque. Ce champ représente l'heure à laquelle le job passe à l'état `DONE`.
`error_result`	`RECORD`	Détails des erreurs sous forme d'objets ErrorProto.
`job_id`	`STRING`	ID de la tâche. Par exemple, `bquxjob_1234`.
`job_stages`	`RECORD`	Étapes de la requête pour le job. Remarque : Les valeurs de cette colonne sont vides pour les requêtes lues dans des tables présentant des règles d'accès au niveau des lignes. Pour en savoir plus, consultez les Bonnes pratiques en matière de sécurité au niveau des lignes dans BigQuery.
`job_type`	`STRING`	Type de la tâche. Il peut s'agir de `QUERY`, `LOAD`, `EXTRACT`, `COPY` ou `NULL`. Une valeur `NULL` indique un job interne, tel que l'évaluation d'une instruction de job de script ou l'actualisation d'une vue matérialisée.
`labels`	`RECORD`	Tableau de libellés appliqués au job en tant que paires clé/valeur.
`parent_job_id`	`STRING`	ID de la tâche parente (le cas échéant).
`priority`	`STRING`	Priorité de cette tâche. Les valeurs autorisées sont `INTERACTIVE` et `BATCH`.
`project_id`	`STRING`	(Colonne de clustering) ID du projet.
`project_number`	`INTEGER`	Numéro du projet.
`query`	`STRING`	Texte de requête SQL. Seule la vue `JOBS_BY_PROJECT` contient la colonne de requête.
`referenced_tables`	`RECORD`	Tableau de tables référencées par le job. Rempli uniquement pour les jobs de requête qui ne sont pas des succès de cache.
`reservation_id`	`STRING`	Nom de la réservation principale attribuée à ce job, au format `RESERVATION_ADMIN_PROJECT:RESERVATION_LOCATION.RESERVATION_NAME`. Dans ce résultat : `RESERVATION_ADMIN_PROJECT` : nom du projet Google Cloud qui gère la réservation. `RESERVATION_LOCATION` : emplacement de la réservation. `RESERVATION_NAME` : nom de la réservation.
`session_info`	`RECORD`	Les détails de la session dans laquelle ce job a été exécuté, le cas échéant. (Aperçu)
`start_time`	`TIMESTAMP`	Heure de début de ce job, en millisecondes depuis l'époque. Ce champ représente l'heure à laquelle le job passe de l'état `PENDING` à `RUNNING` ou `DONE`.
`state`	`STRING`	État de fonctionnement de la tâche. Les états valides sont les suivants : `PENDING`, `RUNNING` et `DONE`.
`statement_type`	`STRING`	Type d'instruction de requête. Par exemple, `DELETE`, `INSERT`, `SCRIPT`, `SELECT` ou `UPDATE`. Consultez la section QueryStatementType pour obtenir la liste des valeurs valides.
`timeline`	`RECORD`	Chronologie de la requête pour le job. Contient des instantanés de l'exécution des requêtes.
`total_bytes_billed`	`INTEGER`	Si le projet est configuré pour utiliser la tarification à la demande, ce champ contient le nombre total d'octets facturés pour le job. Si le projet est configuré pour utiliser la tarification forfaitaire, le nombre d'octets ne vous est pas facturé, et ce champ est fourni à titre d'information seulement. Remarque : Les valeurs de cette colonne sont vides pour les requêtes lues dans des tables présentant des règles d'accès au niveau des lignes. Pour en savoir plus, consultez les Bonnes pratiques en matière de sécurité au niveau des lignes dans BigQuery.
`total_bytes_processed`	`INTEGER`	Nombre total d'octets traités par la tâche. Remarque : Les valeurs de cette colonne sont vides pour les requêtes lues dans des tables présentant des règles d'accès au niveau des lignes. Pour en savoir plus, consultez les Bonnes pratiques en matière de sécurité au niveau des lignes dans BigQuery.
`total_modified_partitions`	`INTEGER`	Nombre total de partitions modifiées par le job. Ce champ est renseigné pour les jobs `LOAD` et `QUERY`.
`total_slot_ms`	`INTEGER`	Emplacement des millisecondes pour le job sur toute sa durée à l'état `RUNNING`, y compris les nouvelles tentatives.
`transaction_id`	`STRING`	ID de la transaction dans laquelle ce job a été exécuté, le cas échéant. (Aperçu)
`user_email`	`STRING`	(Colonne de mise en cluster) Adresse e-mail ou compte de service de l'utilisateur ayant exécuté le job.
`query_info.resource_warning`	`STRING`	Message d'avertissement qui s'affiche si l'utilisation des ressources lors du traitement des requêtes dépasse le seuil interne du système. Le champ `resource_warning` peut être rempli pour tout job de requête réussi. `resource_warning` vous permet d'obtenir des points de données supplémentaires pour optimiser vos requêtes et configurer la surveillance des tendances de performances d'un ensemble de requêtes équivalent à l'aide de `query_hashes`.
`query_info.query_hashes.normalized_literals`	`STRING`	Contient les hachages de la requête. `normalized_literals` est un hachage hexadécimal `STRING` qui ignore les commentaires, les valeurs de paramètre, les fonctions définies par l'utilisateur et les littéraux. Ce champ apparaît pour les requêtes GoogleSQL réussies qui ne sont pas des succès de cache.
`query_info.performance_insights`	`RECORD`	Insights sur les performances du job.
`query_info.optimization_details`	`STRUCT`	Les optimisations basées sur l'historique associées au job.
`transferred_bytes`	`INTEGER`	Nombre total d'octets transférés pour les requêtes inter-cloud, telles que les tâches de transfert inter-cloud de BigQuery Omni.
`materialized_view_statistics`	`RECORD`	Statistiques des vues matérialisées prises en compte dans un job de requête. (Aperçu)

Lorsque vous interrogez INFORMATION_SCHEMA.JOBS pour rechercher un coût récapitulatif des tâches de requête, excluez le type d'instruction SCRIPT, sinon certaines valeurs seront comptabilisées deux fois. La ligne SCRIPT inclut des valeurs récapitulatives pour toutes les tâches enfants exécutées dans le cadre de cette tâche.

Tâche de requête à plusieurs instructions

Une tâche de requête à plusieurs instructions est une tâche de requête qui utilise le langage procédural. Les tâches de requête à plusieurs instructions définissent souvent des variables avec DECLARE ou comportent des instructions de flux de contrôle telles que IF ou WHILE. Lorsque vous interrogez INFORMATION_SCHEMA.JOBS, vous devrez peut-être reconnaître la différence entre une tâche de requête multi-instruction et d'autres tâches. Une tâche de requête à plusieurs instructions présente les caractéristiques suivantes:

statement_type = SCRIPT
reservation_id = NULL
Les tâches enfants. Chacune des tâches enfants d'une tâche de requête à plusieurs instructions comporte un parent_job_id pointant vers la tâche de requête à plusieurs instructions elle-même. Cela inclut les valeurs récapitulatives de toutes les tâches enfants exécutées dans le cadre de cette tâche. Par conséquent, si vous interrogez INFORMATION_SCHEMA.JOBS pour rechercher un coût récapitulatif des tâches de requête, vous devez exclure le type d'instruction SCRIPT, sinon certaines valeurs telles que total_slot_ms pourront être comptabilisées. deux fois.

Conservation des données

Cette vue contient les tâches en cours d'exécution et l'historique des tâches des 180 derniers jours.

Champ d'application et syntaxe

Les requêtes exécutées sur cette vue doivent inclure un qualificatif de région. Le tableau suivant explique le champ d'application de la région pour cette vue :

Nom de la vue	Champ d'application de la ressource	Champ d'application de la région
[PROJECT_ID.]`region-REGION`.INFORMATION_SCHEMA.JOBS[_BY_PROJECT]	Niveau Projet	`REGION`

Remplacez les éléments suivants :

Facultatif : PROJECT_ID : ID de votre projet Google Cloud. Si non spécifié, le projet par défaut est utilisé.
REGION : tout nom de région d'ensemble de données. Exemple : region-us.

Remarque : Vous devez spécifier l'emplacement pour interroger les vues INFORMATION_SCHEMA. L'emplacement d'exécution de la requête doit correspondre à la région de la vue INFORMATION_SCHEMA.

Examples

Pour exécuter la requête sur un projet autre que celui par défaut, ajoutez l'ID du projet en respectant le format suivant :

`PROJECT_ID`.`region-REGION_NAME`.INFORMATION_SCHEMA.JOBS

Remplacez les éléments suivants:

PROJECT_ID : ID du projet.
REGION_NAME : région de votre projet

Par exemple, `myproject`.`region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT.

Comparer l'utilisation des tâches aux données de facturation

Pour les projets utilisant la facturation à la demande, vous pouvez utiliser la vue INFORMATION_SCHEMA.JOBS pour examiner les frais de calcul sur une période donnée. La requête suivante génère une estimation quotidienne de vos Tio facturés et des frais qui en résultent. La section Limites explique dans quels cas ces estimations peuvent ne pas correspondre à votre facture.

Pour cet exemple uniquement, les variables supplémentaires suivantes doivent être définies. Vous pouvez les modifier ici pour plus de facilité.

START_DATE: date la plus ancienne à agréger (incluse).
END_DATE: date la plus récente à agréger (incluse).
PRICE_PER_TIB: prix à la demande par Tio utilisé pour les estimations de factures.

CREATE TEMP FUNCTION isBillable(error_result ANY TYPE)
AS (
  -- You aren't charged for queries that return an error.
  error_result IS NULL
  -- However, canceling a running query might incur charges.
  OR error_result.reason = 'stopped'
);

-- BigQuery hides the number of bytes billed on all queries against tables with
-- row-level security.
CREATE TEMP FUNCTION isMaybeUsingRowLevelSecurity(
  job_type STRING, tib_billed FLOAT64, error_result ANY TYPE)
AS (
  job_type = 'QUERY'
  AND tib_billed IS NULL
  AND isBillable(error_result)
);

WITH
  query_params AS (
    SELECT
      date 'START_DATE' AS start_date,  -- inclusive
      date 'END_DATE' AS end_date,  -- inclusive
  ),
  usage_with_multiplier AS (
    SELECT
      job_type,
      error_result,
      creation_time,
      -- Jobs are billed by end_time in PST8PDT timezone, regardless of where
      -- the job ran.
      EXTRACT(date FROM end_time AT TIME ZONE 'PST8PDT') billing_date,
      total_bytes_billed / 1024 / 1024 / 1024 / 1024 total_tib_billed,
      CASE statement_type
        WHEN 'SCRIPT' THEN 0
        WHEN 'CREATE_MODEL' THEN 50 * PRICE_PER_TIB
        ELSE PRICE_PER_TIB
        END AS multiplier,
    FROM `PROJECT_ID.region-REGION_NAME`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
  )
SELECT
  billing_date,
  sum(total_tib_billed * multiplier) estimated_charge,
  sum(total_tib_billed) estimated_usage_in_tib,
  countif(isMaybeUsingRowLevelSecurity(job_type, total_tib_billed, error_result))
    AS jobs_using_row_level_security,
FROM usage_with_multiplier, query_params
WHERE
  1 = 1
  -- Filter by creation_time for partition pruning.
  AND date(creation_time) BETWEEN date_sub(start_date, INTERVAL 2 day) AND end_date
  AND billing_date BETWEEN start_date AND end_date
  AND isBillable(error_result)
GROUP BY billing_date
ORDER BY billing_date

Limites

BigQuery masque certaines statistiques relatives aux requêtes effectuées sur les tables sécurisées au niveau des lignes. La requête fournie comptabilise le nombre de tâches concernées comme jobs_using_row_level_security, mais n'a pas accès à l'utilisation facturable.
Les tarifs des requêtes à la demande de BigQuery ML dépendent du type de modèle créé. INFORMATION_SCHEMA.JOBS ne suit pas le type de modèle créé. Par conséquent, la requête fournie suppose que toutes les instructions CREATE_MODEL créaient les types de modèles les plus élevés.
Les procédures Apache Spark utilisent un modèle de tarification similaire, mais les frais sont signalés en tant que code SKU de paiement à l'usage de l'édition BigQuery Enterprise. INFORMATION_SCHEMA.JOBS suit cette utilisation en tant que total_bytes_billed, mais ne peut pas déterminer le code SKU représenté par l'utilisation.

Calculer l'utilisation moyenne des emplacements

Dans l'exemple suivant, on calcule l'utilisation moyenne des emplacements pour toutes les requêtes effectuées au cours des sept derniers jours sur un projet donné. Notez que ce calcul est plus précis pour les projets dont l'utilisation des emplacements est cohérente pendant la semaine. Si l'utilisation des emplacements n'est pas cohérente dans votre projet, ce nombre peut être inférieur à celui attendu.

Pour exécuter la requête, procédez comme suit :

SELECT
  SUM(total_slot_ms) / (1000 * 60 * 60 * 24 * 7) AS avg_slots
FROM
  `region-us`.INFORMATION_SCHEMA.JOBS
WHERE
  -- Filter by the partition column first to limit the amount of data scanned.
  -- Eight days allows for jobs created before the 7 day end_time filter.
  creation_time BETWEEN TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 8 DAY) AND CURRENT_TIMESTAMP()
  AND job_type = 'QUERY'
  AND statement_type != 'SCRIPT'
  AND end_time BETWEEN TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 DAY) AND CURRENT_TIMESTAMP();

Le résultat ressemble à ce qui suit :

+------------+
| avg_slots  |
+------------+
| 3879.1534  |
+------------+

Vous pouvez vérifier l'utilisation d'une réservation spécifique à l'aide de WHERE reservation_id = "…". Cela peut vous aider à déterminer le pourcentage d'utilisation d'une réservation sur une période donnée. Pour les tâches de script, la tâche parente indique également l'utilisation totale des emplacements par ses tâches enfants. Pour éviter de comptabiliser deux fois, utilisez WHERE statement_type != "SCRIPT" pour exclure la tâche parente.

Si vous préférez vérifier l'utilisation moyenne des emplacements pour des tâches individuelles, utilisez total_slot_ms / TIMESTAMP_DIFF(end_time, start_time, MILLISECOND).

Historique des jobs de chargement

Dans l'exemple suivant, on répertorie tous les utilisateurs ou comptes de service ayant envoyé une tâche de chargement par lot sur un projet donné. Comme aucune limite de temps n'est spécifiée, cette requête analyse l'intégralité de l'historique disponible (par exemple, les 30 derniers jours).

SELECT
  DISTINCT(user_email) AS user
FROM
  `region-us`.INFORMATION_SCHEMA.JOBS
WHERE
  job_type = 'LOAD';

Le résultat ressemble à ce qui suit :

+--------------+
| user         |
+--------------+
| abc@xyz.com  |
+--------------+
| def@xyz.com  |
+--------------+

Obtenir le nombre de tâches de chargement pour déterminer le quota quotidien de jobs déjà utilisé

L'exemple suivant renvoie le nombre de jobs par jour, par ensemble de données et par table, afin de pouvoir déterminer le taux d'utilisation du quota quotidien de jobs.

SELECT
    DATE(creation_time) as day,
    destination_table.project_id as project_id,
    destination_table.dataset_id as dataset_id,
    destination_table.table_id as table_id,
    COUNT(job_id) AS load_job_count
 FROM
   region-us.INFORMATION_SCHEMA.JOBS_BY_PROJECT
 WHERE
    creation_time BETWEEN TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 8 DAY) AND CURRENT_TIMESTAMP()
    AND job_type = "LOAD"
GROUP BY
    day,
    project_id,
    dataset_id,
    table_id
ORDER BY
    day DESC

Obtenir les 10 derniers jobs ayant échoué

L'exemple suivant montre les 10 derniers jobs ayant échoué :

SELECT
   job_id,
  creation_time,
  user_email,
   error_result
 FROM `region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
 WHERE error_result.reason != "Null"
ORDER BY creation_time DESC
LIMIT 10

Le résultat doit ressembler à ce qui suit :

+---------------+--------------------------+------------------+-----------------------------------------------------------+
| job_id        | creation_time            | user_email       | error_result                                              |
+---------------+--------------------------+------------------+-----------------------------------------------------------+
| examplejob_1  | 2020-10-10 00:00:00 UTC  | bob@example.com  | Column 'generate_metadata_snapshot' has mismatched type...|
| examplejob_2  | 2020-10-11 00:00:00 UTC  | bob@example.com  | Column 'generate_metadata_snapshot' has mismatched type...|
+---------------+--------------------------+------------------+-----------------------------------------------------------+

Interroger la liste des jobs de longue durée

L'exemple suivant montre la liste des jobs de longue durée à l'état RUNNING ou PENDING pendant plus de 30 minutes :

SELECT
  job_id,
  job_type,
  state,
  creation_time,
  start_time,
  user_email
 FROM `region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
 WHERE
    state!="DONE" AND
    creation_time <= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 30 MINUTE)
ORDER BY creation_time ASC;

Le résultat ressemble à ce qui suit :

+---------------+----------+---------+--------------------------------+--------------------------------+------------------+
| job_id        | job_type | state   | creation_time                  | start_time                     | user_email       |
+---------------+----------+---------+--------------------------------+--------------------------------+------------------+
| examplejob_1  | QUERY    | RUNNING | 2023-05-03 05:07:22.818000 UTC | 2023-05-03 05:07:22.905000 UTC | abc@example.com  |
| examplejob_2  | QUERY    | PENDING | 2023-05-01 02:05:47.925000 UTC | 2023-05-01 02:05:47.998000 UTC | xyz@example.com  |
+---------------+----------+---------+--------------------------------+--------------------------------+------------------+

Octets traités par identité d'utilisateur

L'exemple suivant montre le nombre total d'octets facturés pour les jobs de requête par utilisateur.

SELECT
  user_email,
  SUM(total_bytes_billed) AS bytes_billed
FROM
  `region-us`.INFORMATION_SCHEMA.JOBS
WHERE
  job_type = 'QUERY'
  AND statement_type != 'SCRIPT'
GROUP BY
  user_email;

Remarque : Veuillez consulter la mise en garde concernant la colonne total_bytes_billed dans la documentation de schéma pour les vues JOBS.

Les résultats doivent se présenter sous la forme suivante :

+---------------------+--------------+
| user_email          | bytes_billed |
+---------------------+--------------+
| bob@example.com     | 2847932416   |
| alice@example.com   | 1184890880   |
| charles@example.com | 10485760     |
+---------------------+--------------+

Répartition horaire des octets traités

L'exemple suivant montre le nombre total d'octets facturés pour les tâches de requête, à intervalles horaires.

SELECT
  TIMESTAMP_TRUNC(end_time, HOUR) AS time_window,
  SUM(total_bytes_billed) AS bytes_billed
FROM
  `region-us`.INFORMATION_SCHEMA.JOBS
WHERE
  job_type = 'QUERY'
  AND statement_type != 'SCRIPT'
GROUP BY
  time_window
ORDER BY
  time_window DESC;

Le résultat ressemble à ce qui suit :

+-------------------------+--------------+
| time_window             | bytes_billed |
+-------------------------+--------------+
| 2022-05-17 20:00:00 UTC | 1967128576   |
| 2022-05-10 21:00:00 UTC | 0            |
| 2022-04-15 20:00:00 UTC | 10485760     |
| 2022-04-15 17:00:00 UTC | 41943040     |
+-------------------------+--------------+

Jobs de requête par table

L'exemple suivant indique combien de fois chaque table interrogée dans my_project a été référencée par une tâche de requête :

SELECT
  t.project_id,
  t.dataset_id,
  t.table_id,
  COUNT(*) AS num_references
FROM
  my_project.`region-us`.INFORMATION_SCHEMA.JOBS, UNNEST(referenced_tables) AS t
GROUP BY
  t.project_id,
  t.dataset_id,
  t.table_id
ORDER BY
  num_references DESC;

Le résultat ressemble à ce qui suit :

+------------+------------+----------+----------------+
| project_id | dataset_id | table_id | num_references |
+------------+------------+----------+----------------+
| my_project | dataset1   | orders   | 58             |
| my_project | dataset1   | products | 40             |
| my_project | dataset2   | sales    | 30             |
| other_proj | dataset1   | accounts | 12             |
+------------+------------+----------+----------------+

Nombre de partitions modifiées par tâche de requête et de chargement par table

L'exemple suivant montre le nombre de partitions modifiées par table par les requêtes avec des instructions LMD et des tâches de chargement. Notez que cette requête n'affiche pas le champ total_modified_partitions pour les tâches de copie.

SELECT
  destination_table.table_id,
  SUM(total_modified_partitions) AS total_modified_partitions
FROM
  `region-us`.INFORMATION_SCHEMA.JOBS
WHERE
  DATE(creation_time, "America/Los_Angeles") = CURRENT_DATE()
GROUP BY
  table_id
ORDER BY
  total_modified_partitions DESC

Requêtes les plus coûteuses par projet

L'exemple suivant liste les requêtes les plus coûteuses au sein du projet my_project, ce coût étant exprimé en durée d'utilisation des emplacements :

SELECT
 job_id,
 query,
 user_email,
 total_slot_ms
FROM `my_project`.`region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
WHERE EXTRACT(DATE FROM  creation_time) = current_date()
ORDER BY total_slot_ms DESC
LIMIT 4

Vous pouvez également lister les requêtes les plus coûteuses sur la base des données traitées, à l'aide de l'exemple suivant :

SELECT
 job_id,
 query,
 user_email,
 total_bytes_processed
FROM `my_project`.`region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
WHERE EXTRACT(DATE FROM  creation_time) = current_date()
ORDER BY total_bytes_processed DESC
LIMIT 4

Le résultat pour l'un ou l'autre exemple est semblable à celui-ci :

+--------------+---------------------------------+-----------------------+---------------+
| job_id       | query                           | user_email            | total_slot_ms |
+--------------+---------------------------------+--------------------------+------------+
| examplejob_1 | SELECT ... FROM dataset.table1  | bob@example.com       | 80,000        |
| examplejob_2 | SELECT ... FROM dataset.table2  | alice@example.com     | 78,000        |
| examplejob_3 | SELECT ... FROM dataset.table3  | charles@example.com   | 75,000        |
| examplejob_4 | SELECT ... FROM dataset.table4  | tina@example.com      | 72,000        |
+--------------+---------------------------------+-----------------------+---------------+

Obtenir des détails sur un avertissement de ressource

Si le message d'erreur Ressources dépassées s'affiche, vous pouvez examiner les requêtes concernées sur une période donnée :

SELECT
  query,
  query_info.resource_warning
FROM
  `user_project.region-us`.INFORMATION_SCHEMA.JOBS
WHERE
 creation_time BETWEEN TIMESTAMP("2022-12-01")
 AND TIMESTAMP("2022-12-08")
 AND query_info.resource_warning IS NOT NULL
LIMIT
 50;

Surveiller les avertissements de ressources regroupés par date

Si vous recevez un message d'erreur Ressources dépassées, vous pouvez surveiller le nombre total d'avertissements de ressources regroupés par date pour savoir si la charge de travail a été modifiée :

WITH resource_warnings AS (
  SELECT
    EXTRACT(DATE FROM creation_time) AS creation_date
  FROM
    `user_project.region-us`.INFORMATION_SCHEMA.JOBS
  WHERE
    creation_time >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 14 DAY)
    AND query_info.resource_warning IS NOT NULL
)
SELECT
  creation_date,
  COUNT(1) AS warning_counts
FROM
  resource_warnings
GROUP BY creation_date
ORDER BY creation_date DESC;

Estimer l'utilisation des emplacements et le coût des requêtes

L'exemple suivant calcule le nombre moyen et le nombre maximal d'emplacements pour chaque job à l'aide de estimated_runnable_units.

La valeur de reservation_id est NULL si vous n'avez aucune réservation.

SELECT
  project_id,
  job_id,
  reservation_id,
  EXTRACT(DATE FROM creation_time) AS creation_date,
  TIMESTAMP_DIFF(end_time, start_time, SECOND) AS job_duration_seconds,
  job_type,
  user_email,
  total_bytes_billed,

  -- Average slot utilization per job is calculated by dividing total_slot_ms by the millisecond duration of the job

  SAFE_DIVIDE(job.total_slot_ms,(TIMESTAMP_DIFF(job.end_time, job.start_time, MILLISECOND))) AS job_avg_slots,
  query,

  -- Determine the max number of slots used at ANY stage in the query.
  -- The average slots might be 55. But a single stage might spike to 2000 slots.
  -- This is important to know when estimating number of slots to purchase.

  MAX(SAFE_DIVIDE(unnest_job_stages.slot_ms,unnest_job_stages.end_ms - unnest_job_stages.start_ms)) AS jobstage_max_slots,

  -- Check if there's a job that requests more units of works (slots). If so you need more slots.
  -- estimated_runnable_units = Units of work that can be scheduled immediately.
  -- Providing additional slots for these units of work accelerates the query,
  -- if no other query in the reservation needs additional slots.

  MAX(unnest_timeline.estimated_runnable_units) AS estimated_runnable_units
FROM `region-us`.INFORMATION_SCHEMA.JOBS AS job
  CROSS JOIN UNNEST(job_stages) as unnest_job_stages
  CROSS JOIN UNNEST(timeline) AS unnest_timeline
WHERE project_id = 'my_project'
  AND statement_type != 'SCRIPT'
  AND DATE(creation_time) BETWEEN DATE_SUB(CURRENT_DATE(), INTERVAL 7 DAY) AND CURRENT_DATE()
GROUP BY 1,2,3,4,5,6,7,8,9,10
ORDER BY job_id;

Afficher les insights sur les performances des requêtes

L'exemple suivant renvoie tous les jobs de requête qui ont généré des insights sur les performances de votre projet au cours des 30 derniers jours, ainsi qu'une URL renvoyant au graphique d'exécution de la requête dans la console Google Cloud.

SELECT
  `bigquery-public-data`.persistent_udfs.job_url(
    project_id || ':us.' || job_id) AS job_url,
  query_info.performance_insights
FROM
  `region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
WHERE
  DATE(creation_time) >= CURRENT_DATE - 30 -- scan 30 days of query history
  AND job_type = 'QUERY'
  AND state = 'DONE'
  AND error_result IS NULL
  AND statement_type != 'SCRIPT'
  AND EXISTS ( -- Only include queries which had performance insights
    SELECT 1
    FROM UNNEST(
      query_info.performance_insights.stage_performance_standalone_insights
    )
    WHERE slot_contention OR insufficient_shuffle_quota
    UNION ALL
    SELECT 1
    FROM UNNEST(
      query_info.performance_insights.stage_performance_change_insights
    )
    WHERE input_data_change.records_read_diff_percentage IS NOT NULL
  );

Afficher les jobs d'actualisation des métadonnées

L'exemple suivant répertorie les jobs d'actualisation des métadonnées :

SELECT
 *
FROM
 `region-aws-us-east-1.INFORMATION_SCHEMA.JOBS_BY_PROJECT`
WHERE
 job_id LIKE '%metadata_cache_refresh%'
 AND creation_time > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 6 HOUR)
ORDER BY start_time desc
LIMIT 10;

Analyser les performances au fil du temps pour les requêtes identiques

L'exemple suivant renvoie les 10 jobs les plus lents au cours des 7 derniers jours pour une même requête :

DECLARE querytext STRING DEFAULT(
  SELECT query
  FROM `region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
  WHERE job_id = 'JOB_ID'
  LIMIT 1
);

SELECT
  start_time,
  end_time,
  project_id,
  job_id,
  TIMESTAMP_DIFF(end_time, start_time, SECOND) AS run_secs,
  total_bytes_processed / POW(1024, 3) AS total_gigabytes_processed,
  query
FROM
  `region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
WHERE
  query = querytext
  AND total_bytes_processed > 0
  AND creation_time >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 DAY)
ORDER BY 5 DESC
LIMIT 10;

Remplacez JOB_ID par n'importe quel job_id ayant exécuté la requête que vous souhaitez analyser.