Cette page a été traduite par l'API Cloud Translation.

Transformer des données avec le langage de manipulation de données (LMD)

Le langage de manipulation de données (LMD) de BigQuery vous permet de mettre à jour, d'insérer et de supprimer des données dans vos tables BigQuery.

Vous pouvez exécuter des instructions LMD comme vous le feriez pour une instruction SELECT, avec les conditions suivantes :

Vous devez utiliser GoogleSQL. Pour activer GoogleSQL, consultez la section Changer de dialecte SQL.
Vous ne pouvez pas spécifier de table de destination pour la requête.

Pour savoir comment calculer le nombre d'octets traités par une instruction LMD, consultez Calcul de la taille des requêtes à la demande.

Limites

Chaque instruction LMD initie une transaction implicite, ce qui signifie que les modifications apportées par l'instruction sont automatiquement validées à la fin de chaque instruction LMD réussie.
Les lignes récemment écrites à l'aide de la méthode de diffusion tabledata.insertall ne peuvent pas être modifiées avec le langage de manipulation de données, à l'aide des instructions UPDATE, DELETE, MERGE ou TRUNCATE par exemple. Les écritures récentes sont celles qui se sont produites au cours des 30 dernières minutes. Vous pouvez modifier toutes les autres lignes de la table à l'aide des instructions UPDATE, DELETE, MERGE ou TRUNCATE. La disponibilité des données diffusées pour les opérations de copie peut prendre jusqu'à 90 minutes.

Vous pouvez également modifier les lignes récemment écrites à l'aide de l'API Storage Write avec les instructions UPDATE, DELETE ou MERGE. Pour en savoir plus, consultez Utiliser le langage de manipulation de données (LMD) avec des données récemment diffusées.
Les sous-requêtes liées dans when_clause, search_condition, merge_update_clause ou merge_insert_clause ne sont pas compatibles avec les instructions MERGE.
Les requêtes contenant des instructions LMD ne peuvent pas utiliser une table générique comme cible de la requête. Par exemple, une table générique peut être utilisée dans la clause FROM d'une requête UPDATE, mais une table générique ne peut pas être utilisée comme cible de l'opération UPDATE.

Instructions LMD

Les sections suivantes décrivent les différents types d'instructions LMD et comment les utiliser.

Instruction `INSERT`

Utilisez l'instruction INSERT pour ajouter des lignes à une table existante. L'exemple suivant insère de nouvelles lignes dans la table dataset.Inventory avec des valeurs spécifiées de manière explicite.

INSERT dataset.Inventory (product, quantity)
VALUES('whole milk', 10),
      ('almond milk', 20),
      ('coffee beans', 30),
      ('sugar', 0),
      ('matcha', 20),
      ('oat milk', 30),
      ('chai', 5)

/+-------------------+----------+
 |      product      | quantity |
 +-------------------+----------+
 | almond milk       |       20 |
 | chai              |        5 |
 | coffee beans      |       30 |
 | matcha            |       20 |
 | oat milk          |       30 |
 | sugar             |        0 |
 | whole milk        |       10 |
 +-------------------+----------+/

Pour en savoir plus sur les instructions INSERT, consultez la section Instruction INSERT.

Instruction `DELETE`

Utilisez l'instruction DELETE pour supprimer des lignes d'une table. L'exemple suivant supprime toutes les lignes de la table dataset.Inventory dont la valeur quantity est 0.

DELETE dataset.Inventory
WHERE quantity = 0

/+-------------------+----------+
 |      product      | quantity |
 +-------------------+----------+
 | almond milk       |       20 |
 | chai              |        5 |
 | coffee beans      |       30 |
 | matcha            |       20 |
 | oat milk          |       30 |
 | whole milk        |       10 |
 +-------------------+----------+/

Pour supprimer toutes les lignes d'une table, utilisez plutôt l'instruction TRUNCATE TABLE. Pour en savoir plus sur les instructions DELETE, consultez Instruction DELETE.

Instruction `TRUNCATE`

Utilisez l'instruction TRUNCATE pour supprimer toutes les lignes d'une table, mais en conservant les métadonnées de cette table, y compris son schéma, sa description et ses libellés. L'exemple suivant supprime toutes les lignes de la table dataset.Inventory.

TRUNCATE dataset.Inventory

Pour supprimer des lignes spécifiques dans un tableau. Utilisez plutôt l'instruction DELETE. Pour en savoir plus sur l'instruction TRUNCATE, consultez la section Instruction TRUNCATE.

Instruction `UPDATE`

Utilisez l'instruction UPDATE pour mettre à jour les lignes existantes d'une table. L'instruction UPDATE doit également inclure le mot clé WHERE pour spécifier une condition. L'exemple suivant réduit de 10 la valeur quantity des lignes pour les produits contenant la chaîne milk.

UPDATE dataset.Inventory
SET quantity = quantity - 10,
WHERE product LIKE '%milk%'

/+-------------------+----------+
 |      product      | quantity |
 +-------------------+----------+
 | almond milk       |       10 |
 | chai              |        5 |
 | coffee beans      |       30 |
 | matcha            |       20 |
 | oat milk          |       20 |
 | whole milk        |        0 |
 +-------------------+----------+/

Les instructions UPDATE peuvent également inclure des clauses FROM pour inclure des tables jointes. Pour en savoir plus sur les instructions UPDATE, consultez la section Instruction UPDATE.

Instruction `MERGE`

L'instruction MERGE combine les opérations INSERT, UPDATE et DELETE en une seule instruction et les exécute de manière atomique pour fusionner les données d'une table dans une autre. Pour en savoir plus et obtenir des exemples sur l'instruction MERGE, consultez Instruction MERGE.

Tâches simultanées

BigQuery gère la simultanéité des instructions LMD qui ajoutent, modifient ou suppriment des lignes dans une table.

Instructions LMD INSERT simultanées

Au cours d'une période de 24 heures, les 1 500 premières instructions INSERT s'exécutent immédiatement après leur envoi. Une fois cette limite atteinte, les instructions INSERT simultanées qui écrivent dans une table sont limitées à 10. Des instructions INSERT supplémentaires sont ajoutées à une file d'attente PENDING. Jusqu'à 100 instructions INSERT peuvent être placées en file d'attente sur une table à tout moment. Lorsqu'une instruction INSERT se termine, l'instruction INSERT suivante est supprimée de la file d'attente et exécutée.

Si vous devez exécuter des instructions DML INSERT plus fréquemment, envisagez de diffuser des données dans votre table à l'aide de l'API Storage Write.

Instructions LMD UPDATE, DELETE et MERGE simultanées

Les instructions LMD UPDATE, DELETE et MERGE sont appelées des instructions LMD en mutation. Si vous envoyez une ou plusieurs instructions LMD en mutation sur une table alors que d'autres tâches LMD en mutation y sont toujours en cours d'exécution (ou en attente), BigQuery en exécute jusqu'à deux simultanément, après quoi jusqu'à 20 instructions sont placées en file d'attente à l'état PENDING. Une fois l'exécution de la tâche précédente terminée, la tâche suivante en attente est retirée de la file d'attente et exécutée. Les instructions LMD en mutation placées en file d'attente partagent une file d'attente par table, d'une longueur maximale de 20. Les instructions supplémentaires, au-delà de la longueur maximale de file d'attente définie pour chaque table, échouent avec le message d'erreur suivant : Resources exceeded during query execution: Too many DML statements outstanding against table PROJECT_ID:DATASET.TABLE, limit is 20.

Les jobs LMD interactifs prioritaires qui sont placés dans la file d'attente pendant plus de sept heures échouent avec le message d'erreur suivant :

DML statement has been queued for too long

Conflits des instructions LMD

L'exécution simultanée d'instructions LMD en mutation sur une table génère des conflits entre les instructions LMD lorsque celles-ci tentent de muter la même partition. Les instructions aboutissent tant qu'elles ne modifient pas la même partition. BigQuery tente de réexécuter jusqu'à trois fois les instructions ayant échoué.

Une instruction LMD INSERT qui insère des lignes dans une table n'entre pas en conflit avec une autre instruction LMD exécutée simultanément.
Une instruction LMD MERGE n'entre pas en conflit avec d'autres instructions LMD exécutées simultanément tant que l'instruction insère uniquement des lignes et ne supprime ni ne met à jour les lignes existantes. Cela peut inclure des instructions MERGE avec des clauses UPDATE ou DELETE, à condition que celles-ci ne soient pas appelées lors de l'exécution de la requête.

LMD précis

Le LMD précis est une amélioration des performances conçue pour optimiser l'exécution des instructions UPDATE, DELETE et MERGE (également appelées instructions LMD en mutation). Si le LMD précis n'est pas activé, les mutations sont effectuées au niveau du groupe de fichiers, ce qui peut entraîner des réécritures de données inefficaces. Le LMD précis introduit une approche plus granulaire qui vise à réduire la quantité de données à réécrire et à diminuer la consommation globale d'emplacements.

Activer le LMD précis

Pour activer le LMD précis, définissez l'option de table enable_fine_grained_mutations sur TRUE lorsque vous exécutez une instruction LDD CREATE TABLE ou ALTER TABLE.

Pour créer une table avec un LMD précis, utilisez l'instruction CREATE TABLE :

CREATE TABLE mydataset.mytable (
  product STRING,
  inventory INT64)
OPTIONS(enable_fine_grained_mutations = TRUE);

Pour modifier une table existante avec des instructions LMD précises, utilisez l'instruction ALTER TABLE :

ALTER TABLE mydataset.mytable
SET OPTIONS(enable_fine_grained_mutations = TRUE);

Pour modifier toutes les tables existantes d'un ensemble de données avec des instructions LMD précises, utilisez l'instruction ALTER TABLE :

FOR record IN
 (SELECT CONCAT(table_schema, '.', table_name) AS table_path
 FROM mydataset.INFORMATION_SCHEMA.TABLES)
DO
 EXECUTE IMMEDIATE
   "ALTER TABLE " || record.table_path || " SET OPTIONS(enable_fine_grained_mutations = TRUE)";
END FOR;

Une fois l'option enable_fine_grained_mutations définie sur TRUE, les instructions LMD de mutation sont exécutées avec les fonctionnalités LMD précises activées et utilisent la syntaxe des instructions LMD existante.

Pour désactiver le LMD précis sur une table, définissez enable_fine_grained_mutations sur FALSE à l'aide de l'instruction LDD ALTER TABLE.

Pour déterminer si une table a été activée avec le langage LMD précis, interrogez la vue INFORMATION_SCHEMA.TABLES. L'exemple suivant vérifie quelles tables d'un ensemble de données ont été activées avec cette fonctionnalité :

SELECT
  table_schema AS datasetId,
  table_name AS tableId,
  is_fine_grained_mutations_enabled
FROM
  DATASET_NAME.INFORMATION_SCHEMA.TABLES;

Remplacez DATASET_NAME par le nom de l'ensemble de données dans lequel vérifier si des tables ont activé le contrôle précis du LMD.

Tarifs

L'activation du LMD précis pour une table peut entraîner des coûts de stockage BigQuery supplémentaires pour stocker les métadonnées de mutation supplémentaires associées aux opérations de LMD précis. Le coût réel dépend de la quantité de données modifiées, mais dans la plupart des cas, il devrait être négligeable par rapport à la taille de la table elle-même.

Les opérations LMD précises traitent les données supprimées selon une approche hybride qui répartit les coûts de réécriture sur de nombreuses mutations de table. Chaque opération LMD traite une partie des données supprimées, et le système décharge également le traitement restant en arrière-plan. Ces jobs de traitement de données supprimés entraînent des coûts de calcul BigQuery supplémentaires.

Vous pouvez utiliser des réservations BigQuery pour allouer des ressources de calcul BigQuery dédiées à ces jobs de traitement des données supprimées hors connexion. Les réservations vous permettent de définir un plafond du coût d'exécution de ces opérations. Cette approche est particulièrement utile pour les tables très volumineuses avec des opérations LMD de mutation précises et fréquentes, qui entraîneraient des coûts à la demande élevés en raison du grand nombre d'octets traités lors de l'exécution de chaque job de traitement des données supprimées hors connexion.

Les jobs de traitement des données supprimées de manière précise hors connexion sont considérés comme des jobs d'arrière-plan et utilisent le type d'attribution BACKGROUND plutôt que le type d'attribution QUERY. Les projets qui effectuent des opérations LMD précises sans processus d'attribution BACKGROUND traitent les données supprimées à l'aide de la tarification à la demande.

Pour les projets configurés pour utiliser la tarification à la demande pour le calcul, les instructions LMD précises ne réduisent pas les octets analysés.

Pour trouver les tâches de traitement des données supprimées par le LMD précis hors connexion :

SELECT
  *
FROM
  region-us.INFORMATION_SCHEMA.JOBS
WHERE
  job_id LIKE "%fine_grained_mutation_garbage_collection%"

Si la table reçoit un grand nombre de jobs LMD, le traitement des données supprimées peut être entièrement géré par les LMD, ce qui élimine le besoin de traitement en arrière-plan.

Remarques concernant les données supprimées

Les projets qui effectuent des opérations LMD précises avec une attribution BACKGROUND traitent les données supprimées à l'aide d'emplacements et sont soumis à la disponibilité des ressources de la réservation configurée. Si les ressources disponibles dans la réservation configurée sont insuffisantes, le traitement des données supprimées peut prendre plus de temps que prévu.

Les projets qui effectuent des opérations LMD précises à l'aide de la tarification à la demande ou sans attribution de BACKGROUND traitent les données supprimées à l'aide de la tarification à la demande et font régulièrement traiter les données supprimées à l'aide des ressources BigQuery internes.

Limites

Les tables pour lesquelles le LMD précis est activé sont soumises aux limites suivantes :

Vous ne pouvez pas utiliser la méthode tabledata.list pour lire le contenu d'une table pour laquelle le LMD précis est activé. Interrogez plutôt la table avec une instruction SELECT pour lire les enregistrements de la table.
Il est impossible de prévisualiser une table pour laquelle le LMD précis est activé à l'aide de la console BigQuery.
Vous ne pouvez pas copier une table avec le LMD précis activé après avoir exécuté une instruction UPDATE, DELETE ou MERGE.
Vous ne pouvez pas créer d'instantané de table ni de clone de table pour une table avec le LMD précis activé après l'exécution d'une instruction UPDATE, DELETE ou MERGE.
Vous ne pouvez pas activer le LMD précis sur une table dans un ensemble de données répliqué, et vous ne pouvez pas répliquer un ensemble de données contenant une table sur laquelle le LMD précis est activé.
Les instructions LMD exécutées dans une transaction à plusieurs instructions ne sont pas optimisées avec le LMD précis.
Vous ne pouvez pas activer le contrôle des accès ultraprécis LMD sur les tables temporaires créées avec l'instruction CREATE TEMP TABLE.

Bonnes pratiques

Pour des performances optimales, Google recommande de respecter les préconisations suivantes :

Évitez d'envoyer un grand nombre de mises à jour ou d'insertions de lignes individuelles. À la place, regroupez les opérations LMD lorsque cela est possible. Pour plus d'informations, consultez la section Instructions LMD qui mettent à jour ou insèrent des lignes uniques.
Si des mises à jour ou des suppressions se produisent généralement sur des données plus anciennes ou dans une plage de dates donnée, envisagez de partitionner vos tables. Le partitionnement garantit que les modifications sont limitées à des partitions spécifiques de la table.
Évitez de partitionner les tables si la quantité de données dans chaque partition est petite et que chaque mise à jour modifie une grande partie des partitions.
Si vous mettez souvent à jour des lignes dans lesquelles une ou plusieurs colonnes sont comprises dans une plage de valeurs étroite, pensez à utiliser des tables en cluster. Le clustering garantit que les modifications sont limitées à des ensembles spécifiques de blocs, ce qui réduit la quantité de données à lire et à écrire. Voici un exemple d'instruction UPDATE qui filtre sur une plage de valeurs de colonne :
```
UPDATE mydataset.mytable
SET string_col = 'some string'
WHERE id BETWEEN 54 AND 75;
```
Voici un exemple similaire qui filtre sur une petite liste de valeurs de colonnes :
```
UPDATE mydataset.mytable
SET string_col = 'some string'
WHERE id IN (54, 57, 60);
```
Envisagez de mettre en cluster la colonne id dans ces cas de figure.
Si vous avez besoin des fonctionnalités OLTP, envisagez d'utiliser des requêtes fédérées Cloud SQL, qui permettent à BigQuery d'interroger les données résidant dans Cloud SQL.

Pour découvrir les bonnes pratiques d'optimisation des performances des requêtes, consultez la page Présentation de l'optimisation des performances des requêtes.

Étape suivante

Pour obtenir des informations et des exemples sur la syntaxe LMD, consultez la page Syntaxe LMD.
Pour plus d'informations sur l'utilisation des instructions LMD dans les requêtes programmées, consultez la page Planifier des requêtes.

Transformer des données avec le langage de manipulation de données (LMD)

Limites

Instructions LMD

Instruction INSERT

Instruction DELETE

Instruction TRUNCATE

Instruction UPDATE

Instruction MERGE

Tâches simultanées

Instructions LMD INSERT simultanées

Instructions LMD UPDATE, DELETE et MERGE simultanées

Conflits des instructions LMD

LMD précis

Activer le LMD précis

Tarifs

Remarques concernant les données supprimées

Limites

Bonnes pratiques

Étape suivante

Instruction `INSERT`

Instruction `DELETE`

Instruction `TRUNCATE`

Instruction `UPDATE`

Instruction `MERGE`