Linguagem de manipulação de dados

A linguagem de manipulação de dados (DML) do BigQuery permite atualizar, inserir e excluir dados das tabelas do BigQuery.

É possível executar instruções DML como se fossem uma instrução SELECT, com as seguintes condições:

  • É necessário usar o SQL padrão. Para ativá-lo, consulte Como ativar o SQL padrão.
  • Não é possível especificar uma tabela de destino. Por exemplo, no Console do Cloud, é necessário definir Tabela de destino como Nenhuma tabela selecionada.

    Console do Cloud sem nenhuma tabela de destino selecionada.

Limitações

  • Uma instrução DML inicia uma transação implícita. Isso significa que as alterações feitas por ela são confirmadas automaticamente no final de cada instrução bem-sucedida. Transações de múltiplas instruções não são aceitas.

  • As linhas gravadas recentemente em uma tabela usando streaming (o método tabledata.insertall) não podem ser modificadas com instruções UPDATE, DELETE ou MERGE. Consideramos gravações recentes aquelas que ocorreram nos últimos 30 minutos. Todas as outras linhas da tabela podem ser alteradas usando UPDATE, DELETE ou MERGE.

  • Subconsultas correlatas em when_clause, search_condition, merge_update_clause ou merge_insert_clause não são compatíveis com instruções MERGE.

  • Consultas que contêm instruções DML não podem usar uma tabela curinga como destino da consulta. Por exemplo, uma tabela curinga pode ser usada na cláusula FROM de uma consulta UPDATE, mas não pode ser usada como destino da operação UPDATE.

  • As instruções DML estão sujeitas a limitações de taxa nas operações de atualização de metadados da tabela. Para mais informações, consulte as instruções da linguagem de manipulação de dados, no documento Cotas e limites.

Jobs simultâneos

O BigQuery gerencia a simultaneidade de instruções DML que adicionam, modificam ou excluem linhas em uma tabela.

Simultaneidade de DML INSERT

Durante qualquer período de 24 horas, as primeiras 1.000 instruções INSERT em uma tabela são executadas simultaneamente. Depois que esse limite é atingido, a simultaneidade de instruções INSERT que gravam em uma tabela é limitada a 10. Todos os jobs DML INSERT além de 10 são colocados em fila no estado PENDING. Depois que um job anterior é concluído, o próximo job PENDING é retirado da fila e executado. Atualmente, até 100 instruções DML INSERT podem ser enfileiradas em uma tabela a qualquer momento.

Simultaneidade de DML UPDATE, DELETE, MERGE

Nos referimos às instruções DML UPDATE, DELETE e MERGE como instruções DML mutantes. Se você enviar uma ou mais instruções DML mutáveis em uma tabela enquanto outros jobs DML mutáveis ainda estiverem em execução (ou pendentes), o BigQuery executará os jobs simultaneamente, até um número fixo de Instruções DML mutáveis ao mesmo tempo. Se você atingir o limite de simultaneidade, o BigQuery enfileirará automaticamente qualquer job adicional de DML no estado PENDING. Quando um job que estava em execução é concluído, o próximo job PENDING é retirado da fila e executado.

Os jobs DML de prioridade INTERACTIVE que estão na fila por mais de seis horas falham.

Conflitos de instrução DML

A execução simultânea de instruções DML mutantes em uma tabela pode falhar devido a conflitos entre alterações feitas por elas. O BigQuery repete essas falhas.

  • Uma instrução DML INSERT que insere linhas em uma tabela não entra em conflito com nenhuma outra instrução DML em execução simultânea.

  • As instruções DML MERGE com apenas uma cláusula INSERT sem cláusulas UPDATE ou DELETE não entram em conflito com nenhuma outra instrução DML em execução simultânea.

  • As instruções DML MERGE com cláusulas UPDATE ou DELETE não entram em conflito com nenhuma outra instrução DML executada simultaneamente, desde que a instrução MERGE não leve à atualização ou exclusão de linhas existentes.

Preços

Para saber mais sobre os preços das instruções DML, consulte Preços da linguagem de manipulação de dados, na página "Preços".

Práticas recomendadas

Para um melhor desempenho, recomendamos os seguintes padrões:

  • Evite enviar um grande número de inserções ou atualizações de linhas individuais. Em vez disso, agrupe as operações DML quando possível. Para mais informações, consulte as instruções DML que atualizam ou inserem linhas individuais.

  • Se atualizações ou exclusões geralmente ocorrerem em dados mais antigos ou em um determinado intervalo de datas, particione suas tabelas. O particionamento garante que as alterações sejam limitadas a partições específicas dentro da tabela.

  • Evite particionar tabelas se a quantidade de dados em cada partição for pequena, e cada atualização modificar uma grande fração das partições.

  • Se você costuma atualizar linhas em que uma ou mais colunas estão em um intervalo de valores restrito, use tabelas em cluster. Isso garante que as alterações sejam limitadas a conjuntos específicos de blocos, reduzindo a quantidade de dados que precisam ser lidos e gravados. Veja a seguir um exemplo de instrução UPDATE que filtra um intervalo de valores de coluna:

    UPDATE s = "some string" WHERE id BETWEEN 54 AND 75
    

    Veja um exemplo semelhante que filtra uma pequena lista de valores de coluna:

    UPDATE s = "some string" WHERE id IN (54, 57, 60)
    

    Crie um cluster na coluna id nesses casos.

  • Se você precisar da funcionalidade OLTP, use consultas federadas do Cloud SQL, que permitem ao BigQuery consultar dados armazenados no Cloud SQL.

A seguir