Introdução à administração do BigQuery

Neste documento, você verá uma introdução às tarefas de administração do BigQuery e os recursos do BigQuery que ajudam a realizá-las.

Os administradores do BigQuery geralmente executam os seguintes tipos de tarefas:

  • Gerencie recursos como projetos, conjuntos de dados e tabelas.
  • Proteja os recursos para que o acesso seja limitado aos principais recursos.
  • Gerencie cargas de trabalho, como jobs, consultas e capacidade de computação (reservas).
  • Monitore os recursos, incluindo cotas, jobs e uso de computação.
  • Otimize as cargas de trabalho para conseguir um melhor desempenho e controle custos.
  • Resolva problemas de mensagens de erro, problemas de faturamento e cotas.

Neste documento, você terá uma visão geral dos recursos oferecidos pelo BigQuery para executar essas tarefas.

Para fazer um tour pelos recursos de administração de dados do BigQuery diretamente no console do Google Cloud, clique em Fazer o tour.

Faça o tour

Ferramentas

O BigQuery fornece várias interfaces que podem ser usadas para tarefas de administração. Geralmente, uma tarefa específica pode ser feita com várias ferramentas, permitindo que você escolha a que funciona melhor para você. Por exemplo, é possível criar uma tabela usando o painel do Explorer no console do Google Cloud, um comando bq mk --table ou uma instrução SQL CREATE TABLE.

  • Console do Google Cloud. O console do Google Cloud tem várias páginas dedicadas à administração do BigQuery. Para mais informações, consulte Usar o console do Google Cloud.
  • Instruções SQL. A página do BigQuery no console do Google Cloud tem um editor de consultas em que é possível executar tarefas administrativas usando instruções DDL e DCL. Para saber mais, consulte Linguagem de definição de dados (DDL) e Linguagem de controle de dados (DCL).

    Use procedimentos armazenados para automatizar tarefas de administração que usam instruções SQL. Para ver mais informações, consulte Trabalhar com procedimentos armazenados.

  • Comandos bq. A ferramenta de linha de comando bq permite executar muitas tarefas administrativas usando comandos bq. É possível usar a ferramenta de linha de comando bq para realizar tarefas não compatíveis com o console do Google Cloud, para prototipar a funcionalidade antes de codificá-la em consultas ou métodos de API, ou se preferir trabalhar em uma interface de linha de comando. Para mais informações, consulte Usar a ferramenta de linha de comando bq.

Gerenciar recursos

Os recursos do BigQuery incluem organizações, pastas, projetos, conjuntos de dados e tabelas. Nesta seção, você verá como gerenciar os recursos da organização.

Para informações sobre a hierarquia de recursos do BigQuery, consulte Organizar recursos do BigQuery. Em particular, é possível criar um recurso Organização, que permite realizar algumas tarefas, como definir controles de acesso, no nível da organização.

Gerenciar conjuntos de dados

Os conjuntos de dados são contêineres para tabelas. É possível criar tabelas em um conjunto de dados e, em seguida, gerenciá-las como um grupo. Por exemplo, é possível configurar o prazo de validade padrão de um conjunto de dados, o que se aplica a todas as tabelas, a menos que você o substitua. É possível copiar um grupo de tabelas fazendo uma cópia do conjunto de dados e controlar o acesso a tabelas no nível do conjunto de dados.

Consulte os documentos a seguir para mais informações sobre a administração de conjuntos de dados:

Gerenciar tabelas

No BigQuery, os dados são armazenados em tabelas, em que eles podem ser consultados. É possível criar tabelas, carregar dados em tabelas de vários tipos e fontes em vários formatos, particionar tabelas com base em uma coluna específica ou por tempo de ingestão, tabelas de cluster, atualizar propriedades da tabela e exportar dados da tabela.

Consulte os documentos a seguir para mais informações sobre administração de tabelas:

Etiquetar recursos

Para ajudar a organizar seus recursos do BigQuery, adicione rótulos aos seus conjuntos de dados, tabelas e visualizações. Rótulos são pares de chave-valor que você anexa a um recurso. Depois de rotular os recursos, procure-os com base nos valores do rótulo. Por exemplo, é possível usar rótulos para agrupar conjuntos de dados por departamento adicionando rótulos como dept:sales, dept:marketing ou dept:analytics. Em seguida, é possível dividir as cobranças faturadas por departamento usando os rótulos.

Para mais informações, consulte Introdução ao MQL.

Receber informações do recurso

Para informações sobre seus recursos do BigQuery, consulte as visualizações INFORMATION_SCHEMA. O BigQuery fornece visualizações para cada tipo de recurso. Por exemplo, a visualização INFORMATION_SCHEMA.TABLES contém informações sobre suas tabelas.

Veja a seguir alguns exemplos de informações que é possível conseguir consultando as visualizações INFORMATION_SCHEMA:

  • Veja quando uma tabela foi criada.
  • Receba os nomes e tipos de dados de cada coluna em uma tabela.
  • Encontre todos os jobs em execução em um projeto.
  • Receba uma lista dos snapshots de tabelas que foram criados a partir de uma tabela base.
  • Para um conjunto de dados, tabela, visualização ou rotina, receba a instrução DDL que pode ser usada para criar o recurso.
  • Receba as opções usadas para criar uma tabela (por exemplo, expiração da tabela).
  • Encontre as colunas de particionamento e clustering em uma tabela.
  • Receba a reserva atualmente atribuída e a respectiva capacidade de slot.

Para mais informações, consulte Introdução ao BigQuery INFORMATION_SCHEMA.

Copiar dados

É possível criar cópias dos seus dados por vários motivos, como proteção contra erros humanos, ou reter dados para comparação no futuro. O BigQuery oferece várias opções para copiar os dados de uma tabela de um momento específico.

  • Viagem no tempo. Talvez seja necessário acessar o estado de uma tabela como em algum momento da semana passada. Por exemplo, se os dados foram corrompidos devido a um erro humano. O BigQuery retém os dados históricos das suas tabelas por sete dias. É possível acessar os dados históricos recentes de uma tabela usando o recurso de viagem no tempo.

    Para mais informações, consulte Acessar dados históricos usando a viagem no tempo.

  • Snapshots da tabela. Se quiser acessar o estado de uma tabela de mais de uma semana no passado, crie snapshots de tabela periodicamente. Os snapshots de tabelas são cópias leves somente leitura que permitem preservar o estado das tabelas indefinidamente. Com snapshots de tabelas, por exemplo, é possível comparar os dados atuais de uma tabela com os dados do início do ano, o que não é possível usando a viagem no tempo. Você é cobrado somente pelo armazenamento de dados que diferem entre a tabela base e o snapshot da tabela.

    Para mais informações, consulte Introdução aos snapshots da tabela.

  • Clones de tabelas. Se você quiser fazer uma cópia leve e gravável de uma tabela, use os clones de tabela. Você paga apenas pelo armazenamento de dados que diferem entre uma tabela base e o clone de tabela. Por exemplo, você poderia criar clones de tabela em um ambiente de teste para testar cópias de dados de produção sem afetar os dados de produção e sem pagar por armazenamento de cópias completas das tabelas.

    Para mais informações, consulte Introdução aos clones de tabela.

Rastrear linhagem de dados

A linhagem de dados é um recurso do Dataplex que permite acompanhar como os dados se movimentam nos sistemas: origem, destino e quais transformações são aplicadas a eles. Para mais informações sobre como a linhagem de dados pode ajudar a acompanhar o movimento de dados no projeto, consulte Sobre a linhagem de dados no Dataplex.

Proteger recursos

A segurança do BigQuery é baseada no Google Cloud Identity and Access Management. O BigQuery permite controlar o acesso a recursos em vários níveis, incluindo acesso a organizações, pastas, projetos, conjuntos de dados, tabelas, colunas da tabela e linhas da tabela.

Para informações sobre como controlar o acesso aos recursos do BigQuery, consulte Visão geral da segurança e governança de dados.

Gerenciar cargas de trabalho

O BigQuery realiza muitas tarefas em nome dos usuários, incluindo ingestão, consulta e exportação de dados. Cada tarefa é realizada por um job do BigQuery. Nesta seção, descrevemos como monitorar e gerenciar os jobs da sua organização.

Gerencie vagas

Jobs são ações executadas pelo BigQuery em nome de um usuário para carregar, exportar, consultar ou copiar dados. Quando um usuário inicia uma dessas tarefas usando o console do Google Cloud, a ferramenta de linha de comando bq, uma Instrução SQL ou uma chamada de API, o BigQuery cria automaticamente um job para executar a tarefa.

Como administrador do BigQuery, é possível monitorar, gerenciar e solucionar problemas dos jobs da sua organização para garantir que eles sejam executados sem problemas.

Para mais informações, consulte Visão geral de jobs.

Gerenciar reservas

Quando o BigQuery executa consultas, ele usa unidades de computação chamadas de slots. O BigQuery calcula quantos slots são necessários para executar cada consulta, dependendo do tamanho e da complexidade da consulta.

O BigQuery tem dois modelos de preços para cobrar pelos slots que executam suas consultas:

  • Faturamento sob demanda. Suas consultas usam um pool compartilhado de slots, e você é cobrado pelo número de bytes processados pelo seu processo de consulta.
  • Faturamento baseado em capacidade. Você atribui uma reserva ou compromisso de capacidade a uma edição, cada uma com um conjunto de recursos e uma faixa de preços específicos para oferecer o melhor ambiente de trabalho.

Esses modelos de preços são aplicados por projeto. Assim, é possível ter alguns projetos que usam faturamento sob demanda e outros que usam faturamento baseado em capacidade.

Com o faturamento sob demanda, após o consumo da sua alocação mensal de uso gratuito, você será cobrado pelo número de bytes processados por cada consulta. A capacidade está limitada a uma cota de slot predefinida, que é compartilhada entre as consultas executadas em um projeto.

Com o faturamento das edições do BigQuery, você aloca slots para sua organização por meio de reservas de escalonamento automático e compromissos de capacidade opcionais, mas mais baratos. Os slots de cada edição têm a própria faixa de preços e oferecem o próprio conjunto de recursos. Para mais informações sobre as edições do BigQuery e os recursos associados a elas, consulte Introdução às edições do BigQuery.

Consulte os documentos a seguir para mais informações sobre como gerenciar a capacidade de computação para processar suas consultas:

Monitorar recursos

O Google Cloud permite monitorar e auditar seus recursos, incluindo recursos do BigQuery. Nesta seção, descrevemos os recursos de monitoramento e auditoria do Google Cloud que se aplicam ao BigQuery.

Para mais informações, consulte Introdução ao monitoramento do BigQuery.

O painel do Cloud Monitoring

O Cloud Monitoring fornece um painel para monitorar o BigQuery. Use este painel para ver informações sobre incidentes, conjuntos de dados, tabelas, projetos, tempos de consulta e utilização de slots do BigQuery.

Para mais informações, consulte Visualizar o painel do Monitoring.

Gráficos e alertas de administração

Use o Cloud Monitoring para criar gráficos personalizados com base nos recursos, nas métricas e em qualquer agregação especificada.

Para mais informações, consulte Painéis e gráficos.

Também é possível criar políticas de alerta que notificam você se o alerta configurado for acionado. Por exemplo, crie um alerta que envie um e-mail para um endereço de e-mail especificado se o tempo de execução de uma consulta exceder um limite especificado.

Para mais informações, consulte Como criar um alerta.

Monitorar reservas

Monitore o uso do slot na página Gerenciamento de capacidade do console do Google Cloud. É possível visualizar seus compromissos de capacidade e ver o local em que suas reservas de slot foram atribuídas. Também é possível usar o Estimador de slot (Visualização) para estimar os requisitos de capacidade da sua organização com base nas métricas de desempenho histórico.

Para mais informações, consulte Como monitorar reservas do BigQuery.

Cotas

O Google Cloud define limites no uso de recursos, incluindo recursos do BigQuery, para garantir o uso aceitável dos recursos compartilhados e para evitar custos descontrolados. Veja o uso dos recursos do BigQuery que têm cotas e solicite uma cota maior, se necessário, usando o console do Google Cloud.

Para mais informações, consulte Cotas e limites do BigQuery.

Registros de auditoria

Os registros de auditoria do Cloud mantêm um registro dos eventos do Google Cloud, incluindo eventos do BigQuery. Use o Explorador de registros para consultar os registros sobre eventos relacionados a jobs, conjuntos de dados, transferências e muito mais do BigQuery. O Painel de registros exibe informações sobre erros recentes e é possível usar métricas com base em registros para contar as entradas de registro que correspondem a um determinado filtro.

Para mais informações, consulte a documentação da geração de registros do Google Cloud.

Otimizar cargas de trabalho

É possível otimizar a configuração do BigQuery para controlar os custos de armazenamento e processamento de consultas.

Orientações sobre confiabilidade

Neste documento, apresentamos uma noção básica da confiabilidade do BigQuery, incluindo insights sobre disponibilidade, durabilidade, consistência de dados, consistência de desempenho e recuperação de dados no BigQuery, bem como uma análise das considerações sobre tratamento de erros. Para saber mais sobre confiabilidade e planejamento para recuperação de desastres, consulte Noções básicas sobre confiabilidade.

Resolver problemas

Além dos recursos descritos neste documento para monitorar e gerenciar o sistema do BigQuery da sua organização, os seguintes recursos estão disponíveis para resolver problemas que podem surgir:

Se você precisar de mais ajuda, consulte Como receber suporte.

A seguir