Neste documento, descrevemos como criar conjuntos de dados no BigQuery.
Crie conjuntos de dados das seguintes maneiras:
- usando o Console do Cloud;
- use o comando
bq mk
na ferramenta de linha de comandobq
. - Chamada do método de API
datasets.insert
- use bibliotecas de cliente;
- Copiando um conjunto de dados existente.
Para ver as etapas para essa ação, inclusive entre regiões, consulte Como copiar conjuntos de dados.
Limitações do conjunto de dados
Os conjuntos de dados do BigQuery estão sujeitos às seguintes limitações:
- A definição do local geográfico é possível apenas no momento da criação. Depois que um conjunto de dados
é criado, o local torna-se imutável e não pode ser alterado usando o
Console do Cloud, a ferramenta de linha de comando
bq
ou chamando os métodos de APIpatch
ouupdate
. Todas as tabelas referenciadas em uma consulta precisam ser armazenadas em conjuntos de dados no mesmo local.
Ao copiar uma tabela, os conjuntos de dados que contêm as tabelas de origem e de destino precisam estar no mesmo local.
Os conjuntos de dados de cada projeto devem ter nomes exclusivos.
Como nomear conjuntos de dados
Ao criar um conjunto de dados no BigQuery, ele precisa ter um nome exclusivo para cada projeto. O nome do conjunto de dados pode conter:
- até 1.024 caracteres;
letras (maiúsculas e minúsculas), números e sublinhados;
Os nomes dos conjuntos de dados diferenciam maiúsculas de minúsculas: mydataset
e MyDataset
podem coexistir no
mesmo projeto.
Os nomes de conjuntos de dados não podem conter espaços ou caracteres especiais, como -
, &
, @
e %
.
Permissões necessárias
É preciso, pelo menos, ter as permissões bigquery.datasets.create
para criar um conjunto de dados. Os seguintes papéis predefinidos do IAM incluem as permissões bigquery.datasets.create
:
bigquery.dataEditor
bigquery.dataOwner
bigquery.user
bigquery.admin
Para mais informações sobre papéis e permissões do IAM no BigQuery, consulte Papéis e permissões predefinidos.
Como criar um conjunto de dados
Para criar um conjunto de dados:
Console
Abra a página do BigQuery no Console do Cloud.
No painel Explorador, selecione o projeto em que você quer criar o conjunto de dados.
No painel de detalhes, clique em Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
- Em ID do conjunto de dados, insira um nome exclusivo para o conjunto de dados.
Opcional: em Local dos dados, escolha uma localização geográfica para o conjunto de dados. Se o valor permanecer definido como Padrão, o local será definido como
US
. Após a criação de um conjunto de dados, o local não pode ser alterado.Em Validade da tabela padrão, escolha uma das seguintes opções:
- Nunca: (padrão) as tabelas criadas no conjunto de dados nunca são excluídas automaticamente. Você precisa excluí-las manualmente.
- Número de dias após a criação da tabela: esse valor determina quando uma tabela recém-criada no conjunto de dados é excluída. Esse valor será aplicado caso a expiração da tabela não seja definida quando ela for criada.
Clique em Criar conjunto de dados.
SQL
Para criar um conjunto de dados, use a
instrução CREATE SCHEMA
.
No exemplo a seguir, criamos um conjunto de dados chamado mydataset
com uma validade
de tabela padrão.
CREATE SCHEMA mydataset OPTIONS( default_table_expiration_days=3.75, labels=[("label1","value1"),("label2","value2")] )
Para informações sobre como executar uma consulta SQL no BigQuery, consulte Como executar jobs de consulta interativa e em lote.
bq
Use o comando bq mk
com a sinalização --location
para criar um novo conjunto de dados.
Os parâmetros opcionais incluem --default_table_expiration
, --default_partition_expiration
e --description
.
Para criar um conjunto de dados em um projeto diferente do projeto padrão, adicione a ID do projeto ao nome do conjunto de dados no seguinte formato: project_id:dataset
.
bq --location=location mk \ --dataset \ --default_table_expiration integer1 \ --default_partition_expiration integer2 \ --description description \ project_id:dataset
Substitua:
location
é o local do conjunto de dados. Após a criação de um conjunto de dados, o local não pode ser alterado. É possível definir um valor padrão para o local usando o arquivo.bigqueryrc
.integer1
é a vida útil padrão (em segundos) das tabelas recém-criadas. O valor mínimo é de 3.600 segundos (uma hora). O tempo de expiração é avaliado como o horário atual mais o valor inteiro. Qualquer tabela criada no conjunto de dados será excluídainteger1
segundos após a hora de criação. Esse valor será aplicado caso a expiração da tabela não seja definida ao criar a tabela.integer2
é a vida útil padrão (em segundos) das partições das tabelas particionadas recém-criadas. Não há um valor mínimo de expiração de partição padrão. O prazo de validade é avaliado para a data da partição, acrescida desse valor. Qualquer partição criada em uma tabela particionada no conjunto de dados é excluídainteger2
segundos após a data da partição. Se você fornecer a sinalização--time_partitioning_expiration
ao criar ou atualizar uma tabela particionada, a validade da partição no nível da tabela terá prioridade sobre a validade da partição padrão no nível do conjunto de dados.description
é uma descrição do conjunto de dados entre aspas.project_id
é o ID do projeto.dataset
é o nome do conjunto de dados que você está criando.
Por exemplo: o comando a seguir cria um conjunto de dados chamado mydataset
com o local do conjunto de dados definido nos US
, uma expiração de tabela padrão de 3.600 segundos (1 hora) e uma descrição de This is my dataset
. Em vez de usar a sinalização --dataset
, o comando usa o atalho -d
. Se você omitir -d
e --dataset
, o comando retorna ao padrão para criar um conjunto de dados.
bq --location=US mk -d \
--default_table_expiration 3600 \
--description "This is my dataset." \
mydataset
Para confirmar se o conjunto de dados foi criado, digite o comando bq ls
. Além disso,
é possível criar uma tabela ao criar um novo conjunto de dados usando o
seguinte formato: bq mk -t dataset.table
.
Para mais informações sobre como criar tabelas, consulte
Como criar uma tabela.
API
Chame o método datasets.insert
com um recurso de conjunto de dados definido.
C#
Antes de testar essa amostra, siga as instruções de configuração para C# no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em C#.
Go
Antes de testar essa amostra, siga as instruções de configuração para Go no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Go.
Java
Antes de testar essa amostra, siga as instruções de configuração para Java no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Java.
Node.js
Antes de testar essa amostra, siga as instruções de configuração para Node.js no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery Node.js.
PHP
Antes de testar esta amostra, siga as instruções de configuração para PHP no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery PHP.
Python
Antes de testar essa amostra, siga as instruções de configuração para Python no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Python.
Ruby
Antes de testar esta amostra, siga as instruções de configuração para Ruby no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de Referência da API BigQuery Ruby.
Próximas etapas
- Para mais informações sobre como atribuir controles de acesso a conjuntos de dados, consulte Como controlar o acesso a conjuntos de dados.
- Para mais informações sobre como listar conjuntos de dados em um projeto, consulte Como listar conjuntos de dados.
- Para mais informações sobre metadados de conjuntos de dados, consulte Como receber informações sobre conjuntos de dados.
- Para mais informações sobre a alteração de propriedades de conjuntos de dados, consulte Como atualizar propriedades de conjuntos de dados.
- Para mais informações sobre como criar e gerenciar rótulos, consulte Como criar e gerenciar rótulos.
Faça um teste
Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho do Dialogflow em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
Faça uma avaliação gratuita do BigQuery