Criar pipelines
Neste documento, descrevemos como criar pipelines no BigQuery. Os pipelines são gerados pelo Dataform.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
Para criar pipelines:
Criador de código (
roles/dataform.codeCreator
) -
Para editar e executar pipelines:
Editor do Dataform (
roles/dataform.editor
) Acessar a página do BigQuery.
No painel Explorer, encontre o projeto em que você ativou os recursos de código.
Clique em
Ver ações ao lado do projeto e, em seguida, clique em Mudar minha região de código padrão.Em Região, selecione a região que você quer usar para recursos de código.
Clique em Selecionar.
Acessar a página do BigQuery.
Na barra de guias do painel do editor, clique na seta
ao lado do sinal + e clique em Pipeline.Opcional: para renomear o pipeline, clique no nome dele e digite um novo.
Clique em Começar e acesse a guia Configurações.
Na seção Autenticação, escolha autorizar o pipeline com as credenciais de usuário da sua Conta do Google ou uma conta de serviço.
- Para usar as credenciais de usuário da sua Conta do Google (Prévia), selecione Executar com minhas credenciais de usuário.
- Para usar uma conta de serviço, selecione Executar com a conta de serviço selecionada e escolha uma conta.
Na seção Local de processamento, selecione um local para o pipeline.
Para ativar a seleção automática de um local, selecione Seleção automática de local. Essa opção seleciona um local com base nos conjuntos de dados referenciados na solicitação. O processo de seleção é o seguinte:
- Se a consulta fizer referência a conjuntos de dados do mesmo local, o BigQuery usará esse local.
- Se a consulta fizer referência a conjuntos de dados de dois ou mais locais diferentes, um erro vai ocorrer. Para mais detalhes sobre essa limitação, consulte Replicação de conjuntos de dados entre regiões.
- Se a consulta não fizer referência a nenhum conjunto de dados, o BigQuery usará a multirregião
US
por padrão.
Para escolher uma região específica, selecione Região e escolha uma opção no menu Região. Como alternativa, use a variável de sistema
@@location
na sua consulta. Para mais informações, consulte Especificar locais.Para escolher uma multirregião, selecione Multirregião e escolha uma no menu Multirregião.
O local de processamento do pipeline não precisa corresponder ao local de armazenamento padrão dos recursos de código.
Se você planeja adicionar um notebook ao pipeline, faça o seguinte na seção Opções de notebook:
No campo Modelo de ambiente de execução, aceite o ambiente de execução padrão do notebook ou pesquise e selecione um ambiente de execução existente.
- Para conferir as especificações do ambiente de execução padrão, clique na seta ao lado.
- Para criar um ambiente de execução, consulte Criar um modelo de ambiente de execução.
No campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.
Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço personalizada do Dataform como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de execuções de pipeline programadas e conceda o papel de administrador do Storage (
roles/storage.admin
) a esse principal.A conta de serviço personalizada do Dataform selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado.
No console Google Cloud , acesse a página BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Para adicionar um recurso de código, selecione uma das seguintes opções:
Consulta SQL
Clique em Adicionar tarefa e selecione Consulta. Você pode criar uma consulta ou importar uma já existente.
Opcional: no painel Detalhes da tarefa de consulta, no menu Executar após, selecione uma tarefa para preceder sua consulta.
Criar uma consulta
Clique no menu de seta
ao lado de Editar consulta e selecione No contexto ou Em uma nova guia.Pesquise uma consulta.
Selecione um nome de consulta e pressione Enter.
Clique em Salvar.
Opcional: para renomear a consulta, clique no nome dela no painel de pipeline, clique em Editar consulta, clique no nome da consulta na parte de cima da tela e digite um novo nome.
Importar uma consulta
Clique no menu de seta
ao lado de Editar consulta e clique em Importar uma cópia.Pesquise uma consulta para importar ou selecione uma no painel de pesquisa. Quando você importa uma consulta, a original permanece inalterada porque o arquivo de origem da consulta é copiado para o pipeline.
Clique em Editar para abrir a consulta importada.
Clique em Salvar.
Notebook
Clique em Adicionar tarefa e selecione Notebook. É possível criar ou importar um notebook. Para mudar as configurações dos modelos de ambiente de execução do notebook, consulte Opções do notebook.
Opcional: no painel Detalhes da tarefa do notebook, no menu Executar após, selecione uma tarefa para preceder o notebook.
Criar um notebook
Clique no menu de seta
ao lado de Editar notebook e selecione No contexto ou Em uma nova guia.Pesquise um notebook.
Selecione um nome de notebook e pressione Enter.
Clique em Salvar.
Opcional: para renomear o notebook, clique no nome dele no painel de pipeline, clique em Editar notebook, clique no nome do notebook na parte de cima da tela e digite um novo nome.
Importar um notebook
Clique no menu de seta
ao lado de Editar notebook e clique em Importar uma cópia.Pesquise um notebook para importar ou selecione um no painel de pesquisa. Quando você importa um notebook, o original permanece inalterado porque o arquivo de origem do notebook é copiado para o pipeline.
Para abrir o notebook importado, clique em Editar.
Clique em Salvar.
Preparação de dados
Clique em Adicionar tarefa e selecione Preparação de dados. Você pode criar uma nova preparação de dados ou importar uma já existente.
Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar após, selecione uma tarefa para preceder a preparação de dados.
Criar uma nova preparação de dados
Clique no menu de seta
ao lado de Editar preparação de dados e selecione No contexto ou Em uma nova guia.Pesquise uma preparação de dados.
Selecione um nome de preparação de dados e pressione "Enter".
Clique em Salvar.
Opcional: para renomear a preparação de dados, clique no nome dela no painel de pipeline, clique em Editar preparação de dados, clique no nome na parte de cima da tela e insira um novo nome.
Importar uma preparação de dados atual
Clique no menu suspenso de seta
ao lado de Editar preparação de dados e clique em Importar uma cópia.Pesquise uma preparação de dados para importar ou selecione uma no painel de pesquisa. Quando você importa uma preparação de dados, o original permanece inalterado porque o arquivo de origem da preparação de dados é copiado para o pipeline.
Para abrir a preparação de dados importados, clique em Editar.
Clique em Salvar.
Tabela
Clique em Adicionar tarefa e selecione Tabela.
Insira um nome para a tabela.
No painel Detalhes da tarefa da tabela, clique em Abrir para abrir a tarefa.
Configure a tarefa usando as configurações em Detalhes > Configuração ou no bloco
config
do editor de código da tabela.Para mudanças de metadados, use a guia Configuração. Nela, é possível editar um valor específico no bloco
config
do editor de código, como uma string ou uma matriz, que é formatada como um objeto JavaScript. Usar essa guia ajuda a evitar erros de sintaxe e verificar se as configurações estão corretas.Opcional: no menu Executar após, selecione uma tarefa para preceder sua tabela.
Também é possível definir os metadados da tarefa do pipeline no bloco
config
do editor. Para mais informações, consulte Como criar tabelas.O editor valida seu código e mostra o status da validação.
Em Detalhes > Consultas compiladas, confira o SQL compilado do código SQLX.
Clique em Executar para executar o SQL no pipeline.
Em Resultados da consulta, inspecione a prévia dos dados.
Ver
Clique em Adicionar tarefa e selecione Visualizar.
Insira um nome para a visualização.
No painel Ver detalhes da tarefa, clique em Abrir para abrir a tarefa.
Configure a tarefa usando as configurações em Detalhes > Configuração ou no bloco
config
do editor de código da visualização.Para mudanças de metadados, use a guia Configuração. Nela, é possível editar um valor específico no bloco
config
do editor de código, como uma string ou uma matriz, que é formatada como um objeto JavaScript. Usar essa guia ajuda a evitar erros de sintaxe e verificar se as configurações estão corretas.Opcional: no menu Executar após, selecione uma tarefa para preceder sua visualização.
Também é possível definir os metadados da tarefa do pipeline no bloco
config
do editor. Para mais informações, consulte Como criar uma visualização com o Dataform Core.O editor valida seu código e mostra o status da validação.
Em Detalhes > Consultas compiladas, confira o SQL compilado do código SQLX.
Clique em Executar para executar o SQL no pipeline.
Em Resultados da consulta, inspecione a prévia dos dados.
No console do Google Cloud , acesse a página BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique na tarefa selecionada.
Para mudar a tarefa anterior, no menu Executar após, selecione uma tarefa que antecede a sua.
Para editar o conteúdo da tarefa selecionada, clique em Editar.
Na nova guia que será aberta, edite o conteúdo da tarefa e salve as mudanças.
No console Google Cloud , acesse a página BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique na tarefa selecionada.
No painel Detalhes da tarefa, clique no ícone ExcluirExcluir.
No console Google Cloud , acesse a página BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Compartilhar e selecione Gerenciar permissões.
Clique em Adicionar usuário/grupo.
No campo Novos participantes, insira o nome de pelo menos um usuário ou grupo.
Em Atribuir papéis, selecione um papel.
Clique em Salvar.
No console Google Cloud , acesse a página BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Compartilhar e selecione Compartilhar link. O URL do seu pipeline é copiado para a área de transferência do computador.
No console Google Cloud , acesse a página BigQuery.
No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.
Clique em Executar. Se você selecionou Executar com minhas credenciais de usuário para sua autenticação, é necessário autorizar sua Conta do Google (prévia).
Opcional: para inspecionar a execução, confira as execuções manuais anteriores.
- Acesse a página da sua Conta do Google.
- Clique em Pipelines do BigQuery.
- Clique em Remover acesso.
- Saiba mais sobre os pipelines do BigQuery.
- Saiba como gerenciar pipelines.
- Saiba como programar pipelines.
Papéis necessários para pipelines
Para receber as permissões necessárias para criar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.
Papéis necessários para opções de notebook
Para receber as permissões necessárias para
selecionar um modelo de ambiente de execução nas opções de notebook,
peça ao administrador para conceder a você o
papel do IAM de Usuário do ambiente de execução do notebook (roles/aiplatform.notebookRuntimeUser
)
no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Se você não tiver essa função, selecione a especificação padrão de tempo de execução do notebook.
Definir a região padrão para recursos de código
Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para recursos de código. Não é possível mudar a região de um recurso de código depois que ele é criado.
Todos os recursos de código no BigQuery Studio usam a mesma região padrão. Para definir a região padrão dos recursos de código, siga estas etapas:
Para conferir uma lista de regiões compatíveis, consulte Locais do BigQuery Studio.
Criar um pipeline
Para criar um pipeline, siga estas etapas:
Opções do notebook
Adicionar uma tarefa de pipeline
Para adicionar uma tarefa a um pipeline, siga estas etapas:
Editar uma tarefa de pipeline
Para editar uma tarefa de pipeline, siga estas etapas:
Excluir uma tarefa de pipeline
Para excluir uma tarefa de um pipeline, siga estas etapas:
Compartilhar um pipeline
Para compartilhar um pipeline, siga estas etapas:
Compartilhar um link para um pipeline
Executar um pipeline
Para executar manualmente a versão atual de um pipeline, siga estas etapas:
Autorizar sua Conta do Google
Para autenticar o recurso com as credenciais de usuário da sua Conta do Google, conceda permissão manualmente para que os pipelines do BigQuery recebam o token de acesso da sua Conta do Google e acessem os dados de origem em seu nome. É possível conceder aprovação manual com a interface da caixa de diálogo do OAuth.
Você só precisa conceder permissão aos pipelines do BigQuery uma vez.
Para revogar a permissão concedida, siga estas etapas:
Se o pipeline tiver um notebook, você também precisará conceder manualmente permissão para que o Colab Enterprise receba o token de acesso da sua Conta do Google e acesse os dados de origem em seu nome. Você só precisa dar permissão uma vez. É possível revogar essa permissão na página da Conta do Google.