Sobre as diferenças entre o Dataform legado e o Dataform no Google Cloud
O Dataform é um serviço sem servidor para analistas de dados desenvolverem e implantarem tabelas, tabelas incrementais ou visualizações no BigQuery. O Dataform oferece um ambiente da Web para desenvolvimento de fluxos de trabalho SQL, conexão com os serviços do GitHub, GitLab, Bitbucket e Azure DevOps, integração contínua, implantação contínua e execução de fluxo de trabalho.
Confira abaixo as diferenças entre o Dataform no Google Cloud e o Dataform legado:
- O Dataform no Google Cloud oferece suporte à conexão de repositórios do Dataform com repositórios do Bitbucket.
- O controle de acesso é baseado no IAM.
A configuração de um limite de simultaneidade de consulta (
concurrentQueryLimit
) emworkflow_settings.yaml
foi removida.No Dataform legado, os limites de simultaneidade impediram que ele enviasse muitas consultas simultâneas ao BigQuery. Para gerenciar a simultaneidade no Dataform no Google Cloud, recomendamos ativar as filas de consulta do BigQuery.
Os ambientes legados foram substituídos por configurações de versão.
As programações legadas são substituídas pelas configurações do fluxo de trabalho.
Os alertas de falha no fluxo de trabalho são configurados no Cloud Logging.
O Dataform no Google Cloud e o Dataform legado usam versões diferentes do NPM e formatos distintos de
package-lock.json
.Para desenvolver um fluxo de trabalho SQL no Dataform e Dataform legados no Google Cloud, use o formato
package-lock.json
legado para a instalação de pacotes. Não instale pacotes no Dataform no Google Cloud até migrar totalmente para o Dataform no Google Cloud.
Para mais informações sobre os recursos do Dataform no Google Cloud, consulte Visão geral dos recursos do Dataform.
No momento, os recursos legados do Dataform não são compatíveis com o Google Cloud
No momento, os seguintes recursos do Dataform legado não são compatíveis com o Dataform no Google Cloud:
- Execução manual de testes de unidade.
Pesquisar conteúdo de arquivo em espaços de trabalho de desenvolvimento.
Esta lista será atualizada continuamente à medida que novos recursos do Dataform no Google Cloud forem lançados.
Limitações conhecidas
O Dataform no Google Cloud tem as seguintes limitações conhecidas:
O Dataform no Google Cloud é executado em um ambiente de execução simples do V8 e não oferece suporte a outros recursos e módulos fornecidos pelo Node.js. Se a base de código atual exigir algum módulo Node.js, será necessário remover essas dependências.
Projetos sem um campo de nome em
package.json
geram diferenças empackage-lock.json
sempre que os pacotes são instalados. Para evitar isso, é necessário adicionar uma propriedadename
empackage.json
.Não há suporte para os URLs
git
+https://
para dependências empackage.json
.Converta esses URLs em URLs de arquivo
https://
simples. Por exemplo, convertagit+https://github.com/dataform-co/dataform-segment.git#1.5
emhttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs BigQuery and Dataform.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs BigQuery and Dataform.
Funções exigidas
Para receber as permissões necessárias para importar um projeto legado,
peça ao administrador para conceder a você o papel do IAM
Administrador do Dataform (roles/dataform.admin
) nos repositórios.
Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Importar um projeto legado
Para importar um projeto legado no Dataform no Google Cloud, siga estas etapas no console do Google Cloud:
- Verifique se o projeto do Dataform em
app.dataform.co
está conectado ao GitHub ou ao GitLab. No Console do Google Cloud, acesse a página Dataform.
Conecte o repositório ao repositório Git remoto que hospeda o projeto legado.
Configure seu projeto importado do Dataform
Para ajustar seu projeto legado para o Dataform no Google Cloud, siga estas etapas:
No Console do Google Cloud, acesse a página Dataform.
Selecione seu Repositório.
Acesse o espaço de trabalho de desenvolvimento.
Em
workflow_settings.yaml
, adicione o parâmetrodefaultLocation
. Esse parâmetro é ignorado peloapp.dataform.co
."defaultLocation": "DATASET_LOCATION",
Substitua DATASET_LOCATION pelo local padrão do seu conjunto de dados do BigQuery, por exemplo,
US
,EU
ouus-east1
.Excluir
package-lock.json
.Em
package.json
, faça o seguinte:- Faça upgrade de
@dataform/core
para3.0.0-beta.2
ou mais recente. Adicione um nome de pacote no seguinte formato:
{ "name": "PACKAGE_NAME", "dependencies": { "@dataform/core": "^3.0.0-beta.2" } }
Substitua PACKAGE_NAME por um nome para o pacote do Dataform, por exemplo, o nome do projeto.
Converta URLs
git+https://
em dependências depackage.json
em URLs de arquivohttps://
simples.Por exemplo, converta
git+https://github.com/dataform-co/dataform-segment.git#1.5
parahttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.Se você estiver usando URLs
git+https://
em pacotes pré-criados do Dataform, verifique as instruções de instalação atualizadas desses pacotes nas páginas de lançamento deles, por exemplo, a página de lançamento do segmento do Dataform.
- Faça upgrade de
Configure as permissões do BigQuery e as permissões do usuário.
Migre ambientes de
environments.json
para configurações de lançamento.Migrar programações do
environments.json
para as configurações do fluxo de trabalho.
A seguir
- Para saber como migrar ambientes e programações legados para o Dataform no Google Cloud, consulte Migrar ambientes e programações legados.
- Para saber mais sobre o Dataform no Google Cloud, consulte Visão geral do Dataform.
- Para saber mais sobre os recursos do Dataform no Google Cloud, consulte Visão geral dos recursos do Dataform.
- Para saber como criar um repositório, consulte Criar um repositório do Dataform.
- Para saber mais sobre o ciclo de vida do código no Dataform e como configurá-lo, consulte Introdução ao ciclo de vida do código no Dataform.