Sobre as diferenças entre o Dataform legado e o Dataform no Google Cloud
O Dataform é um serviço sem servidor para analistas de dados desenvolverem e implantarem tabelas, tabelas incrementais ou visualizações no BigQuery. O Dataform oferece um ambiente da Web para desenvolvimento de fluxo de trabalho SQL, conexão com os serviços GitHub, GitLab, Bitbucket e Azure DevOps, além de integração e implantação contínuas e execução de fluxos de trabalho.
O Dataform no Google Cloud é diferente do Dataform legado das seguintes maneiras:
- O Dataform no Google Cloud oferece suporte à conexão de repositórios do Dataform e do Bitbucket.
- O controle de acesso é baseado no IAM.
A configuração de um limite de simultaneidade de consulta (
concurrentQueryLimit
) no arquivo de configurações do fluxo de trabalho foi removida.No Dataform legado, os limites de simultaneidade impediam o Dataform de enviar muitas consultas simultâneas ao BigQuery. Para gerenciar a simultaneidade no Dataform no Google Cloud, recomendamos ativar as filas de consulta do BigQuery.
Os ambientes legados são substituídos por configurações de lançamento.
As programações legadas são substituídas por configurações do fluxo de trabalho.
Os alertas de falha no fluxo de trabalho são configurados no Cloud Logging.
O Dataform no Google Cloud e o Dataform legado usam diferentes versões do NPM e formatos diferentes de
package-lock.json
.Para desenvolver um fluxo de trabalho SQL no Dataform e no Dataform legados no Google Cloud, use o formato
package-lock.json
legado para a instalação do pacote. Não instale pacotes do Dataform no Google Cloud até migrar totalmente para o Dataform no Google Cloud.
Para mais informações sobre os recursos do Dataform no Google Cloud, consulte Visão geral dos recursos do Dataform.
No momento, os recursos legados do Dataform não têm suporte no Google Cloud
No momento, os seguintes recursos do Dataform legado não são compatíveis com o Dataform no Google Cloud:
- Execução manual de testes de unidade.
Pesquisar conteúdo de arquivos em espaços de trabalho de desenvolvimento.
Esta lista será atualizada continuamente à medida que novos recursos do Dataform no Google Cloud forem lançados.
Limitações conhecidas
O Dataform no Google Cloud tem as seguintes limitações conhecidas:
O Dataform no Google Cloud é executado em um ambiente de execução V8 simples e não é compatível com outros recursos e módulos fornecidos pelo Node.js. Se a base de código atual exigir algum módulo Node.js, será necessário remover essas dependências.
Projetos sem um campo de nome em
package.json
geram diferenças empackage-lock.json
sempre que os pacotes são instalados. Para evitar isso, você precisa adicionar uma propriedadename
empackage.json
.Os URLs
git
+https://
para dependências empackage.json
não são compatíveis.Converta esses URLs em URLs de arquivamento
https://
simples. Por exemplo, convertagit+https://github.com/dataform-co/dataform-segment.git#1.5
emhttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs BigQuery and Dataform.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs BigQuery and Dataform.
Funções exigidas
Para receber as permissões necessárias para importar um projeto legado,
peça ao administrador para conceder a você o papel do IAM
Administrador do Dataform (roles/dataform.admin
) nos repositórios.
Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.
Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Importar um projeto legado
Para importar um projeto legado no Dataform no Google Cloud, siga estas etapas no console do Google Cloud:
- Verifique se o projeto do Dataform em
app.dataform.co
está conectado ao GitHub ou ao GitLab. No Console do Google Cloud, acesse a página Dataform.
Conecte o repositório ao repositório Git remoto que hospeda o projeto legado.
Configurar seu projeto importado do Dataform
Para ajustar seu projeto legado para o Dataform no Google Cloud, siga estas etapas:
No Console do Google Cloud, acesse a página Dataform.
Selecione seu Repositório.
Acesse o espaço de trabalho de desenvolvimento.
No arquivo de configurações do fluxo de trabalho, especifique um local padrão.
workflow_settings.yaml
Adicione o parâmetro defaultLocation
neste formato:
defaultLocation: DATASET_LOCATION,
Substitua DATASET_LOCATION pelo local padrão do seu conjunto de dados do BigQuery, por exemplo, US
, EU
ou us-east1
.
O parâmetro defaultLocation
é ignorado por app.dataform.co
.
dataform.json
Adicione o parâmetro defaultLocation
neste formato:
"defaultLocation": "DATASET_LOCATION",
Substitua DATASET_LOCATION pelo local padrão do seu conjunto de dados do BigQuery, por exemplo, US
, EU
ou us-east1
.
O parâmetro defaultLocation
é ignorado por app.dataform.co
.
- Excluir
package-lock.json
. Em
package.json
, faça o seguinte:- Faça upgrade de
@dataform/core
para3.0.0-beta.2
ou mais recente. Adicione um nome de pacote no seguinte formato:
{ "name": "PACKAGE_NAME", "dependencies": { "@dataform/core": "^3.0.0-beta.2" } }
Substitua PACKAGE_NAME por um nome para seu pacote do Dataform, por exemplo, o nome do projeto.
Converta URLs
git+https://
em dependênciaspackage.json
em URLs de arquivohttps://
simples.Por exemplo, converta
git+https://github.com/dataform-co/dataform-segment.git#1.5
emhttps://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz
.Se você estiver usando URLs
git+https://
em pacotes pré-criados do Dataform, confira as instruções de instalação atualizadas desses pacotes nas páginas de lançamento, por exemplo, na página de lançamento do segmento dataform.
- Faça upgrade de
Configure as permissões do BigQuery e as permissões do usuário.
Migrar ambientes de
environments.json
para configurações de lançamento.Migrar programações de
environments.json
para configurações de fluxo de trabalho.
A seguir
- Para saber como migrar ambientes legados e programações para o Dataform no Google Cloud, consulte Migrar ambientes e programações legados.
- Para saber mais sobre o Dataform no Google Cloud, consulte Visão geral do Dataform.
- Para saber mais sobre os recursos do Dataform no Google Cloud, consulte Visão geral dos recursos do Dataform.
- Para aprender a criar um repositório, consulte Criar um repositório do Dataform.
- Para saber mais sobre o ciclo de vida do código no Dataform e as maneiras de configurá-lo, consulte Introdução ao ciclo de vida do código no Dataform.