Para reduzir o tempo de início dos pipelines, as instâncias do Cloud Data Fusion versão 6.8.0 e 6.8.1 armazenam em cache os artefatos necessários para iniciar um pipeline em um cluster do Dataproc em um bucket do Cloud Storage.
Um desses artefatos armazenados em cache é application.jar
. Dependendo da ordem em que você executa os pipelines, alguns deles podem falhar com o seguinte erro:
Unsupported program type: Spark
Por exemplo, depois de criar uma nova instância 6.8.1 (ou fazer upgrade para 6.8.1), a primeira vez que você executar um pipeline que contém apenas ações, ele vai ser concluído. No entanto, as próximas execuções de pipeline, que incluem origens ou destinos, podem falhar com esse erro.
Recomendação
Para resolver esse problema, faça o seguinte:
- Recomendado:faça upgrade da instância para a versão 6.8.2 ou mais recente do Cloud Data Fusion.
- Desative o armazenamento em cache do Cloud Storage usando um argumento de preferência ou de execução.
É possível desativar o armazenamento em cache para qualquer um dos seguintes itens:
- Para todos os pipelines em uma instância.
- Para um determinado namespace.
- Para os perfis específicos do Dataproc que contêm os pipelines com falha.
- Somente para os pipelines com falha.
Desativar o armazenamento em cache do Cloud Storage para todos os pipelines em uma instância
Para desativar o armazenamento em cache do Cloud Storage para todos os pipelines em uma instância, siga estas etapas:
Console
- Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
Clique em Administrador do sistema > Preferências do sistema e defina o valor de
system.profile.properties.gcsCacheEnabled
comofalse.
.
API REST
Para definir system.profile.properties.gcsCacheEnabled
como false
, consulte
Definir preferências.
Desativar o armazenamento em cache do Cloud Storage para um determinado namespace
Para desativar o armazenamento em cache do Cloud Storage para um determinado namespace, siga estas etapas:
Console
- Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
- Clique em Administrador do sistema > Namespaces e selecione seu namespace.
Clique em Preferências > Editar e defina o valor de
system.profile.properties.gcsCacheEnabled
comofalse
.
API REST
Para definir isso pela API REST, consulte Definir preferências.
Desativar o armazenamento em cache do Cloud Storage para um perfil do Dataproc
Para desativar o armazenamento em cache do Cloud Storage para os perfis específicos do Dataproc que contêm os pipelines com falha, siga estas etapas:
Console
- Defina
gcsCacheEnabled
comofalse
no perfil do Dataproc.
Desativar o armazenamento em cache do Cloud Storage apenas para os pipelines com falha
Para desativar o armazenamento em cache do Cloud Storage apenas para os pipelines com falha, siga estas etapas:
Console
- Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Cloud Data Fusion Studio, clique em Instâncias e em Ver instância.
- Clique em Lista e selecione o pipeline com falha.
- Clique em
system.profile.properties.gcsCacheEnabled
comofalse
.
Expandir ao lado de Executar e defina o argumento de execução
- Repita para todos os outros pipelines com falha.
API REST
O armazenamento em cache do Cloud Storage pode ser desativado ao iniciar um pipeline pela API REST e também ao especificar opcionalmente argumentos de execução como um mapa JSON no corpo da solicitação. Para mais informações, consulte Iniciar um programa.