Para reduzir o tempo de início dos pipelines, as versões 6.8.0 e
As instâncias da 6.8.1 armazenam em cache os artefatos necessários para iniciar um pipeline em um
Cluster do Dataproc em um bucket do Cloud Storage.
Um desses artefatos armazenados em cache é application.jar
. Dependendo da ordem em que você executa os pipelines, alguns deles podem falhar com o seguinte erro:
Unsupported program type: Spark
Por exemplo, depois de criar uma nova instância 6.8.1 (ou fazer upgrade para 6.8.1), a primeira vez que você executar um pipeline que contém apenas ações, ele vai ser concluído. No entanto, as próximas execuções de pipeline, que incluem origens ou destinos, podem falhar com esse erro.
Recomendação
Para resolver esse problema, faça o seguinte:
- Recomendado: faça upgrade da instância para a versão 6.8.2 ou mais recente do Cloud Data Fusion.
- Desative o armazenamento em cache do Cloud Storage por um preference ou ambiente de execução.
É possível desativar o armazenamento em cache para qualquer um dos seguintes itens:
- Para todos os pipelines em uma instância.
- Para um determinado namespace.
- Para os perfis específicos do Dataproc que contêm os pipelines com falha.
- Apenas para os pipelines com falha.
Desativar o armazenamento em cache do Cloud Storage para todos os pipelines em uma instância
Para desativar o armazenamento em cache do Cloud Storage para todos os pipelines em uma instância, siga estas etapas:
Console
- Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Studio do Cloud Data Fusion, Clique em Instâncias e depois em Visualizar instância.
Clique em Administrador do sistema > Preferências do sistema e defina o valor
system.profile.properties.gcsCacheEnabled
afalse.
API REST
Para definir system.profile.properties.gcsCacheEnabled
como false
, consulte
Defina preferências.
Desativar o armazenamento em cache do Cloud Storage para um determinado namespace
Para desativar o armazenamento em cache do Cloud Storage para um determinado namespace, siga estas etapas:
Console
- Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Studio do Cloud Data Fusion, Clique em Instâncias e depois em Visualizar instância.
- Clique em Administrador do sistema > Namespaces e selecione .
Clique em Preferências > Editar e defina o valor de
system.profile.properties.gcsCacheEnabled
comofalse
.
API REST
Para definir isso pela API REST, consulte Definir preferências.
Desativar o armazenamento em cache do Cloud Storage para um perfil do Dataproc
Para desativar o armazenamento em cache do Cloud Storage para a conta os perfis do Dataproc que contêm os pipelines com falha, siga estas etapas:
Console
- Defina
gcsCacheEnabled
comofalse
no perfil do Dataproc.
Desativar o armazenamento em cache do Cloud Storage apenas para os pipelines com falha
Para desativar o armazenamento em cache do Cloud Storage apenas para os pipelines com falha, siga estas etapas:
Console
- Acesse sua instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Para abrir a instância no Studio do Cloud Data Fusion, Clique em Instâncias e depois em Visualizar instância.
- Clique em Lista e selecione o pipeline com falha.
- Clique em
system.profile.properties.gcsCacheEnabled
parafalse
.
Expandir ao lado de Executar e definir o argumento do ambiente de execução.
- Repita o procedimento para todos os outros pipelines com falha.
API REST
O armazenamento em cache do Cloud Storage pode ser desativado ao iniciar um pipeline por meio do REST e também especificando opcionalmente argumentos de tempo de execução como um mapa JSON no corpo da solicitação. Para mais informações, consulte Inicie um programa.