Nesta página, descrevemos como alterar a versão da imagem do Dataproc usada pela sua instância do Cloud Data Fusion.
Antes de começar
Interrompa todos os pipelines em tempo real e jobs de replicação na instância do Cloud Data Fusion. Se um pipeline em tempo real ou a replicação estiver em execução quando você alterar a versão de imagem do Dataproc, as alterações não serão aplicadas à execução do pipeline.
Para pipelines em tempo real, se o checkpoint estiver ativado, a interrupção desses pipelines não causará perda de dados. Para jobs de replicação, interromper e iniciar o job não causa perda de dados, contanto que os registros do banco de dados estejam disponíveis.
Console
Acesse a página Instâncias do Cloud Data Fusion (no CDAP, clique em Ver instâncias) e abra a instância em que você precisa interromper um pipeline.
Abra cada pipeline em tempo real no Pipeline Studio e clique em Stop.
Abra cada job de replicação na página Replicar e clique em Interromper.
API REST
Para recuperar todos os pipelines, use a seguinte chamada da API REST:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
Substitua
NAMESPACE_ID
pelo nome do seu namespace.Para interromper um pipeline em tempo real, use a seguinte chamada da API REST:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
Substitua NAMESPACE_ID pelo nome do namespace e PIPELINE_NAME pelo nome do pipeline em tempo real.
Para interromper um job de replicação, use a seguinte chamada da API REST:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
Substitua NAMESPACE_ID pelo nome do namespace e REPLICATION_JOB_NAME pelo nome do job de replicação.
Para mais informações, consulte como interromper pipelines em tempo real e como interromper jobs de replicação.
Verificar e substituir a versão padrão do Dataproc no Cloud Data Fusion
No Console do Google Cloud, acesse a página Instâncias (no CDAP, clique em Ver instâncias) e abra a instância.
Clique em System Admin > Configuration > System Preferences.
Se uma imagem do Dataproc não estiver especificada nas Preferências do sistema ou para alterar a preferência, clique em Editar preferências do sistema.
Digite o seguinte texto no campo Key:
system.profile.properties.imageVersion
Digite a imagem do Dataproc que quiser no campo Valor, como
1.5-debian10
.Clique em Salvar e fechar.
Essa alteração afeta toda a instância do Cloud Data Fusion, incluindo todos os namespaces e execuções de pipeline, a menos que a propriedade da versão da imagem seja modificada em um namespace, pipeline ou argumento de ambiente de execução na instância.
Alterar a versão da imagem do Dataproc em um namespace ou argumento de ambiente de execução do pipeline
Se você não tiver modificado a versão da imagem do Dataproc em "Preferências de namespace" ou em "Argumentos de ambiente de execução do pipeline", pule estas etapas.
Preferências de namespace
Se você tiver modificado a versão da imagem nas propriedades do namespace, siga estas etapas:
Abra sua instância na IU do Cloud Data Fusion.
Clique em System Admin > Configuration > Namespaces.
Abra cada namespace e clique em Preferências.
Verifique se não há substituição com a chave
system.profile.properties.imageVersion
com um valor de versão de imagem incorreto.Clique em Finish.
Argumentos do ambiente de execução do pipeline
Se você tiver modificado a versão da imagem com uma propriedade nos argumentos de ambiente de execução do pipeline, siga estas etapas:
Abra sua instância na IU do Cloud Data Fusion.
Clique em > List e selecione o pipeline desejado.
PipelineO canal é aberto na página do Pipeline Studio.
Clique no menu suspenso
ao lado de Executar.A janela Runtime Arguments será aberta.
Verifique se não há substituições com a chave
system.profile.properties.imageVersion
e o valor incorreto da versão da imagem.Clique em Save.
Recrie clusters estáticos do Dataproc usados pelo Cloud Data Fusion com a versão de imagem desejada
Se você usar clusters atuais do Dataproc com o Cloud Data Fusion, siga o guia do Dataproc para recriar os clusters com a versão de imagem do Dataproc desejada para sua versão do Cloud Data Fusion.
Se houver pipelines em execução quando o cluster estiver sendo recriado, eles falharão. As execuções subsequentes serão executadas no cluster recriado.
Como alternativa, é possível criar um novo cluster do Dataproc com a versão de imagem do Dataproc desejada e excluir e recriar o perfil de computação no Cloud Data Fusion com o mesmo nome de perfil de computação e nome atualizado do cluster do Dataproc. Dessa forma, a execução de pipelines em lote pode concluir a execução no cluster existente e novas execuções de pipeline ocorrerão no novo cluster do Dataproc. É possível excluir o cluster antigo do Dataproc depois de confirmar que todas as execuções de pipeline foram concluídas.
Verificar se a versão da imagem do Dataproc está atualizada
Console
No Console do Google Cloud, acesse a página Clusters do Dataproc.
Abra a página Detalhes do cluster para o novo cluster que o Cloud Data Fusion criou quando você especificou a nova versão.
O campo Versão da imagem tem o novo valor especificado no Cloud Data Fusion.
API REST
Consiga a lista de clusters com os metadados:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
Substitua:
NAMESPACE_ID
pelo nome do namespace;REGION_ID
pelo nome da região em que os clusters estão localizados;
Pesquise o nome do pipeline (nome do cluster).
Nesse objeto JSON, veja a imagem em
config > softwareConfig > imageVersion
.