Alterar a versão da imagem do Dataproc no Cloud Data Fusion

Nesta página, descrevemos como alterar a versão da imagem do Dataproc usada pela sua instância do Cloud Data Fusion.

Antes de começar

Interrompa todos os pipelines em tempo real e jobs de replicação na instância do Cloud Data Fusion. Se um pipeline em tempo real ou a replicação estiver em execução quando você alterar a versão de imagem do Dataproc, as alterações não serão aplicadas à execução do pipeline.

Para pipelines em tempo real, se o checkpoint estiver ativado, a interrupção desses pipelines não causará perda de dados. Para jobs de replicação, interromper e iniciar o job não causa perda de dados, contanto que os registros do banco de dados estejam disponíveis.

Console

  1. Acesse a página Instâncias do Cloud Data Fusion (no CDAP, clique em Ver instâncias) e abra a instância em que você precisa interromper um pipeline.

    Acesse "Instâncias"

  2. Abra cada pipeline em tempo real no Pipeline Studio e clique em Stop.

  3. Abra cada job de replicação na página Replicar e clique em Interromper.

API REST

  • Para recuperar todos os pipelines, use a seguinte chamada da API REST:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Substitua NAMESPACE_ID pelo nome do seu namespace.

  • Para interromper um pipeline em tempo real, use a seguinte chamada da API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Substitua NAMESPACE_ID pelo nome do namespace e PIPELINE_NAME pelo nome do pipeline em tempo real.

  • Para interromper um job de replicação, use a seguinte chamada da API REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Substitua NAMESPACE_ID pelo nome do namespace e REPLICATION_JOB_NAME pelo nome do job de replicação.

    Para mais informações, consulte como interromper pipelines em tempo real e como interromper jobs de replicação.

Verificar e substituir a versão padrão do Dataproc no Cloud Data Fusion

  1. No Console do Google Cloud, acesse a página Instâncias (no CDAP, clique em Ver instâncias) e abra a instância.

    Acesse "Instâncias"

  2. Clique em System Admin > Configuration > System Preferences.

    Editar preferências do sistema

  3. Se uma imagem do Dataproc não estiver especificada nas Preferências do sistema ou para alterar a preferência, clique em Editar preferências do sistema.

    1. Digite o seguinte texto no campo Key:

      system.profile.properties.imageVersion

    2. Digite a imagem do Dataproc que quiser no campo Valor, como 1.5-debian10.

    3. Clique em Salvar e fechar.

Definir preferências para o sistema

Essa alteração afeta toda a instância do Cloud Data Fusion, incluindo todos os namespaces e execuções de pipeline, a menos que a propriedade da versão da imagem seja modificada em um namespace, pipeline ou argumento de ambiente de execução na instância.

Alterar a versão da imagem do Dataproc em um namespace ou argumento de ambiente de execução do pipeline

Se você não tiver modificado a versão da imagem do Dataproc em "Preferências de namespace" ou em "Argumentos de ambiente de execução do pipeline", pule estas etapas.

Preferências de namespace

Se você tiver modificado a versão da imagem nas propriedades do namespace, siga estas etapas:

  1. Abra sua instância na IU do Cloud Data Fusion.

  2. Clique em System Admin > Configuration > Namespaces.

  3. Abra cada namespace e clique em Preferências.

    1. Verifique se não há substituição com a chave system.profile.properties.imageVersion com um valor de versão de imagem incorreto.

    2. Clique em Finish.

Argumentos do ambiente de execução do pipeline

Se você tiver modificado a versão da imagem com uma propriedade nos argumentos de ambiente de execução do pipeline, siga estas etapas:

  1. Abra sua instância na IU do Cloud Data Fusion.

  2. Clique em Pipeline > List e selecione o pipeline desejado.

    O canal é aberto na página do Pipeline Studio.

  3. Clique no menu suspenso ao lado de Executar.

    A janela Runtime Arguments será aberta.

  4. Verifique se não há substituições com a chave system.profile.properties.imageVersion e o valor incorreto da versão da imagem.

  5. Clique em Save.

    Definir argumento de ambiente de execução do pipeline

Recrie clusters estáticos do Dataproc usados pelo Cloud Data Fusion com a versão de imagem desejada

Se você usar clusters atuais do Dataproc com o Cloud Data Fusion, siga o guia do Dataproc para recriar os clusters com a versão de imagem do Dataproc desejada para sua versão do Cloud Data Fusion.

Se houver pipelines em execução quando o cluster estiver sendo recriado, eles falharão. As execuções subsequentes serão executadas no cluster recriado.

Como alternativa, é possível criar um novo cluster do Dataproc com a versão de imagem do Dataproc desejada e excluir e recriar o perfil de computação no Cloud Data Fusion com o mesmo nome de perfil de computação e nome atualizado do cluster do Dataproc. Dessa forma, a execução de pipelines em lote pode concluir a execução no cluster existente e novas execuções de pipeline ocorrerão no novo cluster do Dataproc. É possível excluir o cluster antigo do Dataproc depois de confirmar que todas as execuções de pipeline foram concluídas.

Verificar se a versão da imagem do Dataproc está atualizada

Console

  1. No Console do Google Cloud, acesse a página Clusters do Dataproc.

    Acessar Clusters

  2. Abra a página Detalhes do cluster para o novo cluster que o Cloud Data Fusion criou quando você especificou a nova versão.

    O campo Versão da imagem tem o novo valor especificado no Cloud Data Fusion.

API REST

  1. Consiga a lista de clusters com os metadados:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Substitua:

    • NAMESPACE_ID pelo nome do namespace;
    • REGION_ID pelo nome da região em que os clusters estão localizados;
  2. Pesquise o nome do pipeline (nome do cluster).

  3. Nesse objeto JSON, veja a imagem em config > softwareConfig > imageVersion.