Use contentores personalizados no Dataflow

Pode personalizar o ambiente de tempo de execução do código do utilizador em pipelines do Dataflow fornecendo uma imagem de contentor personalizada. Os contentores personalizados são suportados para pipelines que usam o Runner v2 do Dataflow.

Quando o Dataflow inicia VMs de trabalho, usa imagens de contentores Docker para iniciar processos de SDK em contentores nos trabalhadores. Por predefinição, um pipeline usa uma imagem do Apache Beam pré-criada. No entanto, pode fornecer uma imagem de contentor personalizada para a sua tarefa do Dataflow. Quando especifica uma imagem de contentor personalizada, o Dataflow inicia trabalhadores que extraem a imagem especificada.

Pode usar um contentor personalizado pelos seguintes motivos:

  • Pré-instale dependências de pipelines para reduzir o tempo de início do trabalhador.
  • Pré-instale dependências de pipelines que não estão disponíveis em repositórios públicos.
  • Pré-instale dependências da pipeline quando o acesso a repositórios públicos estiver desativado. O acesso pode ser desativado por motivos de segurança.
  • Prepare previamente ficheiros grandes para reduzir o tempo de início do trabalhador.
  • Iniciar software de terceiros em segundo plano.
  • Personalize o ambiente de execução.

Para mais informações sobre contentores personalizados no Apache Beam, consulte o guia de contentores personalizados do Apache Beam. Para ver exemplos de pipelines Python que usam contentores personalizados, consulte o artigo Contentores personalizados do Dataflow.

Passos seguintes