Usar contêineres personalizados no Dataflow

É possível personalizar o ambiente de execução do código do usuário nos pipelines do Dataflow fornecendo uma imagem de contêiner personalizada. Os contêineres personalizados são compatíveis com pipelines que usam o Runner v2 do Dataflow.

Quando o Dataflow inicia VMs de worker, ele usa imagens de contêiner do Docker para iniciar processos de SDK conteinerizados nos workers. Por padrão, um pipeline usa uma imagem do Apache Beam pré-criada. No entanto, é possível fornecer uma imagem de contêiner personalizada para seu job do Dataflow. Quando você especifica uma imagem de contêiner personalizada, o Dataflow inicia os workers que recebem a imagem especificada.

É possível usar um contêiner personalizado pelos seguintes motivos:

  • Pré-instalar dependências de pipeline para reduzir o tempo de início do worker.
  • Pré-instalar dependências de pipeline que não estão disponíveis em repositórios públicos.
  • Pré-instalar dependências de pipeline quando o acesso a repositórios públicos for desativado. O acesso pode ser desativado por motivos de segurança.
  • Como preparar arquivos grandes para reduzir o tempo de início do worker.
  • Iniciar software de terceiros em segundo plano;
  • Personalize o ambiente de execução.

Para mais informações sobre contêineres personalizados no Apache Beam, consulte o guia de contêineres personalizados do Apache Beam. Para exemplos de pipelines do Python que usam contêineres personalizados, consulte Contêineres personalizados do Dataflow.

Próximas etapas