Pode personalizar o ambiente de tempo de execução do código do utilizador em pipelines do Dataflow fornecendo uma imagem de contentor personalizada. Os contentores personalizados são suportados para pipelines que usam o Runner v2 do Dataflow.
Quando o Dataflow inicia VMs de trabalho, usa imagens de contentores Docker para iniciar processos de SDK em contentores nos trabalhadores. Por predefinição, um pipeline usa uma imagem do Apache Beam pré-criada. No entanto, pode fornecer uma imagem de contentor personalizada para a sua tarefa do Dataflow. Quando especifica uma imagem de contentor personalizada, o Dataflow inicia trabalhadores que extraem a imagem especificada.
Pode usar um contentor personalizado pelos seguintes motivos:
- Pré-instale dependências de pipelines para reduzir o tempo de início do trabalhador.
- Pré-instale dependências de pipelines que não estão disponíveis em repositórios públicos.
- Pré-instale dependências da pipeline quando o acesso a repositórios públicos estiver desativado. O acesso pode ser desativado por motivos de segurança.
- Prepare previamente ficheiros grandes para reduzir o tempo de início do trabalhador.
- Iniciar software de terceiros em segundo plano.
- Personalize o ambiente de execução.
Para mais informações sobre contentores personalizados no Apache Beam, consulte o guia de contentores personalizados do Apache Beam. Para ver exemplos de pipelines Python que usam contentores personalizados, consulte o artigo Contentores personalizados do Dataflow.
Passos seguintes
- Crie imagens de contentores personalizadas
- Crie imagens de contentores de várias arquiteturas
- Execute uma tarefa do Dataflow num contentor personalizado
- Resolva problemas com contentores personalizados