Um endpoint regional armazena e manipula metadados sobre o job do Dataflow, além de implantar e controlar os workers do Dataflow.
Os nomes dos endpoints regionais seguem uma convenção padrão baseada nos nomes das regiões do Compute Engine.
Por exemplo, o nome da região central dos EUA é us-central1
.
Esse recurso está disponível em todas as regiões em que o Dataflow é compatível. Para ver os territórios disponíveis, consulte Locais do Dataflow.
Diretrizes para escolher um endpoint regional
Especificar um endpoint regional em um job do Dataflow é obrigatório.
Segurança e compliance
É necessário restringir o processamento de jobs no Dataflow a uma região geográfica específica em apoio às necessidades de segurança e conformidade do projeto.
Localidade dos dados
Minimize os custos de latência de rede e de transporte de rede executando um job do Dataflow na mesma região que suas fontes, coletores, locais de arquivos de preparo e de arquivos temporários. Se você usar fontes, coletores, locais de arquivos de preparo ou de arquivos temporários localizados fora da região do job, seus dados poderão ser enviados entre regiões.
Na execução de um pipeline, os dados do usuário são manipulados apenas pelo pool de workers do Dataflow, e a movimentação dos dados é restrita aos caminhos de rede que conectam os workers do Dataflow no pool.
Se você precisar de mais controle sobre o local das mensagens de registro do pipeline, faça o seguinte:
- Crie um filtro de exclusão
para o coletor do roteador de registros
_Default
para impedir que os registros do Dataflow sejam exportados para o bucket de registro_Default
. - Crie um intervalo de registros na região de sua escolha.
- Configure um novo coletor do roteador de registros que exporte os registros do Dataflow para o novo bucket de registros.
Para saber mais sobre como configurar a geração de registros, consulte Visão geral do roteamento e armazenamento e Visão geral do roteamento de registros.
Observações sobre fontes comuns de jobs no Dataflow:
- Ao usar um bucket do Cloud Storage como origem, recomendamos que você execute operações de leitura na mesma [região do bucket]((/storage/docs/bucket-locations).
- Os tópicos do Pub/Sub, quando publicados no endpoint global do Pub/Sub, são armazenados na região do Google Cloud mais próxima. No entanto, é possível modificar a política de armazenamento de tópicos para uma região específica ou um conjunto de regiões. Da mesma forma, os tópicos do Pub/Sub Lite são compatíveis apenas com armazenamento zonal.
Resiliência e separação geográfica
Isole suas operações normais do Dataflow de interrupções que poderiam ocorrer em outras regiões geográficas ou planeje sites alternativos para a continuidade do negócio em caso de um desastre em escala regional.
Colocação em zona automática
Por padrão, um endpoint regional seleciona automaticamente a melhor zona na região com base na capacidade da zona disponível no momento da solicitação de criação do job. A seleção automática de zona ajuda a garantir que os workers sejam executados na melhor zona para seu job.
Como especificar um ponto de extremidade regional
Para especificar um endpoint regional para o job, defina a opção --region
como um dos
endpoints regionais compatíveis.
A opção --region
substitui a região padrão definida no servidor de metadados, no cliente local ou
nas variáveis de ambiente.
A Interface de linha de comando do Cloud Dataflow
também é compatível com a opção --region
para especificar endpoints regionais.
Como substituir a região ou a zona do worker
Por padrão, quando você envia um job com a opção --region
, o endpoint regional
atribui workers automaticamente à melhor zona dentro da
região. No entanto, pode ser necessário especificar uma região ou uma zona específica (usando --worker_region
ou
--worker_zone
, respectivamente) para suas instâncias de worker.
Modifique o local do worker nos seguintes casos:
Os workers estão em uma região ou zona que não tem um endpoint regional, e você quer usar um endpoint regional mais próximo dessa região ou zona.
É recomendável garantir que o processamento de dados do job do Dataflow ocorra estritamente em uma região ou zona específica.
Para os demais casos, não recomendamos modificar o local do worker. A tabela de cenários comuns contém recomendações de uso para essas situações.
Execute o comando gcloud compute regions list
para ver uma lista de
regiões e zonas disponíveis para implantação do worker.
Cenários comuns
A tabela a seguir contém recomendações de uso para cenários comuns.
Cenário | Recomendação |
---|---|
Quero usar um ponto de extremidade regional aceito e não tenho preferência de zona na região. Nesse caso, o endpoint regional seleciona automaticamente a melhor zona com base na capacidade disponível. | Use --region para especificar um endpoint regional.
Isso garante que o Dataflow gerencie seu job e processe os dados na região especificada. |
Preciso que o processamento do worker ocorra em uma zona específica de uma região que tenha um endpoint regional. | Especifique --region e --worker_zone .Use |
Preciso que o processamento do worker ocorra em uma região específica que não tenha um endpoint regional. | Especifique --region e --worker_region .Use |
Preciso usar o Dataflow Shuffle. | Use --region para especificar um endpoint regional que aceite o Dataflow Shuffle. Alguns endpoints regionais podem não ser compatíveis com esse recurso. Consulte a documentação do recurso para ver uma lista de regiões compatíveis. |