리전 엔드포인트

Dataflow 리전 엔드포인트는 Dataflow 작업에 대한 메타데이터를 저장하고 처리하며 Dataflow 작업자를 배포하고 제어합니다.

리전 엔드포인트 이름은 Compute Engine 리전 이름을 기반으로 표준 규칙을 따릅니다. 예를 들어 중부 US 리전의 이름은 us-central1입니다.

이 기능을 Dataflow가 지원되는 모든 리전에서 사용할 수 있습니다. 사용 가능한 위치를 확인하려면 Dataflow 위치를 참조하세요.

리전 엔드포인트 선택 가이드라인

Dataflow 작업에서 리전 엔드포인트를 지정하는 것은 필수입니다.

보안 및 규정 준수

프로젝트의 보안 및 규정 준수 요구사항을 지원하기 위해 Dataflow 작업 처리를 특정 리전으로 제한해야 할 수도 있습니다.

데이터 지역

소스, 싱크, 스테이징 파일 위치와 같은 동일한 리전 및 임시 파일 위치에서 Dataflow 작업을 실행하면 네트워크 지연 시간과 네트워크 전송 비용을 최소화할 수 있습니다. 작업 리전 외부에 있는 소스, 싱크, 스테이징 파일 위치 또는 임시 파일 위치를 사용하면 데이터가 리전 간에서 전송될 수 있습니다.

파이프라인이 실행될 때 Dataflow 작업자 풀에서만 사용자 데이터가 처리되며 데이터 이동은 풀에서 Dataflow 작업자를 연결하는 네트워크 경로로 제한됩니다.

파이프라인 로그 메시지의 위치를 더 세밀하게 제어해야 하는 경우 다음을 수행할 수 있습니다.

  1. Dataflow 로그를 _Default 로그 버킷으로 내보내지 않도록 _Default 로그 라우터 싱크의 제외 필터를 만듭니다.
  2. 원하는 리전에 로그 버킷을 만듭니다.
  3. Dataflow 로그를 새 로그 버킷으로 내보내는 새 로그 라우터 싱크를 구성합니다.

로깅 구성에 대한 자세한 내용은 라우팅 및 스토리지 개요로그 라우팅 개요를 참조하세요.

일반적인 Dataflow 작업 소스에 대한 참고:

  • Cloud Storage 버킷은 리전 또는 멀티 리전 리소스일 수 있습니다. Cloud Storage 리전 또는 멀티 리전 버킷을 소스로 사용하는 경우에는 같은 리전에서 읽기 작업을 수행하는 것이 좋습니다.
  • Pub/Sub 주제는 전역 Pub/Sub 엔드포인트에 게시될 때 가장 가까운 Google Cloud 리전에 저장됩니다. 그러나 주제 스토리지 정책을 특정 리전 또는 리전 집합으로 수정할 수 있습니다. 마찬가지로 Pub/Sub Lite 주제는 영역 스토리지만 지원합니다.

복원력 및 지리적 분리

일반 Dataflow 작업을 다른 리전에서 발생할 수 있는 서비스 중단으로부터 격리하려 할 수 있습니다. 또는 리전 전체 재해 시 비즈니스 연속성을 위한 대체 사이트를 계획해야 할 수도 있습니다.

자동 영역 배치

기본적으로, 지역 엔드포인트는 작업 생성 요청 시 사용 가능한 영역 용량에 따라 영역 내에서 최상의 영역을 자동으로 선택합니다.

리전 엔드포인트 지정

작업의 리전 엔드포인트를 지정하려면 --region 옵션을 지원되는 리전 엔드포인트 중 하나로 설정합니다. --region 옵션은 메타데이터 서버, 로컬 클라이언트 또는 환경 변수에 설정된 기본 리전을 재정의합니다.

Dataflow 명령줄 인터페이스에서도 리전 엔드포인트를 지정하는 --region 옵션을 지원합니다.

작업자 리전 또는 영역 재정의

기본적으로 작업을 --region 옵션과 함께 제출하면 리전 엔드포인트는 리전 내 최상의 영역에 작업자를 자동으로 할당합니다. 하지만 작업자 인스턴스에 리전 또는 특정 영역(각각 --worker_region 또는 --worker_zone 사용)을 지정할 수 있습니다.

다음과 같은 경우에는 작업자 위치를 재정의하는 것이 좋습니다.

  • 작업자가 리전 엔드포인트가 없는 리전 또는 영역에 있으며 해당 리전 또는 영역에 가까운 리전 엔드포인트를 사용하려고 합니다.

  • Dataflow 작업의 데이터 처리가 특정 리전 또는 영역에서만 엄격하게 수행되도록 해야 합니다.

다른 모든 경우에는 작업자 위치를 재정의하지 않는 것이 좋습니다. 일반 시나리오 표에는 이러한 상황에 대한 사용 권장사항이 포함되어 있습니다.

gcloud compute regions list 명령어를 실행하여 작업자 배포에 사용 가능한 리전 및 영역 목록을 볼 수 있습니다.

일반적인 시나리오

다음 표에는 일반적인 시나리오에 대한 사용 권장사항이 포함되어 있습니다.

시나리오 권장사항
지원되는 지역 엔드포인트를 사용하고 싶은데 지역 내에 환경 설정된 영역이 없습니다. 이 경우에는 리전 엔드포인트가 가용 용량에 따라 가장 적합한 영역을 자동으로 선택합니다. --region을 사용하여 리전 엔드포인트를 지정합니다. 그러면 Dataflow가 작업을 관리하고 지정된 리전 내에서 데이터를 처리합니다.
리전 엔드포인트가 있는 리전 내 특정 영역에서 작업자 처리가 이루어져야 합니다. --region--worker_zone을 지정합니다.

--region을 사용하여 리전 엔드포인트를 지정합니다. --worker_zone을 사용하여 리전 내 특정 영역을 지정합니다.

리전 엔드포인트가 없는 특정 리전에서 작업자 처리가 이루어져야 합니다. --region--worker_region을 지정합니다.

--region을 사용하여 작업자 처리가 진행되어야 하는 리전과 가장 가까운 지원되는 리전 엔드포인트를 지정합니다. --worker_region을 사용하여 작업자 처리가 진행되어야 하는 리전을 지정합니다.

Dataflow Shuffle을 사용해야 합니다. --region을 사용하여 Dataflow Shuffle을 지원하는 리전 엔드포인트를 지정합니다. 일부 리전 엔드포인트에서는 이 기능이 지원되지 않습니다. 지원 리전 목록은 기능 문서를 참조하세요.