지역 엔드포인트

Cloud Dataflow 지역 엔드포인트는 Cloud Dataflow 작업에 대한 메타데이터를 저장하고 처리하며, Cloud Dataflow 작업자를 배포하고 제어합니다.

지역 엔드포인트 이름은 Compute Engine 지역 이름을 기반으로 표준 규칙을 따릅니다. 예를 들어 중부 US 지역의 이름은 us-central1입니다. 현재, Cloud Dataflow는 다음 지역의 지역 엔드포인트를 제공합니다.

  • us-central1
  • us-east1
  • us-west1
  • europe-west1
  • asia-east1
  • asia-northeast1

지역 엔드포인트를 지정해야 하는 이유

상황에 따라 Cloud Dataflow 작업의 지역 엔드포인트를 지정하는 것이 유용한 경우가 있습니다.

보안 및 규정 준수

프로젝트의 보안 및 규정 준수 요구사항을 지원하기 위해 Cloud Dataflow 작업 처리를 특정 지역으로 제한해야 할 수도 있습니다.

데이터 지역성

같은 지역의 Cloud Dataflow 작업을 소스 또는 싱크로 실행함으로써 네트워크 지연 시간 및 네트워크 전송 비용을 최소화할 수 있습니다.

일반적인 Cloud Dataflow 작업 소스에 대한 참고사항:

  • Cloud Storage 버킷은 지역 또는 다중 지역 리소스가 될 수 있습니다. Cloud Storage 지역 버킷을 소스로 사용하는 경우에는 같은 지역에서 읽기 작업을 수행하는 것이 좋습니다. Cloud Storage 다중 지역 버킷을 소스로 사용할 때는 같은 지역에서 읽기 작업을 수행하는 것이 좋습니다.
  • Cloud Pub/Sub 주제는 전역 리소스이며 지역을 고려하지 않습니다.

장애 복구성 및 지리적 분리

일반 Cloud Dataflow 작업을 다른 지역에서 발생할 수 있는 중단으로부터 격리할 수 있습니다. 또는 지역 전체 재해 시 비즈니스 연속성을 위한 대체 사이트를 계획해야 할 수도 있습니다.

자동 영역 배치

기본적으로, 지역 엔드포인트는 작업 생성 요청 시 사용 가능한 영역 용량에 따라 영역 내에서 최상의 영역을 자동으로 선택합니다.

지역 엔드포인트 사용

참고: 지역 엔드포인트 구성에는 Apache Beam SDK 버전 2.0.0 이상이 필요합니다. Cloud Dataflow SDK 1.x를 사용하는 경우 us-central1 지역 엔드포인트를 사용합니다.

작업의 지역 엔드포인트를 지정하려면 --region 옵션을 지원되는 지역 엔드포인트 중 하나로 설정합니다. 지역 엔드포인트를 지정하지 않으면 Cloud Dataflow가 us-central1을 기본 지역으로 사용하며, 작업자는 us-central1 내의 영역에서 시작합니다. 지역 엔드포인트가 기본 지역과 다른 경우 오류를 방지하려면 이 작업에 대한 모든 Cloud Dataflow 명령어에서 지역을 지정해야 합니다.

Cloud Dataflow 명령줄 인터페이스는 지역 엔드포인트를 지정하기 위해 --region 옵션도 지원합니다.

영역 재정의

기본적으로 작업을 --region 매개변수와 함께 제출하면 지역 엔드포인트가 지역 내 최상의 영역에 작업자를 자동으로 할당합니다. 하지만 다음과 같은 경우에는 지역 영역(--zone 사용)을 모두 지정하려 할 수 있습니다.

  • 작업자가 지역 엔드포인트가 없는 영역에 있으며, 해당 영역에 좀 더 가까운 지역 엔드포인트를 사용하려고 하는 경우

  • Cloud Dataflow 작업의 데이터 처리가 특정 영역 내에서만 발생하는지 확인하려는 경우

다른 모든 경우에는 영역을 재정의하지 않는 것이 좋습니다. 일반 시나리오 표에는 이러한 상황에 대한 사용 권장사항이 포함되어 있습니다.

gcloud compute regions list 명령을 실행하여 작업자를 배포할 수 있는 영역이 있는 지역의 목록을 볼 수 있습니다.

일반적인 시나리오

다음 표에는 일반적인 시나리오에 대한 사용 권장사항이 포함되어 있습니다.

시나리오 권장사항
지원되는 지역 엔드포인트를 사용하고 싶은데 지역 내에 환경 설정된 영역이 없습니다. 이 경우에는 지역 엔드포인트가 가용 용량에 따라 가장 적합한 영역을 자동으로 선택합니다. --region을 사용하여 지역 엔드포인트를 지정합니다. 그러면 Cloud Dataflow가 작업을 관리하고 지정된 지역 내에서 데이터를 처리합니다.
지역 엔드포인트가 있는 지역 내 특정 영역에서 작업자 처리가 이루어져야 합니다. --region--zone을 모두 지정합니다.

--region을 사용하여 지역 엔드포인트를 지정합니다. --zone을 사용하여 해당 지역 내에서 특정 영역을 지정합니다.

지역 엔드포인트가 없는 특정 지역에서 작업자 처리가 이루어져야 합니다. --region--zone을 모두 지정합니다.

--region을 사용하여 작업자 처리가 이뤄져야 하는 영역에서 가장 가까운 지원되는 지역 엔드포인트를 지정합니다. --zone을 사용하여 작업자 처리가 이뤄져야 하는 원하는 지역 내에서 영역을 지정합니다.

Cloud Dataflow Shuffle을 사용해야 합니다. --region을 사용하여 Cloud Dataflow Shuffle을 지원하는 지역 엔드포인트를 지정합니다. 일부 지역 엔드포인트는 이 기능을 지원하지 않습니다. 지원되는 지역의 목록은 기능 문서를 참조하세요.
이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.