타켓팅 캠페인 파이프라인

이 튜토리얼에서는 Cloud Data Fusion을 사용하여 고객 데이터를 정리, 변환, 처리하여 타겟팅 캠페인의 후보를 선택하는 방법을 설명합니다.

시나리오

진행 중인 캠페인 프로모션용 커스텀 마케팅 자료를 만들어 고객의 자택 우편함에 직접 배포하려고 합니다.

캠페인에는 2가지 제약이 있습니다.

  • 위치: 캘리포니아, 워싱턴, 오리건의 고객에게만 배달합니다.
  • 비용: 연료 절감을 위해 쉽게 접근할 수 있는 고객 자택에 배달합니다. 애비뉴에 거주하는 고객 자택에만 배달합니다.

이 튜토리얼에서는 캠페인의 고객 주소 목록을 생성하는 방법을 설명합니다. 이 튜토리얼에서는 다음 작업을 수행합니다.

  1. 고객 데이터 정리: 캘리포니아, 워싱턴 또는 오리건의 애비뉴에 거주하는 고객을 필터링합니다.
  2. 다음 작업을 수행하는 파이프라인을 만듭니다.
    • 필터링된 고객 데이터를 주 약어가 포함된 공개 데이터 세트와 조인합니다.
    • BigQuery 웹 UI를 사용하여 쿼리하거나 데이터 스튜디오를 사용하여 분석할 수 있는 BigQuery 테이블에 정리 및 조인된 데이터를 저장합니다.

목표

  • Cloud Data Fusion을 데이터 소스 2개에 연결
  • 기본 변환 적용
  • 데이터 소스 2개 조인
  • 출력 데이터를 싱크에 쓰기

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

이 튜토리얼를 실행하면 매번 3노드(마스터 1개, 작업자 2개) Dataproc 클러스터가 약 6분 동안 실행되면서 약 6MB의 데이터를 BigQuery에 씁니다. BigQuery에 저장되는 데이터 양이 소량이므로 이 비용 추정에서 BigQuery 비용을 무시하겠습니다. 이러한 수치를 기준으로 이 파이프라인을 한 번 실행하는 비용은 다음과 같이 추산할 수 있습니다.

총 비용 = Cloud Data Fusion 비용 + Dataproc 비용

이 수식의 각 구성요소는 다음과 같이 분할됩니다.

Cloud Data Fusion 비용 = (시간 * Cloud Data Fusion 요율)

Dataproc 비용 = (시간 * VM 수 * (Compute Engine 요율 + Dataproc 요율))

예를 들어 us-west1 리전에서 n1-standard4 VM 3개를 사용하고 Cloud Data Fusion에서 기본 Compute Engine 프로필을 사용하는 6분 길이 작업의 예상 비용을 살펴보겠습니다.

  • 시간 = 0.1시간
  • Data Fusion 요율 = 시간당 $1.8
  • VM 수 = 3
  • Compute Engine 요율 = VM 하나에 시간당 $0.19
  • Dataproc 요율 = VM 하나에 시간당 $0.01

위의 비용 수식에 이들 값을 사용할 때 이 예시의 총 비용은 다음과 같습니다.

(0.1 * 1.8) + (0.1 * 3 * (0.1900 + 0.01)) = $0.24(24센트)

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  5. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  6. Cloud Data Fusion, Cloud Storage, BigQuery and Cloud Dataproc API를 사용 설정합니다.

    API 사용 설정

  7. Cloud Data Fusion 인스턴스를 만듭니다.

고객 데이터 준비

이 튜토리얼에는 다음 두 가지 입력 데이터 세트가 필요하며 두 데이터 세트 모두 Cloud Data Fusion 인스턴스와 함께 제공됩니다.

  • 샘플 고객 데이터: 이름이 customers.csv인 CSV 파일입니다.
  • 주 약어: 이름이 state_abbreviations인 BigQuery 테이블입니다.

고객 데이터 로드

  1. Cloud Data Fusion 웹 UI로 이동합니다.
  2. 웹 UI의 랭글러 페이지로 이동합니다.
  3. 왼쪽 패널의 Google Cloud Storage에서 샘플 버킷을 클릭합니다.
  4. campaign-tutorial을 클릭합니다.
  5. customers.csv를 클릭합니다. 고객 데이터가 표시됩니다.

고객 데이터 정리

고객 데이터를 테이블 형식으로 파싱하고, 스키마를 설정하고, 필요한 타겟층만 표시하도록 고객 데이터를 필터링합니다.

데이터 파싱

  1. 본문 열 드롭다운을 클릭합니다.
  2. 파싱 > CSV를 선택합니다.
  3. 구분 기호를 쉼표로 선택한 상태로 적용을 클릭합니다. 이미지
  4. 데이터가 열 여러 개로 분할되므로 원래 본문 열은 더 이상 필요하지 않습니다. 본문 열 드롭다운을 클릭하고 열 삭제를 선택합니다.

스키마 설정

테이블 열에 적절한 이름을 할당하여 데이터의 스키마를 설정합니다. bodyXX 대신 열 이름을 바꿔 표시되는 정보를 캡처합니다.

  1. 오른쪽의 탭에서 열 이름 드롭다운을 클릭하고 모두 설정을 선택합니다.
  2. 열 이름 일괄 설정 대화상자에서 쉼표로 구분된 Name,StreetAddress,City,State,Country 텍스트를 입력합니다.
  3. 적용을 클릭합니다.

데이터 필터링

캘리포니아, 오리건 또는 워싱턴에 거주하는 고객만 표시하도록 데이터를 필터링합니다. 이렇게 하려면 이들 3개 주 이외의 값이 포함된 행을 모두 삭제합니다.

  1. 열 드롭다운을 클릭합니다.
  2. 필터를 선택합니다.
  3. 필터 창에서 다음 작업을 수행합니다.

    1. 행 유지를 클릭합니다.
    2. if 드롭다운에서 값이 정규식과 일치를 선택합니다.
    3. 정규 표현식 ^(California|Oregon|Washington)$를 입력합니다.
    4. 적용을 클릭합니다.

    열의 값은 'California', 'Oregon' 또는 'Washington'입니다.

애비뉴에 거주하는 고객만 표시하도록 데이터를 필터링합니다. 이렇게 하려면 'avenue' 문자열이 포함된 주소만 유지합니다.

  1. StreetAddress 열 왼쪽에서 아래쪽 화살표를 클릭하고 필터를 선택합니다.
  2. If 드롭다운에서 값이 다음을 포함을 선택하고 Avenue를 입력합니다.
  3. 대/소문자 무시를 선택합니다.

전체 데이터 세트에 동시 처리 작업을 수행하기 전에는 랭글러에 데이터 세트의 처음 1,000개 값만 표시됩니다. 일부 데이터를 필터링했으므로 고객 몇 명만 랭글러 화면에 남아 있습니다.

파이프라인 만들기

지금까지 데이터를 정리하고 데이터의 하위 집합에 변환을 실행했습니다. 이제 전체 데이터 세트에 변환을 실행하는 일괄 파이프라인을 만들 수 있습니다.

  1. 랭글러 오른쪽 상단에 있는 파이프라인 만들기를 클릭합니다.
  2. 일괄 파이프라인을 선택합니다. 파이프라인 스튜디오 페이지로 이동합니다.
  3. 왼쪽 상단에서 데이터 파이프라인 - 일괄이 파이프라인 유형으로 표시되었는지 확인합니다.

파이프라인 스튜디오 캔버스에서 GCSFile 소스 노드가 Wrangler 노드에 연결됩니다.

랭글러 뷰에서 적용한 모든 변환이 파이프라인 스튜디오 캔버스의 Wrangler 노드에 표시됩니다. 적용한 변환을 보려면 Wrangler 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다. 지시어 아래에 적용한 변환이 표시됩니다.

Wrangle을 클릭하면 변환을 추가적으로 적용할 수 있습니다. 이렇게 하면 랭글러 페이지로 돌아갑니다. 파이프라인 스튜디오 뷰의 노드 속성으로 돌아가면 추가한 새 변환이 표시됩니다.

예를 들어 값이 항상 'USA'이므로 국가 열이 필요하지 않습니다. 다음 단계를 따라 열을 삭제합니다.

  1. Wrangle을 클릭합니다.
  2. 국가 옆에 있는 아래쪽 화살표를 클릭하고 열 삭제를 선택합니다.
  3. 적용을 클릭합니다. 그러면 랭글러 뷰가 닫히고 파이프라인 스튜디오의 랭글러 속성 창으로 돌아갑니다. 지시어 섹션에 drop Country가 표시됩니다.
  4. X 버튼을 클릭합니다.

주 이름 축약

배송 차량의 내비게이션 시스템은 약어로 된 주 이름(California가 아닌 CA)이 포함된 주소만 인식하는데, 현재 고객 데이터에는 주 전체 이름이 포함되어 있습니다.

공개 BigQuery state_abbreviations 테이블에는 주 전체 이름이 있는 열 1개와 축약된 주 이름이 있는 열 1개 등 열이 총 2개 있습니다. 이 테이블을 사용하여 고객 데이터의 주 이름을 업데이트합니다.

BigQuery에서 주 이름 데이터 보기

  1. Cloud Console에서 별도의 탭에 BigQuery UI를 엽니다.

    BigQuery UI로 이동

  2. 쿼리 편집기에 다음 쿼리를 입력하고 실행을 클릭합니다.

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    

BigQuery 테이블에 액세스

이 BigQuery state_abbreviations 테이블에 액세스할 파이프라인에 소스를 추가합니다.

  1. Cloud Data Fusion 탭으로 돌아가서 파이프라인 스튜디오 왼쪽에 있는 플러그인 섹션에서 소스를 클릭합니다.
  2. BigQuery를 클릭합니다.

    BigQuery 소스 노드가 다른 노드 2개와 함께 캔버스에 표시됩니다.

  3. BigQuery 소스 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.
    1. 참조 이름state_abbreviations를 입력합니다.
    2. 데이터세트 프로젝트 ID 이름dis-user-guide를 입력합니다.
    3. 데이터세트campaign_tutorial을 입력합니다.
    4. 테이블state_abbreviations를 입력합니다.
  4. 스키마 가져오기를 클릭하여 BigQuery에서 테이블의 스키마를 채웁니다.
  5. X 버튼을 클릭합니다.

데이터 소스 2개 조인

두 데이터 소스(고객 데이터와 주 약어)를 조인하여 고객 데이터와 축약된 주 이름이 포함된 출력을 생성합니다.

  1. 파이프라인 스튜디오 왼쪽에 있는 플러그인 섹션에서 애널리틱스를 클릭합니다.
  2. 연결자를 클릭합니다.

    SQL 조인과 비슷한 작업을 나타내는 Joiner 노드가 캔버스에 나타납니다.

  3. 랭글러 노드와 BigQuery 노드를 Joiner 노드에 연결합니다. 소스 노드의 오른쪽 가장자리에 있는 연결 화살표를 드래그하여 대상 노드에 놓습니다.
  4. Joiner 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.
    1. 조인에서 랭글러BigQuery를 펼칩니다.
      1. 주 전체 이름이 아닌 축약된 주 이름만 원하므로 랭글러 아래의 필드와 BigQuery 아래의 이름 필드를 선택 해제합니다.
      2. BigQuery에서 쉽게 식별할 수 있도록 약어 필드의 별칭을 State로 변경합니다.
    2. 조인 유형에서 값을 외부로 둡니다. 필수 입력에서 랭글러를 선택합니다.
    3. 조인 조건에서 Wrangler 노드의 State 열을 BigQuery 노드의 name 열과 조인하도록 조인 조건을 설정합니다.
    4. 결과 조인의 스키마를 생성합니다. 스키마 가져오기를 클릭합니다.
    5. X 버튼을 클릭합니다.

BigQuery에 출력 저장

파이프라인 결과를 BigQuery 테이블에 저장합니다. 데이터를 저장하는 위치를 싱크라고 합니다.

  1. 파이프라인 스튜디오 왼쪽에 있는 플러그인 섹션에서 싱크를 클릭합니다.
  2. BigQuery 테이블을 클릭합니다.
  3. Joiner 노드를 BigQuery Table 노드에 연결합니다.
  4. BigQuery Table 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.
    1. 참조 이름customer_data_abbreviated_states를 입력합니다.
    2. 데이터 세트dis_user_guide을 입력합니다.
    3. 테이블에서 customer_data_abbreviated_states를 선택합니다.
    4. X 버튼을 클릭합니다.

파이프라인 배포 및 실행

  1. 파이프라인 스튜디오에서 파이프라인 이름 지정을 클릭하고 CampaignPipeline을 입력합니다.
  2. 오른쪽 상단 모서리에 있는 배포를 클릭합니다.
  3. 배포가 완료되면 실행을 클릭합니다. 파이프라인을 실행하는 데 몇 분 정도 걸릴 수 있습니다. 기다리는 동안 파이프라인 전환 상태프로비저닝에서 시작, 실행, 프로비저닝 해제, 성공으로 바뀌는 것을 볼 수 있습니다.

결과 보기

  1. BigQuery UI에서 campaign_targets 테이블을 쿼리합니다.

    BigQuery UI로 이동

  2. 아래 쿼리에서 프로젝트 이름을 자신의 프로젝트 이름으로 업데이트합니다.

삭제

이 가이드에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 가이드에서 만든 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

  1. Cloud Console에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

Cloud Data Fusion 인스턴스 삭제

다음 안내에 따라 Cloud Data Fusion 인스턴스를 삭제합니다.

BigQuery 데이터 세트 삭제

이 튜토리얼에서 만든 BigQuery 데이터 세트를 삭제하려면 다음 단계를 따르세요.

  1. Cloud Console에서 BigQuery 페이지로 이동합니다.

    BigQuery 페이지로 이동

  2. dis_user_guide 데이터 세트를 선택합니다.
  3. 데이터세트 삭제를 클릭합니다.

다음 단계