템플릿을 사용하여 데이터 처리

Dataplex Universal Catalog는 데이터 수집, 처리, 데이터 수명 주기 관리와 같은 일반적인 데이터 처리 태스크를 수행하기 위한 Dataflow 기반 템플릿을 제공합니다. 이 가이드에서는 데이터 처리 템플릿을 구성하고 실행하는 방법을 설명합니다.

시작하기 전에

Dataplex Universal Catalog 템플릿은 Dataflow를 기반으로 합니다. 템플릿을 사용하기 전에 Dataflow API를 사용 설정합니다.

Dataflow API 사용 설정

다음에 유의하세요.

모든 템플릿은 공통의 Dataflow 파이프라인 옵션을 지원합니다.
Dataplex Universal Catalog는 데이터 파이프라인을 사용하여 템플릿에 정의된 태스크를 예약합니다.
Google Cloud 콘솔의 Dataplex Universal Catalog 페이지에서 Dataplex Universal Catalog를 통해 예약한 태스크만 볼 수 있습니다.

템플릿: 원시 데이터를 선별된 데이터로 변환

Dataplex Universal Catalog 파일 형식 변환 템플릿은 Dataplex Universal Catalog Cloud Storage 애셋의 데이터 또는 CSV 또는 JSON 형식으로 저장된 Dataplex Universal Catalog 항목 목록을 다른 Dataplex Universal Catalog 애셋의 Parquet 또는 Avro 형식 데이터로 변환합니다. 파티션 레이아웃은 변환 시 유지됩니다. 또한 출력 파일의 압축을 지원합니다.

템플릿 매개변수

매개변수	설명
`inputAssetOrEntitiesList`	입력 파일이 포함된 Dataplex Universal Catalog 애셋 또는 Dataplex Universal Catalog 항목입니다. 이 매개변수는 `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>` 또는 `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/entities/<entity1-name>,projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/entities/<entity 2 name>...` 형식을 따라야 합니다.
`outputFileFormat`	Cloud Storage의 출력 파일 형식입니다. 이 매개변수는 `PARQUET` 또는 `AVRO` 형식을 따라야 합니다.
`outputAsset`	출력 파일이 저장될 Cloud Storage 버킷이 포함된 Dataplex Universal Catalog 애셋의 이름입니다. 이 매개변수는 `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>` 형식을 따라야 합니다. Google Cloud 콘솔의 Dataplex Universal Catalog 애셋 `Details` 탭에서 `outputAsset`을 찾을 수 있습니다.
`outputFileCompression`	선택사항: 출력 파일 압축입니다. 이 매개변수의 기본값은 `SNAPPY`입니다. 매개변수의 다른 값은 `UNCOMPRESSED`, `SNAPPY`, `GZIP`, `BZIP2`일 수 있습니다. `BZIP2`는 `PARQUET` 파일에 지원되지 않습니다.
`writeDisposition`	선택사항: 대상 파일이 이미 있는 경우 발생하는 작업을 지정합니다. 이 파라미터의 기본값은 `SKIP`으로, 대상 디렉터리에 존재하지 않는 파일만 처리하도록 지시합니다. 매개변수의 다른 값은 `OVERWRITE`(기존 파일을 덮어씀) 또는 `FAIL`(대상 파일이 하나 이상 있는 경우 아무 것도 처리하지 않고 오류 발생)일 수 있습니다.
`updateDataplexMetadata`	선택사항: 새로 생성된 항목의 Dataplex Universal Catalog 메타데이터를 업데이트할지 여부입니다. 이 매개변수의 기본값은 `false`입니다. 사용 설정하면 파이프라인이 소스의 스키마를 대상 Dataplex 항목으로 자동 복사하고 자동화된 Dataplex Universal Catalog 탐색은 실행되지 않습니다. 소스(원시) 데이터의 스키마가 Dataplex에서 관리되는 경우 이 플래그를 사용합니다.

템플릿 실행

콘솔

Google Cloud 콘솔에서 Dataplex Universal Catalog 페이지로 이동합니다.

Dataplex 범용 카탈로그로 이동
프로세스 뷰로 이동합니다.
태스크 만들기를 클릭합니다.
선별된 형식으로 변환에서 태스크 만들기를 클릭합니다.
Dataplex Universal Catalog 레이크를 선택합니다.
태스크 이름을 제공합니다.
태스크 실행 리전을 선택합니다.
필수 매개변수를 입력합니다.
계속을 클릭합니다.

gcloud

셸 또는 터미널에서 템플릿을 실행합니다.

gcloud beta dataflow flex-template run JOB_NAME \
--project=PROJECT_ID \
--region=REGION_NAME \
--template-file-gcs-location=gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_File_Format_Conversion_Preview \
--parameters \
inputAssetOrEntitiesList=INPUT_ASSET_OR_ENTITIES_LIST,\
outputFileFormat=OUTPUT_FILE_FORMAT,\
outputAsset=OUTPUT_ASSET

다음을 바꿉니다.

JOB_NAME: a job name of your choice
PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
INPUT_ASSET_OR_ENTITIES_LIST: path to your JDBC drivers
OUTPUT_FILE_FORMAT: your output file format in Cloud Storage
OUTPUT_ASSET: your Dataplex Universal Catalog output asset ID

REST

HTTP POST 요청을 제출합니다.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION_NAME/flexTemplates:launch
{
  "launch_parameter": {
    "jobName": "JOB_NAME",
    "parameters": {
        "inputAssetOrEntitiesList": "INPUT_ASSET_OR_ENTITIES_LIST",
        "outputFileFormat": "OUTPUT_FILE_FORMAT",
        "outputAsset": "OUTPUT_ASSET",
    },
    "containerSpecGcsPath": "gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_File_Format_Conversion_Preview",
 }
}

다음을 바꿉니다.

PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
JOB_NAME: a job name of your choice
INPUT_ASSET_OR_ENTITIES_LIST: path to your JDBC drivers
OUTPUT_FILE_FORMAT: your output file format in Cloud Storage
OUTPUT_ASSET: your Dataplex Universal Catalog output asset ID

템플릿: BigQuery 애셋에서 Cloud Storage 애셋으로 데이터 계층화

Dataplex Universal Catalog BigQuery to Cloud Storage 템플릿은 데이터를 Dataplex Universal Catalog 호환 레이아웃 및 형식으로 Dataplex Universal Catalog BigQuery에서 Dataplex Universal Catalog Cloud Storage 애셋에 복사합니다. 복사할 BigQuery 데이터 세트 또는 BigQuery 테이블 목록을 지정할 수 있습니다. 더 유연한 환경을 위해 이 템플릿을 사용하면 지정된 수정 날짜보다 오래된 데이터를 복사할 수 있으며, 복사가 완료된 후 BigQuery에서 데이터를 삭제할 수도 있습니다.

BigQuery에서 Cloud Storage로 파티션을 나눈 테이블을 복사할 때는 다음 사항에 유의하세요.

이 템플릿은 Cloud Storage 버킷에 Hive 스타일 파티션을 만듭니다. BigQuery는 Hive 스타일의 파티션 키를 기존 열과 동일하게 할 수 없습니다. enforceSamePartitionKey 옵션을 사용하여 새 파티션 키를 만들거나 동일한 파티션 키를 유지하면서 기존 열의 이름을 바꿀 수 있습니다.
Dataplex Universal Catalog 탐색은 BigQuery 테이블(및 Dataproc Metastore의 테이블)을 만들 때 파티션 유형을 string으로 등록합니다. 이로 인해 기존 파티션 필터가 영향을 받을 수 있습니다.

단일 템플릿 실행에서 변환할 수 있는 테이블 및 파티션의 수는 약 300개로 제한이 있습니다. 정확한 수는 테이블 이름의 길이와 기타 요인에 따라 다릅니다.

템플릿 매개변수

매개변수	설명
`sourceBigQueryDataset`	데이터를 계층화할 BigQuery 데이터 세트입니다. 이 파라미터에는 `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>` 형식의 Dataplex Universal Catalog 애셋 이름 또는 `projects/<name>/datasets/<dataset-id>` 형식의 BigQuery 데이터 세트 ID가 포함되어야 합니다.
`destinationStorageBucketAssetName`	데이터를 계층화할 Cloud Storage 버킷의 Dataplex Universal Catalog 애셋 이름입니다. 이 매개변수는 `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>` 형식을 따라야 합니다.
`tables`	선택사항: 계층화할 BigQuery 테이블의 쉼표로 구분된 목록입니다. 목록을 제공하지 않으면 모든 테이블이 계층화됩니다. 테이블은 이름(프로젝트/데이터 세트 프리픽스 아님)만으로 지정되어야 하며 대소문자를 구분합니다.
`exportDataModifiedBeforeDateTime`	선택사항: 이 날짜(및 선택적 시간)보다 오래된 데이터를 이동하려면 이 매개변수를 사용합니다. 파티션을 나눈 BigQuery 테이블의 경우 이 날짜/시간 전에 마지막으로 수정된 파티션을 이동합니다. 파티션을 나누지 않은 테이블의 경우 이 날짜/시간 전에 테이블이 마지막으로 수정된 경우 이동합니다. 지정하지 않으면 모든 테이블/파티션을 이동합니다. 날짜/시간은 기본적으로 기본 시간대로 파싱되지만 선택적 서픽스 `Z` 및 `+HH:mm`이 지원됩니다. 이 매개변수는 `YYYY-MM-DD`, `YYYY-MM-DDTHH:mm:ss` 또는 `YYYY-MM-DDTHH:mm:ss+03:00` 형식을 따라야 합니다. 상대적 날짜/시간도 지원되며 `-PnDTnHnMn.nS` 형식을 따라야 합니다(이전 시간을 나타내는 `-P`로 시작해야 함).
`fileFormat`	선택사항: Cloud Storage의 출력 파일 형식입니다. 이 매개변수의 기본값은 `PARQUET`입니다. 파라미터의 또 다른 값은 `AVRO`일 수 있습니다.
`fileCompression`	선택사항: 출력 파일 압축입니다. 이 매개변수의 기본값은 `SNAPPY`입니다. 매개변수의 다른 값은 `UNCOMPRESSED`, `SNAPPY`, `GZIP`, `BZIP2`일 수 있습니다. `BZIP2`는 `PARQUET` 파일에 지원되지 않습니다.
`deleteSourceData`	선택사항: 내보내기가 완료된 후 BigQuery에서 소스 데이터를 삭제할지 여부입니다. 값은 `true` 또는 `false`일 수 있습니다. 이 매개변수의 기본값은 `false`입니다.
`partitionIdRegExp`	선택사항: 이 정규 표현식과 일치하는 파티션 ID가 있는 파티션만 처리합니다. 값이 제공되지 않은 경우 이 파라미터는 기본적으로 모두 처리합니다.
`writeDisposition`	선택사항: 대상 파일이 이미 있는 경우 발생하는 작업을 지정합니다. 즉, 하나 이상의 테이블/파티션이 이미 사전 계층화된 것입니다. 이 매개변수의 기본값은 `SKIP`으로, 아직 사전 계층화되지 않은 테이블/파티션만 처리하도록 지시합니다. 매개변수의 다른 값은 `OVERWRITE`(기존 파일을 덮어씀) 또는 `FAIL`(대상 파일이 하나 이상 있는 경우 아무 것도 처리하지 않고 오류 발생)일 수 있습니다.
`enforceSamePartitionKey`	선택사항: 동일한 파티션 키를 적용할지 여부입니다. BigQuery 제한사항으로 인해 파티션을 나눈 외부 테이블의 파일 경로의 파티션 키는 파일의 열 중 하나와 이름이 같을 수 없습니다. 이 매개변수가 true(기본값)이면 대상 파일의 파티션 키가 원래 파티션 열 이름으로 설정되고 파일의 열 이름이 변경됩니다. false인 경우 파티션 키의 이름이 변경됩니다. 예를 들어 원본 테이블이 `TS` 및 `enforceSamePartitionKey=true`라는 열에서 파티션을 나눈 경우 대상 파일 경로가 `gs://<bucket>/TS=<partition ID>/<file>`이고 파일의 열 이름이 `TS_pkey`로 변경됩니다. 이렇게 하면 기존 쿼리를 이전 테이블 또는 새 테이블의 동일한 파티션에서 실행할 수 있습니다. `enforceSamePartitionKey=false`인 경우 대상 파일 경로는 `gs://<bucket>/TS_pid=<partition ID>/<file>`이지만 열 이름은 파일에서 `TS`로 유지됩니다.
`updateDataplexMetadata`	선택사항: 새로 생성된 항목의 Dataplex Universal Catalog 메타데이터를 업데이트할지 여부입니다. 이 매개변수의 기본값은 `false`입니다. 사용 설정하면 파이프라인이 소스의 스키마를 대상 Dataplex 항목으로 자동 복사하고 자동화된 Dataplex Universal Catalog 탐색은 실행되지 않습니다. 소스 BigQuery 테이블의 스키마를 관리하는 경우 이 플래그를 사용합니다.

템플릿 실행

콘솔

Google Cloud 콘솔에서 Dataplex Universal Catalog 페이지로 이동합니다.

Dataplex 범용 카탈로그로 이동
프로세스 뷰로 이동합니다.
태스크 만들기를 클릭합니다.
BQ에서 GCS 애셋으로 계층화에서 태스크 만들기를 클릭합니다.
Dataplex Universal Catalog 레이크를 선택합니다.
태스크 이름을 제공합니다.
태스크 실행 리전을 선택합니다.
필수 매개변수를 입력합니다.
계속을 클릭합니다.

gcloud

셸 또는 터미널에서 템플릿을 실행합니다.

gcloud beta dataflow flex-template run JOB_NAME \
--project=PROJECT_ID \
--region=REGION_NAME \
--template-file-gcs-location=gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_BigQuery_to_GCS_Preview \
--parameters \
sourceBigQueryDataset=SOURCE_ASSET_NAME_OR_DATASET_ID,\
destinationStorageBucketAssetName=DESTINATION_ASSET_NAME

다음을 바꿉니다.

JOB_NAME: a job name of your choice
PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
SOURCE_ASSET_NAME_OR_DATASET_ID: your Dataplex Universal Catalog asset
name for the source BigQuery dataset, or the dataset ID
DESTINATION_ASSET_NAME: your Dataplex Universal Catalog asset name for
the destination Cloud Storage bucket

REST

HTTP POST 요청을 제출합니다.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION_NAME/flexTemplates:launch
{
 "launch_parameter": {
    "jobName": "JOB_NAME",
    "parameters": {
        "sourceBigQueryDataset": "SOURCE_ASSET_NAME_OR_DATASET_ID",
        "destinationStorageBucketAssetName": "DESTINATION_ASSET_NAME",
    },
    "containerSpecGcsPath": "gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_BigQuery_to_GCS_Preview",
 }
}

다음을 바꿉니다.

PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
JOB_NAME: a job name of your choice
SOURCE_ASSET_NAME_OR_DATASET_ID: your Dataplex Universal Catalog asset
name for the source BigQuery dataset, or the dataset ID
DESTINATION_ASSET_NAME: your Dataplex Universal Catalog asset name for
the destination Cloud Storage bucket
REGION_NAME: region in which to run the job

다른 Google Cloud제공 또는 커스텀 Dataflow 템플릿 예약

Dataplex Universal Catalog를 사용하면 콘솔에서Google Cloud제공 Dataflow 템플릿 또는 커스텀 Dataflow 템플릿을 예약하고 모니터링할 수 있습니다.

일정

콘솔

Google Cloud 콘솔에서 Dataplex Universal Catalog 페이지로 이동합니다.

Dataplex 범용 카탈로그로 이동
프로세스 뷰로 이동합니다.
태스크 만들기를 클릭합니다.
Dataflow 파이프라인 작성에서 Dataflow 파이프라인 만들기를 클릭합니다.
Dataplex Universal Catalog 레이크를 선택합니다.
태스크 이름을 제공합니다.
태스크를 실행할 리전을 선택합니다.
Dataflow 템플릿을 선택합니다.
필수 매개변수를 입력합니다.
계속을 클릭합니다.

모니터링

콘솔

Google Cloud 콘솔에서 Dataplex Universal Catalog 페이지로 이동합니다.

Dataplex 범용 카탈로그로 이동
프로세스 뷰로 이동합니다.
Dataflow 파이프라인을 클릭합니다.
레이크 또는 파이프라인 이름으로 필터링합니다.

템플릿을 사용하여 데이터 처리 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

시작하기 전에

템플릿: 원시 데이터를 선별된 데이터로 변환

템플릿 매개변수

템플릿 실행

콘솔

gcloud

REST

템플릿: BigQuery 애셋에서 Cloud Storage 애셋으로 데이터 계층화

템플릿 매개변수

템플릿 실행

콘솔

gcloud

REST

다른 Google Cloud제공 또는 커스텀 Dataflow 템플릿 예약

일정

콘솔

모니터링

콘솔

템플릿을 사용하여 데이터 처리