연결의 이름입니다. 이 연결은 프로젝트 및 서비스 계정 정보를 제공합니다. 선택사항: ${conn(connection_name)} 매크로 함수를 사용하세요.
데이터 세트 프로젝트 ID
예
6.5.0
데이터 세트가 BigQuery 작업이 실행되는 것과 다른 프로젝트에 있는 경우 해당 데이터 세트의 프로젝트 ID를 입력합니다. 값을 제공하지 않으면 기본적으로 작업이 실행되는 프로젝트 ID가 사용됩니다.
프로젝트 ID
예
6.5.0
Google Cloud 프로젝트 ID입니다.
서비스 계정 유형
예
6.5.0
다음 옵션 중 하나를 선택합니다.
파일 경로: 서비스 계정의 파일 경로입니다.
JSON: 서비스 계정의 JSON 콘텐츠입니다.
기본값은 JSON입니다.
서비스 계정 파일 경로
예
6.5.0
로컬 파일 시스템에서 승인에 사용되는 서비스 계정 키의 경로입니다. Dataproc 클러스터에서 실행될 때 auto-detect로 설정됩니다. 다른 클러스터에서 실행되는 경우, 파일이 클러스터의 모든 노드에 있어야 합니다. 기본값은 auto-detect입니다.
서비스 계정 JSON
예
6.5.0
서비스 계정 JSON 파일의 콘텐츠입니다.
임시 버킷 이름
예
6.5.0
임시 데이터를 저장하는 Cloud Storage 버킷입니다.
없으면 자동으로 생성되지만 자동으로 삭제되지는 않습니다. Cloud Storage 데이터는 BigQuery에 로드된 후 자동으로 삭제됩니다. 이 값이 제공되지 않았으면 고유 버킷이 생성된 후 파이프라인 실행이 완료된 후 삭제됩니다. 서비스 계정에는 구성된 프로젝트에 버킷을 만들 수 있는 권한이 있어야 합니다.
위치
예
6.5.0
BigQuery 데이터 세트가 생성되는 위치입니다.
데이터 세트 또는 임시 버킷이 이미 있으면 이 값이 무시됩니다. 기본값은 US 멀티 리전입니다.
암호화 키 이름
예
6.5.1/0.18.1
플러그인으로 생성된 버킷, 데이터 세트, 테이블에 기록된 데이터를 암호화하는 고객 관리 암호화 키(CMEK)입니다. 버킷, 데이터 세트 또는 테이블이 이미 있으면 이 값이 무시됩니다.
완료 후 BigQuery 테이블 보관
예
6.5.0
디버깅 및 검증 목적으로 파이프라인을 실행하는 동안 생성된 모든 BigQuery 임시 테이블을 보관할지 여부입니다. 기본값은 아니요입니다.
임시 테이블 TTL(시간)
예
6.5.0
BigQuery 임시 테이블의 테이블 TTL을 시간 단위로 설정합니다. 파이프라인이 취소되고 삭제 프로세스가 중단되는 경우(실행 클러스터가 갑자기 종료되는 경우 등)의 안전 조치로 유용합니다. 이 값을 0으로 설정하면 테이블 TTL이 사용 중지됩니다. 기본값은 72(3일)입니다.
작업 우선순위
예
6.5.0
BigQuery 작업 실행에 사용되는 우선순위입니다. 다음 옵션 중 하나를 선택합니다.
일괄: 일괄 작업은 유휴 리소스를 사용할 수 있을 때 바로, 일반적으로는 몇 분 이내에 큐에 추가되고 시작됩니다. 작업이 3시간 내에 시작되지 않으면 우선순위가 대화형으로 전환됩니다.
대화형: 대화형 작업은 가능한 한 즉시 실행되고 동시 비율 제한 및 일일 비율 제한에 포함됩니다.
기본값은 일괄입니다.
푸시다운 강제 단계
예
6.7.0
BigQuery에서 항상 실행되도록 지원되는 단계입니다.
각 단계 이름은 별도의 줄에 있어야 합니다.
푸시다운을 건너뛰는 단계
예
6.7.0
BigQuery에서 실행되지 않는 지원되는 단계 각 단계 이름은 별도의 줄에 있어야 합니다.
BigQuery Storage Read API 사용
예
6.7.0
파이프라인 실행 중 BigQuery에서 레코드를 추출할 때 BigQuery Storage Read API를 사용할지 여부입니다. 이 옵션은 변환 푸시다운 성능을 향상시켜 주지만 추가 비용이 발생합니다. 이를 위해서는 실행 환경에 Scala 2.12를 설치해야 합니다.
로그에서 성능 변경사항 모니터링
파이프라인 런타임 로그에는 BigQuery에서 실행되는 SQL 쿼리를 보여주는 메시지가 포함됩니다. 파이프라인에서 BigQuery에 푸시되는 스테이지를 모니터링할 수 있습니다.
다음 예시는 파이프라인 실행이 시작될 때 로그 항목을 보여줍니다. 이 로그는 파이프라인에서 JOIN 작업이 실행되도록 BigQuery에 푸시다운되었음을 나타냅니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eThis document details how to enable and configure Transformation Pushdown in Cloud Data Fusion to execute pipeline transformations directly within BigQuery instead of Spark.\u003c/p\u003e\n"],["\u003cp\u003eTransformation Pushdown, available in Cloud Data Fusion version 6.5.0 and later, can be enabled on a deployed pipeline through the Cloud Data Fusion Studio by navigating to the 'Transformation Pushdown' section in the pipeline configuration settings.\u003c/p\u003e\n"],["\u003cp\u003eVarious optional configurations are available for Transformation Pushdown, including settings for project ID, service account details, temporary bucket name, encryption keys, and more, which are adjustable depending on the Cloud Data Fusion version.\u003c/p\u003e\n"],["\u003cp\u003ePipeline runtime logs offer insights into the SQL queries executed in BigQuery, enabling users to monitor which stages are being pushed down and track the progress of push, join, and pull operations within the BigQuery environment.\u003c/p\u003e\n"],["\u003cp\u003eThe BigQuery Job ID, which is logged, can be used to view detailed information on resource utilization and potential errors to better track the transformations.\u003c/p\u003e\n"]]],[],null,["# Execute transformations in BigQuery\n\nThis page describes how to execute transformations to BigQuery\ninstead of Spark in Cloud Data Fusion.\n\nFor more information, see the\n[Transformation Pushdown overview](/data-fusion/docs/concepts/transformation-pushdown).\n\nBefore you begin\n----------------\n\nTransformation Pushdown is available in version 6.5.0 and later. If your\npipeline runs in an earlier environment, you can\n[upgrade your instance](/data-fusion/docs/how-to/upgrading) to the latest\nversion.\n\nEnable Transformation Pushdown on your pipeline\n-----------------------------------------------\n\n### Console\n\n\nTo enable Transformation Pushdown on a deployed pipeline, do the\nfollowing:\n\n1. Go to your instance:\n\n\n 1. In the Google Cloud console, go to the Cloud Data Fusion page.\n\n 2. To open the instance in the Cloud Data Fusion Studio,\n click **Instances** , and then click **View instance**.\n\n [Go to Instances](https://console.cloud.google.com/data-fusion/locations/-/instances)\n\n \u003cbr /\u003e\n\n2. Click menu **Menu \\\u003e**\n list **List**.\n\n The deployed pipeline tab opens.\n3. Click the desired deployed pipeline to open it in the **Pipeline\n Studio**.\n\n4. Click **Configure \\\u003e Transformation Pushdown**.\n\n5. Click **Enable Transformation Pushdown**.\n\n6. In the **Dataset** field, enter a BigQuery dataset name.\n\n Optional: To use a macro, click **M** . For more information, see\n [Datasets](/bigquery/docs/datasets-intro#datasets).\n7. Optional: Configure the options, if needed.\n\n8. Click **Save**.\n\n### Optional configurations\n\nMonitor performance changes in the logs\n---------------------------------------\n\nThe pipeline runtime logs include messages that show the SQL queries that are\nrun in BigQuery. You can monitor which stages in the pipeline get\npushed into BigQuery.\n\nThe following example shows the log entries when pipeline execution begins. The\nlogs indicate that the `JOIN` operations in your pipeline have been pushed down\nBigQuery for execution: \n\n INFO [Driver:i.c.p.g.b.s.BigQuerySQLEngine@190] - Validating join for stage 'Users' can be executed on BigQuery: true\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@131] - Starting push for dataset 'UserProfile'\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@131] - Starting push for dataset 'UserDetails'\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@292] - Starting join for dataset 'Users'\n INFO [Driver:i.c.p.g.b.s.BigQuerySQLEngine@190] - Validating join for stage 'UserPurchases' can be executed on BigQuery: true\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@131] - Starting push for dataset 'Purchases'\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@292] - Starting join for dataset 'UserPurchases'\n INFO [Driver:i.c.p.g.b.s.BigQuerySQLEngine@190] - Validating join for stage 'MostPopularNames' can be executed on BigQuery: true\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@131] - Starting push for dataset 'FirstNameCounts'\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@292] - Starting join for dataset 'MostPopularNames'\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@193] - Starting pull for dataset 'MostPopularNames'\n\nThe following example shows the table names that will be assigned for each of\nthe datasets involved in the pushdown execution: \n\n INFO [batch-sql-engine-adapter:i.c.p.g.b.s.BigQuerySQLEngine@145] - Executing Push operation for dataset Purchases stored in table \u003cTABLE_ID\u003e\n INFO [batch-sql-engine-adapter:i.c.p.g.b.s.BigQuerySQLEngine@145] - Executing Push operation for dataset UserDetails stored in table \u003cTABLE_ID\u003e\n INFO [batch-sql-engine-adapter:i.c.p.g.b.s.BigQuerySQLEngine@145] - Executing Push operation for dataset FirstNameCounts stored in table \u003cTABLE_ID\u003e\n INFO [batch-sql-engine-adapter:i.c.p.g.b.s.BigQuerySQLEngine@145] - Executing Push operation for dataset UserProfile stored in table \u003cTABLE_ID\u003e\n\nAs the execution continues, the logs show the completion of push stages, and\neventually the execution of `JOIN` operations. For example: \n\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@133] - Completed push for dataset 'UserProfile'\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@133] - Completed push for dataset 'UserDetails'\n DEBUG [batch-sql-engine-adapter:i.c.p.g.b.s.BigQuerySQLEngine@235] - Executing join operation for dataset Users\n INFO [batch-sql-engine-adapter:i.c.p.g.b.s.BigQueryJoinDataset@118] - Creating table `\u003cTABLE_ID\u003e` using job: \u003cJOB_ID\u003e with SQL statement: SELECT `UserDetails`.id AS `id` , `UserDetails`.first_name AS `first_name` , `UserDetails`.last_name AS `last_name` , `UserDetails`.email AS `email` , `UserProfile`.phone AS `phone` , `UserProfile`.profession AS `profession` , `UserProfile`.age AS `age` , `UserProfile`.address AS `address` , `UserProfile`.score AS `score` FROM `your_project.your_dataset.\u003cDATASET_ID\u003e` AS `UserProfile` LEFT JOIN `your_project.your_dataset.\u003cDATASET_ID\u003e` AS `UserDetails` ON `UserProfile`.id = `UserDetails`.id\n INFO [batch-sql-engine-adapter:i.c.p.g.b.s.BigQueryJoinDataset@151] - Created BigQuery table `\u003cTABLE_ID\u003e\n INFO [batch-sql-engine-adapter:i.c.p.g.b.s.BigQuerySQLEngine@245] - Executed join operation for dataset Users\n\nWhen all stages have completed, a message shows that the `Pull` operation has\nbeen completed. This indicates that the BigQuery export process\nhas been triggered and records will start being read into the pipeline after\nthis export job begins. For example: \n\n DEBUG [batch-sql-engine-adapter:i.c.c.e.s.b.BatchSQLEngineAdapter@196] - Completed pull for dataset 'MostPopularNames'\n\nIf the pipeline execution encounters errors, they are described in the logs.\n\nFor details about the execution of the BigQuery `JOIN`\noperations, such as resource utilization, execution time, and error causes, you\ncan view the BigQuery Job data using the Job ID, which appears in\nthe job logs.\n\nReview pipeline metrics\n-----------------------\n\nFor more information about the metrics that Cloud Data Fusion provides for\nthe part of the pipeline that's executed in BigQuery, see\n[BigQuery pushdown pipeline metrics](https://cdap.atlassian.net/wiki/spaces/DOCS/pages/1822392321/BigQuery+Pushdown+Pipeline+Metrics).\n\nWhat's next\n-----------\n\n- Learn more about [Transformation Pushdown](/data-fusion/docs/concepts/transformation-pushdown) in Cloud Data Fusion."]]