복제 작업을 배포한 후에는 테이블을 수정하거나 추가할 수 없습니다. 대신 새 복제 작업에 테이블을 추가하거나 복제 작업을 복사합니다.
옵션 1: 새 복제 작업 만들기
새 작업에 테이블을 추가하는 것이 가장 간단한 방법입니다. 모든 과거 테이블을 리로드하거나 데이터 불일치 문제가 발생하는 것을 방지합니다.
단점은 각 작업이 기본적으로 별도의 임시 Dataproc 클러스터에서 실행되면서 다중 복제 작업 관리 오버헤드가 증가하고 더 많은 컴퓨팅 리소스를 소비한다는 것입니다. 후자의 경우 두 작업 모두 공유 정적 Dataproc 클러스터를 사용하여 어느 정도 완화할 수 있습니다.
복사한 작업에 스냅샷을 사용 설정하면 과거의 모든 테이블을 처음부터 로드합니다. 이전 옵션(별도 작업 실행)을 사용할 수 없는 경우에 권장됩니다.
과거 테이블을 로드하는 것을 방지하기 위해 스냅샷을 사용 중지하면 이전 파이프라인이 중지되고 새 파이프라인이 시작되기 전까지 이벤트가 누락될 수 있으므로 데이터 손실이 발생할 수 있습니다. 이 문제를 완화하기 위해 중복을 만드는 것 역시 새 테이블의 과거 데이터가 복제되지 않아 데이터 손실이 발생할 수 있으므로 권장되지 않습니다.
복제 작업을 복제하려면 다음 단계를 따르세요.
기존 파이프라인을 중지합니다.
복제 작업 페이지에서 복사할 작업을 찾고 more_vert 및 복제를 클릭합니다.
스냅샷을 사용 설정합니다.
소스 구성으로 이동합니다.
기존 데이터 복제 필드에서 예를 선택합니다.
테이블 및 변환 선택 창에서 테이블을 추가하고 마법사를 따라 복제 파이프라인을 배포합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eYou cannot directly edit or add tables to an existing replication job after deployment; instead, you must create a new or duplicate job.\u003c/p\u003e\n"],["\u003cp\u003eCreating a new replication job to add tables is the preferred method as it prevents historical reloading and data inconsistency issues, but it increases overhead and resource consumption.\u003c/p\u003e\n"],["\u003cp\u003eDuplicating a replication job to add tables requires careful consideration of snapshot settings, as enabling the snapshot triggers a full historical reload, while disabling it can lead to data loss.\u003c/p\u003e\n"],["\u003cp\u003eRunning duplicate replication jobs against the same target BigQuery dataset as the original job should be avoided, as it can cause data inconsistency.\u003c/p\u003e\n"],["\u003cp\u003eUsing a shared static Dataproc cluster can help mitigate the increased compute resource usage associated with running multiple replication jobs.\u003c/p\u003e\n"]]],[],null,["# Add tables to a replication job\n\nAfter you deploy a replication job, you cannot edit or add tables to\nit. Instead, add the tables to a new or duplicate replication job.\n\nOption 1: Create a new replication job\n--------------------------------------\n\nAdding tables to a new job is the simplest approach. It prevents historical\nreloading of all the tables and prevents data inconsistency issues.\n\nThe drawbacks are the increased overhead of managing multiple\nreplication jobs and the consumption of more compute resources, as\neach job runs on a separate ephemeral Dataproc cluster by\ndefault. The latter can be mitigated to some extent by using a shared static\nDataproc cluster for both jobs.\n\nFor more information about creating new jobs, see the\n[Replication tutorials](/data-fusion/docs/how-to/using-replication).\n\nFor more information about using static Dataproc cluster in\nCloud Data Fusion, see\n[Run a pipeline against an existing Dataproc cluster](/data-fusion/docs/how-to/running-against-existing-dataproc)\n\nOption 2: Stop the current replication job and create a duplicate\n-----------------------------------------------------------------\n\nIf you duplicate the replication job to add the tables, consider the\nfollowing:\n\n- Enabling the snapshot for the duplicate job results in the historical load of\n all the tables from scratch. This is recommended if you cannot use the\n previous option, where you run separate jobs.\n\n- Disabling the snapshot to prevent the historical load can result in data\n loss, as there could be missed events between when the old pipeline stops and\n the new one starts. Creating an overlap to mitigate this issue isn't\n recommended, as it can also result in data loss---historical data for the new\n tables isn't replicated.\n\nTo create a duplicate replication job, follow these steps:\n\n1. Stop the existing pipeline.\n\n2. From the Replication jobs page, locate the job that you want to duplicate,\n click more_vert and\n **Duplicate**.\n\n3. Enable the snapshot:\n\n 1. Go to **Configure source**.\n 2. In the **Replicate existing data** field, select **Yes**.\n4. Add tables in the **Select tables and transformations** window and follow the\n wizard to deploy the replication pipeline.\n\n| **Note:** If you run a duplicate replication job against the same target BigQuery dataset as the original job, don't run the original job again, as it can cause data inconsistency.\n\nWhat's next\n-----------\n\n- Learn more about [Replication](/data-fusion/docs/concepts/replication)."]]