온프레미스용 전송 작업 관리

전송을 시작하려면 먼저 전송 작업을 만들고 에이전트를 한 개 이상 설치한 후 전송 작업에 연결해야 합니다. 이 문서에서는 최초 설정, 전송 작업을 만드는 방법, 전송 에이전트를 설치하는 방법, 전송 작업을 관리하는 방법을 설명합니다.

기본 요건

온프레미스용 전송을 사용하려면 다음이 필요합니다.

  • POSIX 규격 소스

  • 300Mbps 이상의 네트워크 연결

  • 전송하려는 데이터에 액세스할 수 있는 Docker 지원 64비트 Linux 서버 또는 가상 머신

    CentOS, Debian, Fedora, Ubuntu 운영체제를 지원하는 Docker Community Edition

    다른 Linux 운영체제를 사용하려면 Docker Enterprise를 참조하세요.

  • 온프레미스용 전송 최초 설정을 완료합니다.

전송을 시작하기 전에 다음을 확인하세요.

  • TCP 포트 80(HTTP) 및 443(HTTPS)은 아웃바운드 연결을 위해 열려 있습니다.
  • 단일 Google Cloud 프로젝트 내 모든 에이전트 프로세스에는 동일한 마운트 지점에 동일한 파일 시스템이 마운트되어 있습니다.

작업 및 에이전트의 확장 제한사항

온프레미스용 전송에는 전송 작업과 에이전트에 다음과 같은 확장 제한사항이 적용됩니다.

  • 작업당 10억 개 미만의 파일
  • 전송 프로젝트당 에이전트 100개 이하
  • 대역폭 한도는 1MBps를 초과해야 합니다.

최초 설정

Transfer Service for On Premises Data 작업을 처음 만들 때는 필수 API를 사용 설정하고 올바른 권한이 부여되었는지 확인해야 합니다.

최초 설정을 수행하는 동안 오류가 발생하면 로그인한 사용자에게 설정 단계를 수행하는 데 필요한 권한이 있는지 확인합니다. 대부분의 경우 이러한 권한을 모든 사용자가 사용할 수 있는 것은 아니며, 프로젝트 관리자에게 문의하여 지원을 받아야 할 수 있습니다.

최초 설정하려면 다음 단계를 따르세요.

  1. Pub/Sub API를 사용 설정합니다.

    1. Google Cloud Console의 API 라이브러리 페이지로 이동합니다.

    API 라이브러리 페이지로 이동

    1. 검색창에서 Pub/Sub API를 입력합니다.

    2. Pub/Sub API를 선택합니다.

      Pub/Sub API 페이지가 표시됩니다.

    3. 사용 설정을 클릭합니다.

      Pub/Sub API 개요가 표시됩니다.

  2. resourcemanager.projects.setIamPolicy 권한이 있는 사용자인 Google Cloud 프로젝트 관리자는 ID 및 액세스 관리 권한 또는 역할을 다음과 같이 부여합니다.
    • 온프레미스용 전송 관리자 계정 - 전송을 수행하는 동료를 지원하는 수퍼유저 계정. 관리자는 온프레미스용 전송 에이전트를 관리하고 대역폭 사용량 한도를 설정합니다.
    • 온프레미스용 전송 사용자 계정 — 전송을 만들고 실행하는 데 사용되는 계정. 이러한 계정에는 일반적으로 전송 작업을 삭제할 수 있는 권한이 없습니다.
    • 온프레미스용 전송 서비스 계정 — 전송을 수행하기 위해 온프레미스용 전송에서 사용하는 서비스 계정
    • 온프레미스용 전송 에이전트 ID - 온프레미스용 전송 에이전트를 실행하는 데 사용되는 ID입니다. 서비스 계정 또는 온프레미스 에이전트를 설정하는 사용자 계정일 수 있습니다.

    Google Cloud 프로젝트 관리자 계정은 전송 사용자를 설정하고 온프레미스용 전송 서비스 계정에 필수 권한을 부여할 때만 필요합니다. 전송 작업을 시작하지 않아도 됩니다.

    ID 및 액세스 관리 권한 부여에 대한 자세한 내용은 리소스에 대한 액세스 권한 부여, 변경, 취소를 참조하세요.

    1. 온프레미스용 전송 관리자 계정을 설정하려면 계정에 다음의 IAM 권한 및 역할을 할당합니다.
      역할/권한 기능 참고
      resourcemanager.projects.getIamPolicy 이 권한은 온프레미스용 전송 서비스 계정에 전송에 필요한 권한이 있는지 확인하는 데 사용됩니다.
      roles/storagetransfer.admin 프로젝트 설정 및 에이전트 모니터링과 같은 전송 프로젝트의 관리 작업을 사용 설정합니다. 부여된 권한의 자세한 목록은 사전 정의된 역할을 참조하세요.
    2. 온프레미스용 전송 사용자 계정을 설정하려면 계정에 다음 권한과 역할을 할당합니다.
      역할/권한 기능 참고
      resourcemanager.projects.getIamPolicy 온프레미스용 전송 서비스 계정에 전송하는 데 필요한 Pub/Sub 권한이 있는지 확인하는 데 사용됩니다.
      roles/storagetransfer.user 사용자가 전송을 생성, 가져오기, 업데이트, 나열할 수 있습니다. 부여된 권한의 자세한 목록은 사전 정의된 역할을 참조하세요.
      roles/storage.objectAdmin 전송 중에 Cloud Storage 객체를 생성, 업데이트, 삭제할 수 있습니다. 이 계정이 전송에 사용할 모든 Cloud Storage 버킷에 대해 권한이 부여되어야 합니다.

      부여된 권한의 자세한 목록은 Predefined 사전 정의된 역할을 참조하세요.
    3. 온프레미스용 전송 서비스 계정에 전송을 완료하는 데 필요한 리소스에 액세스하도록 허용하려면 온프레미스용 전송 서비스 계정 cloud-ingest-dcp@cloud-ingest.iam.gserviceaccount.com에 다음 역할 또는 이에 상응하는 권한을 할당합니다.
      역할/권한 기능 참고
      roles/storage.objectCreator 온프레미스용 전송을 사용 설정하면 대상 Cloud Storage 버킷에서 전송 로그를 만들 수 있습니다. 전송에 사용되는 모든 Cloud Storage 버킷에 부여합니다. 상황에 따라 온프레미스용 전송을 실행 중인 프로젝트에 프로젝트 수준의 역할을 부여할 수 있습니다.

      이러한 역할이 부여하는 권한의 자세한 목록은 사전 정의된 역할을 참조하세요.
      roles/storage.objectViewer 온프레미스용 전송을 사용 설정하여 파일이 이미 Cloud Storage에 업로드되었는지 확인합니다.
      roles/pubsub.editor 온프레미스용 전송을 사용 설정하여 Google Cloud에서 온프레미스 에이전트로 통신할 수 있도록 Pub/Sub 주제를 자동으로 만들고 수정합니다. 온프레미스용 전송에서 실행 중인 프로젝트에 프로젝트 수준의 역할을 적용합니다.

      이 역할이 부여하는 권한의 자세한 목록은 역할을 참조하세요.
      storage.buckets.get 이 권한이 있으면 Cloud Storage 버킷 메타데이터를 읽을 수 있습니다.
    4. 온프레미스용 전송 에이전트를 실행할 온프레미스용 전송 에이전트 서비스 계정 또는 사용자 계정을 설정하려면 다음 권한 및 역할을 할당합니다.
      역할/권한 기능 참고
      roles/storage.objectAdmin 온프레미스용 전송을 사용 설정하여 전송 중에 Cloud Storage 객체를 생성, 업데이트, 삭제할 수 있습니다. 전송에 사용되는 모든 Cloud Storage 버킷에 부여합니다. 상황에 따라 온프레미스용 전송을 실행 중인 프로젝트에 프로젝트 수준의 역할을 부여할 수 있습니다.

      이 역할이 부여하는 권한의 자세한 목록은 역할을 참조하세요.
      roles/pubsub.publisher 온프레미스용 전송 에이전트를 사용 설정하여 Pub/Sub 주제를 통해 Google Cloud와 정보를 공유할 수 있습니다. 이 역할이 부여하는 권한의 자세한 목록은 역할을 참조하세요.
      roles/pubsub.subscriber Google Cloud를 사용 설정하여 Pub/Sub 주제를 통해 온프레미스용 전송 에이전트와 정보를 공유할 수 있습니다. 이 역할이 부여하는 권한의 자세한 목록은 역할을 참조하세요.
      pubsub.subscriptions.create 이 권한을 사용하면 온프레미스용 전송 에이전트가 Google Cloud와 온프레미스 전송 에이전트 간의 통신에 사용되는 Pub/Sub 주제에 대한 Pub/Sub 구독을 만들 수 있습니다.
      pubsub.subscriptions.delete 이 권한을 사용하면 온프레미스용 전송 에이전트가 자연스럽게 종료하여 만드는 모든 Pub/Sub 구독을 정리할 수 있습니다.
  3. 각 머신에 온프레미스 에이전트를 설치 및 실행합니다.

전송 작업 만들기

전송을 시작하려면 먼저 전송 작업을 만들어야 합니다. 전송 작업은 데이터를 이동하는 온프레미스 에이전트를 조정 및 제어합니다.

전송 작업을 만들려면 다음 단계를 따르세요.

  1. Google Cloud Console에서 Transfer Service for On Premises Data 웹 콘솔 페이지로 이동합니다.

    Transfer Service for On Premises Data 페이지로 이동

  2. 전송 작업 만들기를 클릭합니다.

    전송 작업 만들기 페이지가 표시됩니다.

  3. 전송 작업을 설명하고 추적에 유용한 전송에 대한 간단한 설명을 입력합니다.

  4. 소스 파일 시스템 디렉터리의 정규화된 경로를 입력하여 소스를 지정합니다.

  5. Cloud Storage 대상 버킷을 지정합니다. Cloud Storage 버킷 이름을 입력하거나 새 버킷을 만들 수 있습니다.

    새 버킷을 만들고 선택하려면 다음 단계를 따르세요.

    1. 둘러보기를 클릭합니다.

    2. 새 버킷을 클릭합니다.

      버킷 생성 양식이 표시됩니다.

    3. 양식을 작성한 다음 만들기를 클릭하고 선택을 클릭합니다.

  6. 선택사항: 객체 프리픽스를 입력합니다. 객체 프리픽스가 없으면 파일 시스템의 파일 이름 앞에 루트 경로가 없는 객체가 소스 경로가 있는 Cloud Storage로 전송됩니다. 예를 들어 다음 파일이 있다고 가정합니다.

    • /source_root_path/file1.txt
    • /source_root_path/dirA/file2.txt
    • /source_root_path/dirA/dirB/file3.txt
    그러면 Cloud Storage의 객체 이름은 다음과 같습니다.
    • file1.txt
    • dirA/file2.txt
    • dirA/dirB/file3.txt
    Cloud Storage의 객체 대상 이름에 객체 프리픽스가 추가됩니다. 프리픽스는 대상 버킷 이름의 / 문자 뒤에, 객체가 전송된 경로 이름 앞에 추가되며 소스 루트 경로는 포함하지 않습니다. 이렇게 하면 다른 전송 작업에서 전송된 객체를 구별할 수 있습니다.

    다음 표는 소스 객체의 경로가 /source_root_path/sub_folder_name/object_name인 경우 객체 프리픽스와 그 결과로 Cloud Storage에 생성되는 객체 이름의 몇 가지 예시를 보여줍니다.
    프리픽스 대상 객체 이름
    없음 /destination_bucket/sub_folder_name/object_name
    prefix /destination_bucket/prefixsub_folder_name/object_name
    prefix- /destination_bucket/prefix-sub_folder_name/object_name
    prefix/ /destination_bucket/prefix/sub_folder_name/object_name

  7. 선택사항: 작업에 대한 일정을 만듭니다.

  8. 만들기를 클릭합니다.

아직 설치하지 않았으면 각 머신에 온프레미스용 전송 에이전트를 설치하고 실행합니다.

Transfer Service for On Premises Data에 대한 대역폭 사용량 제어

대역폭 한도는 Transfer Service for On Premises Data가 Cloud Storage로 데이터를 전송하는 데 사용하는 데이터 양을 제한해야 하는 경우에 유용합니다. 대역폭 한도를 사용하면 다음을 수행할 수 있습니다.

  • Transfer Service for On Premises Data를 사용함에 따라 네트워크 업링크가 포화 상태가 아닙니다.

  • 조직의 기존 애플리케이션 동작은 전송 중에 성능이 저하되지 않습니다.

  • 최대 대역폭 사용량에 따라 비용이 청구되는 네트워크 연결을 사용하는 경우 가격이 갑자기 증가하지 않습니다.

대역폭 한도는 전체 프로젝트에 적용됩니다.

대역폭 한도 설정

대역폭 한도를 설정하려면 다음 단계를 따르세요.

  1. Google Cloud Console의 Transfer Service for On Premises Data 연결 설정 페이지로 이동합니다.

    Transfer Service for On Premises Data 설정 페이지로 이동

  2. 대역폭 한도 설정을 클릭합니다.

  3. 이 프로젝트의 대역폭 한도 설정 창이 표시됩니다.

  4. 대역폭 한도 텍스트 상자에 원하는 네트워크 한도(MB/초)를 입력하고 대역폭 한도 설정을 클릭합니다.

    프로젝트의 대역폭 한도가 표시됩니다.

대역폭 한도 수정

기존 대역폭 한도를 수정하는 방법은 다음과 같습니다.

  1. Google Cloud Console의 Transfer Service for On Premises Data 연결 설정 페이지로 이동합니다.

    Transfer Service for On Premises Data 설정 페이지로 이동

  2. 표시된 대역폭 한도에서 수정을 클릭합니다.

  3. 대역폭 한도 텍스트 상자에 원하는 네트워크 한도(MB/초)를 입력하고 대역폭 한도 설정을 클릭합니다.

    프로젝트의 대역폭 한도가 표시됩니다.

대역폭 한도 삭제

기존 대역폭 한도를 삭제하는 방법은 다음과 같습니다.

  1. Google Cloud Console의 Transfer Service for On Premises Data 연결 설정 페이지로 이동합니다.

    Transfer Service for On Premises Data 설정 페이지로 이동

  2. 표시된 대역폭 한도에서 모든 대역폭 사용을 클릭합니다.

  3. 기존 한도를 삭제할 것인지 확인하려면 확인을 클릭합니다.

작업 모니터링

Transfer Service for On Premises Data 작업을 모니터링하여 예상대로 작동하는지 확인할 수 있습니다.

전송 작업을 모니터링하려면 다음 단계를 따르세요.

  1. Google Cloud Console에서 Transfer Service for On Premises Data 전송 작업 페이지로 이동합니다.

    Transfer Service for On Premises Data 전송 작업 페이지로 이동

    작업 목록이 표시됩니다. 이 목록에는 실행 중인 작업과 완료된 작업이 모두 포함됩니다.

  2. 전송 작업에 대한 세부정보를 표시하려면 원하는 작업의 작업 설명을 클릭합니다.

    작업 세부정보 페이지가 표시됩니다.

작업 세부정보 페이지에 다음 정보가 표시됩니다.

  • 전송된 데이터의 양

  • 전송 작업에 대한 구성 정보

  • 예약되거나 반복되는 작업 정보

  • 가장 최근 작업 실행 세부정보

  • 과거의 모든 작업 실행 내역

작업 필터링

작업이 많고 작업 일부를 모니터링하려면 필터를 사용하여 원하는 작업만 정렬하고 표시하는 것이 좋습니다.

전송 작업을 필터링하려면 다음 단계를 따르세요.

  1. 목록 필터링 을 클릭합니다.

  2. 적용할 필터를 선택합니다.

작업 구성 수정

기존 전송 작업에 대해 다음 항목을 수정할 수 있습니다.

  • 작업 설명
  • 동기화 옵션
  • 일정

작업 구성을 수정하려면 다음 단계를 따르세요.

  1. Google Cloud Console에서 Transfer Service for On Premises Data 전송 작업 페이지로 이동합니다.

    Transfer Service for On Premises Data 전송 작업 페이지로 이동

  2. 수정 중인 작업의 작업 설명을 클릭합니다.

    작업 세부정보 페이지가 표시됩니다.

  3. 구성을 클릭합니다.

  4. 수정하려는 구성 항목 옆에 있는 을 클릭합니다.

작업 다시 실행

Transfer Service for On Premises Data는 완료된 작업을 한 번 더 실행하는 것을 지원합니다. 이는 이동할 추가 데이터가 있고 기존 작업 구성을 다시 사용하려는 경우에 유용합니다.

작업을 다시 실행하려면 다음 단계를 따르세요.

  1. Google Cloud Console에서 Transfer Service for On Premises Data 전송 작업 페이지로 이동합니다.

    Transfer Service for On Premises Data 전송 작업 페이지로 이동

  2. 수정 중인 작업의 작업 설명을 클릭합니다.

    작업 세부정보 페이지가 표시됩니다.

  3. 다시 실행을 클릭합니다.

    작업이 시작됩니다.

오류 보기

전송 중에 발생한 오류 샘플을 보려면 다음 단계를 따르세요.

  1. Google Cloud Console에서 Transfer Service for On Premises Data 전송 작업 페이지로 이동합니다.

    Transfer Service for On Premises Data 전송 작업 페이지로 이동

  2. 수정 중인 작업의 작업 설명을 클릭합니다.

    작업 세부정보 페이지가 표시됩니다.

  3. 오류 세부정보 보기를 클릭합니다.

    전송 중에 발생한 오류 샘플을 보여주는 오류 세부정보 페이지가 표시됩니다.

전송 로그 보기

Transfer Service for On Premises Data는 전송 작업 결과를 확인하는 데 사용할 수 있는 상세한 전송 로그를 작성합니다. 각 작업은 대상 Cloud Storage 버킷에 저장되는 전송 로그 모음을 작성합니다.

전송 작업이 실행되는 동안 로그가 생성됩니다. 전체 로그는 일반적으로 작업 완료 후 15분 이내에 사용할 수 있습니다.

다음 중 한 가지 위치에서 로그를 볼 수 있습니다.

Google Cloud Console에서 오류 보기

Google Cloud Console 내에서 전송 중에 발생한 모든 오류를 표시하려면 다음 단계를 따르세요.

  1. 전송 로그 보기를 클릭합니다.

    버킷 세부정보 페이지가 표시됩니다. 이는 Cloud Storage 버킷 대상입니다.

  2. 원하는 전송 로그를 클릭합니다.

    전송 로그가 표시됩니다. 자세한 내용은 전송 로그 형식을 참조하세요.

대상 버킷에서 로그 보기

전송 로그는 다음 경로의 대상 버킷에 저장됩니다.

destination-bucket-name/storage-transfer/logs/transferJobs/job-name/transferOperations/operation-name

각 항목의 의미는 다음과 같습니다.

  • destination-bucket-name은 작업의 대상 Cloud Storage 버킷 이름입니다.
  • job-name작업 목록에 표시되는 작업 이름입니다.
  • operation-name은 IS08601 타임스탬프와 생성된 ID로 구성되는 개별 전송 작업의 이름입니다.

로그는 집계되어 객체로 저장됩니다. 로그 배치마다 생성 시간을 기준으로 이름이 지정됩니다. 예를 들면 다음과 같습니다.

my bucket/storage-transfer/logs/transferOperations/job1/2019-10-19T10_52_56.519081644-07_00.log

전송 로그가 표시됩니다. 자세한 내용은 전송 로그 형식을 참조하세요.

전송 로그에서 BigQuery 쿼리 실행

전송 로그에서 BigQuery 쿼리를 실행하려면 다음 단계를 따르세요.

  1. BigQuery에 CSV 로그 데이터를 로드합니다.

  2. BigQuery 쿼리를 실행합니다.

쿼리 예시

전송 시도 파일 수 및 실패/성공 상태 표시

select ActionStatus, count(*) as num_files
from big-query-table
where Action="TRANSFER"
group by 1;

여기서 big-query-table은 전송 로그가 포함된 BigQuery 테이블의 이름입니다.

전송하지 못한 모든 파일 표시

select Src_File_Path  
from big-query-table
where Action="TRANSFER" and ActionStatus="FAILED";

여기서 big-query-table은 전송 로그가 포함된 BigQuery 테이블의 이름입니다.

성공적으로 전송된 각 파일의 체크섬 및 타임스탬프 표시

select Timestamp, Action, ActionStatus, Src_File_Path, Src_File_Size,
Src_File_Crc32C, Dst_Gcs_BucketName, Dst_Gcs_ObjectName, Dst_Gcs_Size,
Dst_Gcs_Crc32C, Dst_Gcs_Md5
from big-query-table
where Action="TRANSFER" and ActionStatus="SUCCEEDED";

여기서 big-query-table은 전송 로그가 포함된 BigQuery 테이블의 이름입니다.

전송하지 못한 디렉터리의 모든 오류 정보 표시

select FailureDetails_ErrorType, FailureDetails_GrpcCode, FailureDetails_Message
from big-query-table
where Action="FIND" and ActionStatus="FAILED";

여기서 big-query-table은 전송 로그가 포함된 BigQuery 테이블의 이름입니다.