Azure Data Lake Storage

Azure Data Lake Storage 커넥터를 사용하면 Azure Data Lake Storage에 연결하고 SQL을 사용하여 Azure Data Lake Storage 데이터를 가져오고 업데이트할 수 있습니다.

시작하기 전에

Azure Data Lake Storage 커넥터를 사용하기 전에 다음 작업을 수행합니다.

  • Google Cloud 프로젝트에서:
    • 네트워크 연결이 설정되어 있는지 확인합니다. 네트워크 패턴에 대한 자세한 내용은 네트워크 연결을 참조하세요.
    • 커넥터를 구성하는 사용자에게 roles/connectors.admin IAM 역할을 부여합니다.
    • 커넥터에 사용할 서비스 계정에 다음 IAM 역할을 부여합니다.
      • roles/secretmanager.viewer
      • roles/secretmanager.secretAccessor

      서비스 계정은 인증을 거쳐야 하며 Google API의 데이터에 액세스할 수 있는 승인을 받은 사람이 아닌 사용자를 나타내는 특별한 유형의 Google 계정입니다. 서비스 계정이 없으면 서비스 계정을 만들어야 합니다. 자세한 내용은 서비스 계정 만들기를 참조하세요.

    • 다음 서비스를 사용 설정합니다.
      • secretmanager.googleapis.com(Secret Manager API)
      • connectors.googleapis.com(Connectors API)

      서비스 사용 설정 방법은 서비스 사용 설정을 참조하세요.

    이러한 서비스나 권한이 이전 프로젝트에서 사용 설정되지 않았으면 커넥터를 구성할 때 서비스나 권한을 사용 설정하라는 메시지가 표시됩니다.

커넥터 구성

커넥터를 구성하려면 데이터 소스(백엔드 시스템)에 대한 연결을 만들어야 합니다. 연결은 데이터 소스와 관련이 있습니다. 즉, 데이터 소스가 많으면 데이터 소스마다 별도의 연결을 만들어야 합니다. 연결을 만들려면 다음 단계를 따르세요.

  1. Cloud 콘솔에서 Integration Connectors > 연결 페이지로 이동한 다음 Google Cloud 프로젝트를 선택하거나 만듭니다.

    연결 페이지로 이동

  2. + 새로 만들기를 클릭하여 연결 만들기 페이지를 엽니다.
  3. 위치 섹션에서 연결 위치를 선택합니다.
    1. 리전: 드롭다운 목록에서 위치를 선택합니다.

      커넥터가 지원되는 리전은 다음과 같습니다.

      지원되는 모든 리전 목록은 위치를 참조하세요.

    2. 다음을 클릭합니다.
  4. 연결 세부정보 섹션에서 다음을 완료합니다.
    1. 커넥터: 사용 가능한 커넥터의 드롭다운 목록에서 Azure Data Lake Storage를 선택합니다.
    2. 커넥터 버전: 사용 가능한 버전의 드롭다운 목록에서 커넥터 버전을 선택합니다.
    3. 연결 이름 필드에서 연결 인스턴스의 이름을 입력합니다.

      연결 이름은 다음 기준을 충족해야 합니다.

      • 연결 이름에 문자, 숫자, 하이픈을 사용할 수 있습니다.
      • 문자는 소문자여야 합니다.
      • 연결 이름은 문자로 시작하고 문자 또는 숫자로 끝나야 합니다.
      • 연결 이름은 49자(영문 기준)를 초과할 수 없습니다.
    4. 선택적으로 연결 인스턴스에 대한 설명을 입력합니다.
    5. 필요한 경우 Cloud Logging을 사용 설정한 다음 로그 수준을 선택합니다. 기본적으로 로그 수준은 Error로 설정됩니다.
    6. 서비스 계정: 필수 역할이 있는 서비스 계정을 선택합니다.
    7. 필요한 경우 연결 노드 설정을 구성합니다.

      • 최소 노드 수: 최소 연결 노드 수를 입력합니다.
      • 최대 노드 수: 최대 연결 노드 수를 입력합니다.

      노드는 트랜잭션을 처리하는 연결의 단위(또는 복제본)입니다. 연결에 대해 더 많은 트랜잭션을 처리하려면 더 많은 노드가 필요합니다. 이와 반대로 더 적은 트랜잭션을 처리하기 위해서는 더 적은 노드가 필요합니다. 노드가 커넥터 가격 책정에 미치는 영향을 파악하려면 연결 노드 가격 책정을 참조하세요. 값을 입력하지 않으면 기본적으로 최소 노드가 (높은 가용성을 위해) 2로 설정되고 최대 노드는 50으로 설정됩니다.

    8. 계정: 이 속성은 Azure Data Lake Storage 계정의 이름을 지정합니다.
    9. 디렉터리: 이 속성은 파일 및 폴더를 나열할 루트 경로를 지정합니다.
    10. 파일 시스템: 이 속성은 2세대 스토리지 계정에 사용될 파일 시스템의 이름을 지정합니다. 예를 들어 Azure blob 컨테이너의 이름입니다.
    11. 청크 크기: 대용량 파일을 업로드할 때 사용할 청크 크기(MB)입니다.
    12. 하위 디렉터리 포함: ADLSGen2 스키마의 리소스 뷰에 하위 디렉터리 경로를 나열할지 여부를 선택합니다.
    13. 선택적으로 + 라벨 추가를 클릭하여 키/값 쌍의 형식으로 연결에 라벨을 추가합니다.
    14. 다음을 클릭합니다.
  5. 인증 섹션에서 인증 세부정보를 입력합니다.
    1. 인증 유형을 선택하고 관련 세부정보를 입력합니다.

      Azure Data Lake Storage 연결에서는 다음 인증 유형이 지원됩니다.

      • 공유 액세스 서명
      • 계정 액세스 키
    2. 이러한 인증 유형을 구성하는 방법은 인증 구성을 참조하세요.

    3. 다음을 클릭합니다.
  6. 검토: 연결 및 인증 세부정보를 검토합니다.
  7. 만들기를 클릭합니다.

인증 구성

사용할 인증을 기반으로 세부정보를 입력합니다.

  • 공유 액세스 서명

    익명 로그인을 사용하려면 사용할 수 없음을 선택합니다.

    • 공유 액세스 서명: 공유 액세스 서명이 포함된 Secret Manager 보안 비밀입니다.
  • 계정 액세스 키

    익명 로그인을 사용하려면 사용할 수 없음을 선택합니다.

    • 계정 액세스 키: 계정 액세스 키가 포함된 Secret Manager 보안 비밀입니다.

항목, 작업, 조치

모든 Integration Connectors는 연결된 애플리케이션의 객체에 대한 추상화 레이어를 제공합니다. 이 추상화를 통해서만 애플리케이션의 객체에 액세스할 수 있습니다. 추상화는 항목, 작업, 조치로 노출됩니다.

  • 항목: 연결된 애플리케이션 또는 서비스에서 항목은 객체 또는 속성 모음으로 간주될 수 있습니다. 항목의 정의는 커넥터마다 다릅니다. 예를 들어 데이터베이스 커넥터에서는 테이블이 항목이고, 파일 서버 커넥터에서는 폴더가 항목이며 메시징 시스템 커넥터에서는 큐가 항목입니다.

    그러나 커넥터가 항목을 지원하지 않거나 항목을 포함하지 않을 수 있으며, 이 경우 Entities 목록이 비어 있습니다.

  • 작업: 작업은 항목에 대해 수행할 수 있는 활동입니다. 항목에서 다음 작업을 수행할 수 있습니다.

    사용 가능한 목록에서 항목을 선택하면 항목에 사용 가능한 작업 목록이 생성됩니다. 작업에 대한 자세한 설명은 커넥터 태스크의 항목 작업을 참조하세요. 그러나 커넥터가 항목 작업을 지원하지 않으면 이렇게 지원되지 않는 작업은 Operations 목록에 나열되지 않습니다.

  • 조치: 커넥터 인터페이스를 통해 통합에 제공되는 첫 번째 클래스 함수입니다. 조치를 사용하면 항목을 변경할 수 있습니다. 조치는 커넥터마다 다릅니다. 일반적으로 조치에는 입력 매개변수와 출력 매개변수가 있습니다. 하지만 커넥터가 조치를 지원하지 않을 수 있으며 이 경우 Actions 목록이 비어 있습니다.

시스템 제한사항

Azure Data Lake Storage 커넥터는 노드별로 초당 5개의 트랜잭션을 처리할 수 있으며 이 한도를 초과하는 모든 트랜잭션을 제한합니다. 기본적으로 Integration Connectors는 가용성을 높이기 위해 연결에 2개의 노드를 할당합니다.

Integration Connectors에 적용되는 한도에 대한 자세한 내용은 한도를 참조하세요.

작업

이 섹션에는 커넥터에서 지원하는 작업이 나와 있습니다. 작업을 구성하는 방법은 작업 예시를 참조하세요.

DownloadFile 작업

이 작업을 수행하면 디렉터리 또는 컨테이너에서 특정 blob의 콘텐츠를 다운로드할 수 있습니다.

DownloadFile 작업의 입력 매개변수

매개변수 이름 데이터 유형 필수 설명
경로 문자열 다운로드할 파일 경로(파일 이름 포함)입니다. 예:
  • FILE_NAME
  • dir1/FILE_NAME
  • dir1/dir2/FILE_NAME
HasBytes 불리언 아니요 콘텐츠를 바이트로 다운로드할지 여부입니다(Base64 형식).
  • .pdf, .xls, .docx와 같은 텍스트가 아닌 파일을 다운로드하려면 HasBytes를 true로 설정해야 합니다.
  • 텍스트 파일을 다운로드하려면 HasBytes를 true 또는 false로 설정하면 됩니다. 값을 true로 설정하면 텍스트 콘텐츠가 바이트(Base64 형식)로 다운로드됩니다.
이 매개변수의 기본값은 false입니다.

DownloadFile 작업의 출력 매개변수

작업이 성공하면 파일 또는 블롭의 콘텐츠가 반환됩니다.

DownloadFile 작업을 구성하는 방법의 예시는 작업 예시를 참조하세요.

CreateFile 작업

이 작업을 통해 컨테이너 또는 디렉터리에 blob 또는 파일을 만들 수 있습니다.

CreateFile 작업의 입력 매개변수

매개변수 이름 데이터 유형 필수 설명
경로 문자열 생성할 파일의 경로입니다.

CreateFile 작업을 구성하는 방법의 예시는 작업 예시를 참조하세요.

CopyFile 작업

이 작업을 수행하면 파일 또는 blob의 콘텐츠를 동일한 컨테이너 또는 디렉터리의 다른 파일 또는 blob에 복사할 수 있습니다.

CopyFile 작업의 입력 매개변수

매개변수 이름 데이터 유형 필수 설명
SourcePath 문자열 복사할 파일의 경로입니다.
DestinationPath 문자열 복사할 파일의 경로입니다.

CopyFile 작업을 구성하는 방법의 예시는 작업 예시를 참조하세요.

DeleteObject 작업

이 작업을 수행하면 파일 또는 blob을 삭제할 수 있습니다.

DeleteObject 작업의 입력 매개변수

매개변수 이름 데이터 유형 필수 설명
재귀적 문자열 아니요 하위 폴더를 포함한 폴더의 모든 콘텐츠를 삭제하려면 이 값을 true로 설정합니다.
경로 문자열 삭제할 파일 또는 폴더의 경로입니다.
DeleteType 문자열
  • 경로 매개변수에 지정된 파일 또는 폴더를 삭제하려면 이 값을 FILESANDFOLDERS로 설정합니다.
  • 경로 매개변수에 지정된 폴더 내의 파일만 삭제하려면 이를 FILES로 설정합니다.

DeleteObject 작업을 구성하는 방법의 예시는 작업 예시를 참조하세요.

LeaseBlob 작업

이 작업을 통해 blob에 대한 잠금을 만들고 관리할 수 있습니다.

LeaseBlob 작업의 입력 매개변수

매개변수 이름 데이터 유형 필수 설명
경로 문자열 파일의 경로입니다.
LeaseAction 문자열 실행할 임대 작업을 지정합니다.
LeaseDuration 정수 임대 기간을 지정합니다.

LeaseBlob 작업을 구성하는 방법의 예시는 작업 예시를 참조하세요.

UploadFile 작업

이 작업을 통해 사용자가 특정 blob 또는 컨테이너에 콘텐츠를 업로드할 수 있습니다.

UploadFile 작업의 입력 매개변수

매개변수 이름 데이터 유형 필수 설명
경로 문자열 업로드할 파일의 경로입니다.
HasBytes 불리언 아니요 콘텐츠를 바이트로 업로드할지 여부입니다.
콘텐츠 문자열 업로드할 콘텐츠입니다.

UploadFile 작업을 구성하는 방법의 예시는 작업 예시를 참조하세요.

RenameObject 작업

이 작업을 수행하면 파일 또는 폴더의 이름을 바꿀 수 있습니다.

RenameObject 작업의 입력 매개변수

매개변수 이름 데이터 유형 필수 설명
경로 문자열 이름을 변경할 경로입니다.
RenameTo 문자열 파일 또는 폴더의 새 이름입니다.

RenameObject 작업을 구성하는 방법의 예시는 작업 예시를 참조하세요.

작업 예시

예 - 파일 다운로드

이 예시에서는 바이너리 파일을 다운로드합니다.

  1. Configure connector task 대화상자에서 Actions를 클릭합니다.
  2. DownloadFile 조치를 선택한 다음 완료를 클릭합니다.
  3. 커넥터 태스크의 태스크 입력 섹션에서 connectorInputPayload를 클릭한 후 Default Value 필드에 다음과 유사한 값을 입력합니다.
    {
    "Path": "testdirectory1/test1.pdf",
    "HasBytes": true
    }
  4. 작업이 성공하면 DownloadFile 태스크의 connectorOutputPayload 응답 매개변수가 다음과 비슷한 값을 갖습니다.

    [{
    "Success": "True",
    "ContentBytes": "UEsDBBQABgAIAAAAIQCj77sdZQEAAFIFAAATAAgCW0NvbnRlbnRfVHlwZXNdLnhtbCCiBAIooA"
    }]

예 - 파일 업로드

이 예시에서는 콘텐츠를 blob으로 업로드합니다.

  1. Configure connector task 대화상자에서 Actions를 클릭합니다.
  2. UploadFile 조치를 선택한 다음 완료를 클릭합니다.
  3. 커넥터 태스크의 태스크 입력 섹션에서 connectorInputPayload를 클릭한 후 Default Value 필드에 다음과 유사한 값을 입력합니다.
    {
    "Path": "testblob4",
    "HasBytes": true,
    "Content": "abcdef\nabcdef"
    }
  4. 작업이 성공하면 UploadFile 태스크의 connectorOutputPayload 응답 매개변수가 다음과 비슷한 값을 갖습니다.

    [{
    "Success": "true"
    }]

예시 - 파일 만들기

이 예시에서는 지정된 디렉터리에 파일을 만듭니다.

  1. Configure connector task 대화상자에서 Actions를 클릭합니다.
  2. CreateFile 조치를 선택한 다음 완료를 클릭합니다.
  3. 커넥터 태스크의 태스크 입력 섹션에서 connectorInputPayload를 클릭한 후 Default Value 필드에 다음과 유사한 값을 입력합니다.
    {
    "path": "testdirectory1/testblob"
    }
  4. 작업이 성공하면 CreateFile 태스크의 connectorOutputPayload 응답 매개변수가 다음과 비슷한 값을 갖습니다.

    [{
    "Success": "true"
    }]

예시 - 파일 복사

이 예시에서는 한 위치에서 다른 위치로 파일을 복사합니다.

  1. Configure connector task 대화상자에서 Actions를 클릭합니다.
  2. CopyFile 조치를 선택한 다음 완료를 클릭합니다.
  3. 커넥터 태스크의 태스크 입력 섹션에서 connectorInputPayload를 클릭한 후 Default Value 필드에 다음과 유사한 값을 입력합니다.
    {
    "SourcePath": "testdirectory1/testblob",
    "DestinationPath": "testblob"
    }
  4. 작업이 성공하면 CopyFile 태스크의 connectorOutputPayload 응답 매개변수가 다음과 비슷한 값을 갖습니다.

    [{
    "Success": "true"
    }]

예시 - blob 삭제

이 예시에서는 지정된 blob을 삭제합니다.

  1. Configure connector task 대화상자에서 Actions를 클릭합니다.
  2. DeleteObject 조치를 선택한 다음 완료를 클릭합니다.
  3. 커넥터 태스크의 태스크 입력 섹션에서 connectorInputPayload를 클릭한 후 Default Value 필드에 다음과 유사한 값을 입력합니다.
    {
    "path": "testdirectory1/testblob"
    }
  4. 작업이 성공하면 DeleteObject 태스크의 connectorOutputPayload 응답 매개변수가 다음과 비슷한 값을 갖습니다.

    [{
    "Success": "true"
    }]

예시 - blob 임대

이 예시에서는 지정된 blob을 임대합니다.

  1. Configure connector task 대화상자에서 Actions를 클릭합니다.
  2. LeaseBlob 조치를 선택한 다음 완료를 클릭합니다.
  3. 커넥터 태스크의 태스크 입력 섹션에서 connectorInputPayload를 클릭한 후 Default Value 필드에 다음과 유사한 값을 입력합니다.
    {
    "Path": "testblob2",
    "LeaseAction": "Acquire",
    "LeaseDuration": 60.0
    }
  4. 작업이 성공하면 LeaseBlob 태스크의 connectorOutputPayload 응답 매개변수가 다음과 비슷한 값을 갖습니다.

    [{
    "LeaseId": "7aae9ca2-f015-41b6-9bdf-5fd3401fc493",
    "Success": "true"
    }]

예시 - blob 이름 바꾸기

이 예시에서는 blob의 이름을 바꿉니다.

  1. Configure connector task 대화상자에서 Actions를 클릭합니다.
  2. RenameObject 조치를 선택한 다음 완료를 클릭합니다.
  3. 커넥터 태스크의 태스크 입력 섹션에서 connectorInputPayload를 클릭한 후 Default Value 필드에 다음과 유사한 값을 입력합니다.
    {
    "Path": "testblob",
    "RenameTo": "testblob6"
    }
  4. 작업이 성공하면 RenameObject 태스크의 connectorOutputPayload 응답 매개변수가 다음과 비슷한 값을 갖습니다.

    [{
    "Success": true
    }]

항목 작업 예시

이 섹션에서는 이 커넥터에서 일부 항목 작업을 수행하는 방법을 보여줍니다.

예시 - 모든 레코드 나열

이 예시에서는 Resource 항목의 모든 레코드를 나열합니다.

  1. Configure connector task 대화상자에서 Entities를 클릭합니다.
  2. Entity 목록에서 Resource를 선택합니다.
  3. List 작업을 선택한 후 완료를 클릭합니다.
  4. 원하는 경우 커넥터 태스크의 태스크 입력 섹션에서 필터 절을 지정하여 결과 집합을 필터링할 수 있습니다. 필터 절 값을 항상 작은따옴표(')로 묶어서 지정합니다.

예시 - 레코드 가져오기

이 예시에서는 Resource 항목에서 지정된 ID가 있는 레코드를 가져옵니다.

  1. Configure connector task 대화상자에서 Entities를 클릭합니다.
  2. Entity 목록에서 Resource를 선택합니다.
  3. Get 작업을 선택한 후 완료를 클릭합니다.
  4. 커넥터 태스크의 태스크 입력 섹션에서 EntityId를 클릭한 후 기본값 필드에 testdirectory1/testblob1을 입력합니다.

    여기서 testdirectory1/testblob1Resource 항목의 고유 레코드 ID입니다.

통합에서 Azure Data Lake Storage 연결 사용

연결을 만들면 Apigee Integration 및 Application Integration에서 사용할 수 있게 됩니다. 커넥터 태스크를 통해 통합에서 연결을 사용할 수 있습니다.

  • Apigee Integration에서 커넥터 태스크를 만들고 사용하는 방법을 알아보려면 커넥터 태스크를 참조하세요.
  • Application Integration에서 커넥터 태스크를 만들고 사용하는 방법을 이해하려면 커넥터 태스크를 참조하세요.

Google Cloud 커뮤니티에서 도움 받기

Google Cloud 커뮤니티에서 Cloud 포럼에 질문을 게시하고 이 커넥터에 대해 토론할 수 있습니다.

다음 단계