Azure 数据湖

借助 Azure 数据湖连接器,您可以连接到 Azure 数据湖后端,并使用 SQL 检索和更新 Azure 数据湖数据。

准备工作

在使用 Azuredatalakestorage 连接器之前,请执行以下任务:

  • 在您的 Google Cloud 项目中:
    • 将 IAM 角色 roles/connectors.admin 授予配置连接器的用户。
    • 将以下 IAM 角色授予您要用其来使用连接器的服务账号:
      • roles/secretmanager.viewer
      • roles/secretmanager.secretAccessor

      服务账号是一种特殊类型的 Google 账号,用于表示需要验证身份并获得授权以访问 Google API 数据的非人类用户。如果您没有服务账号,则必须创建一个服务账号。如需了解详情,请参阅创建服务账号

    • 启用以下服务:
      • secretmanager.googleapis.com (Secret Manager API)
      • connectors.googleapis.com (Connectors API)

      如需了解如何启用服务,请参阅启用服务

    如果之前没有为您的项目启用这些服务或权限,则在您配置连接器时,系统会提示您启用。

配置连接器

配置连接器时,您需要创建与数据源(即后端系统)的连接。一个连接需专用于一个数据源。这意味着,如果您有许多数据源,则必须为每个数据源创建单独的连接。如需创建连接,请执行以下步骤:

  1. Cloud 控制台 中,进入 Integration Connectors > 连接页面,然后选择或创建一个 Google Cloud 项目。

    转到“连接”页面

  2. 点击 + 新建以打开创建连接页面。
  3. 位置部分中,选择连接的位置。
    1. 区域:从下拉列表中选择一个位置。

      支持的连接器区域包括:

      如需查看所有受支持区域的列表,请参阅位置

    2. 点击下一步
  4. 连接详情部分中,完成以下操作:
    1. 连接器:从可用连接器下拉列表中选择 Azure Data Lake
    2. 连接器版本:从可用版本的下拉列表中选择一个连接器版本。
    3. 连接名称字段中,输入连接实例的名称。

      连接名称必须符合以下条件:

      • 连接名称可以使用字母、数字或连字符。
      • 字母必须小写。
      • 连接名称必须以字母开头,以字母或数字结尾。
      • 连接名称不能超过 63 个字符。
    4. (可选)输入连接实例的说明
    5. 服务账号:选择具有所需角色的服务账号。
    6. (可选)配置连接节点设置

      • 节点数下限:输入连接节点数下限。
      • 节点数上限:输入连接节点数上限。

      节点是处理事务的连接单元(或副本)。 连接处理越多事务就需要越多节点,相反,处理越少事务需要越少节点。 如需了解节点如何影响连接器价格,请参阅连接节点的价格。如果未输入任何值,则默认情况下,节点数下限设置为 2(以便提高可用性),节点数上限设置为 50。

    7. 帐号:此属性指定 Azure 数据湖存储帐号的名称。
    8. Directory:此属性会指定列出文件和文件夹的根路径。
    9. File System:此属性用于指定将在第 2 代存储帐号中使用的 FileSystem 的名称。例如,Azure blob 容器的名称。
    10. 分块大小:上传大型文件时要使用的分块大小(以 MB 为单位)。
    11. Include Sub Directories(包括子目录):选择是否应在 ADLSGen2 架构的“资源”视图中列出子目录路径。
    12. (可选)点击 + 添加标签,以键值对的形式向连接添加标签。
    13. 点击下一步
  5. Authentication(身份验证)部分中,输入身份验证详细信息。
    1. 选择身份验证类型,然后输入相关详细信息。

      Azure 数据湖连接支持以下身份验证类型:

      • 共享访问签名
      • 账号访问密钥
    2. 如需了解如何配置这些身份验证类型,请参阅配置身份验证

    3. 点击下一步
  6. 查看:查看您的连接和身份验证详细信息。
  7. 点击创建

配置身份验证

根据您要使用的身份验证输入详细信息。

  • 共享访问签名

    如果您要使用匿名登录,请选择不可用

    • Shared Access Signature:包含共享访问签名的 Secret Manager Secret。
  • 账号访问密钥

    如果您要使用匿名登录,请选择不可用

    • Account Access Key:包含帐号访问密钥的 Secret Manager Secret。

实体、操作和动作

所有集成连接器都会为所连接应用的对象提供抽象层。您只能通过此抽象访问应用的对象。抽象作为实体、操作和动作向您展示。

  • 实体:实体可以被视为连接的应用或服务中的对象或属性集合。不同连接器的实体定义也会有所不同。例如,在数据库连接器中,表是实体;在文件服务器连接器中,文件夹是实体;在消息传递系统连接器中,队列是实体。

    但是,连接器可能不支持或不支持任何实体,在这种情况下,Entities 列表将为空。

  • 操作:操作是指您可以对实体执行的操作。您可以对实体执行以下任一操作:

    从可用列表中选择一个实体,系统会生成该实体可用的操作列表。如需了解操作的详细说明,请参阅连接器任务的实体操作。但是,如果连接器不支持任何实体操作,则 Operations 列表中不会列出此类不受支持的操作。

  • 动作:动作是可通过连接器接口提供给集成的头等函数。动作可让您对一个或多个实体进行更改,并且动作因连接器而异。通常,操作有一些输入参数和一个输出参数。但可能的情况是,连接器不支持任何动作,在这种情况下,Actions 列表将为空。

系统限制

Azure 数据湖连接器为每个节点每秒可以处理 5 个事务,并对超出此限制的任何事务进行限制。默认情况下,Integration Connectors 会为连接分配 2 个节点(以提高可用性)。

如需了解适用于 Integration Connectors 的限制,请参阅限制

操作

本部分列出了该连接器支持的操作。如需了解如何配置操作,请参阅操作示例

DownloadFile 操作

通过此操作,您可以从目录或容器中下载特定 blob 的内容。

DownloadFile 操作的输入参数

参数名称 数据类型 必填 说明
路径 字符串 要下载的文件的路径(包括文件名)。示例:
  • FILE_NAME
  • dir1/FILE_NAME
  • dir1/dir2/FILE_NAME
HasBytes 布尔值 是否以字节形式(Base64 格式)下载内容。
  • 如需下载非文本文件(如 .pdf.xls.docx),您必须将 HasBytes 设置为 true
  • 如需下载文本文件,您可以将 HasBytes 设置为 truefalse。如果将该值设置为 true,则系统会将文本内容下载为字节(Base64 格式)。
此参数的默认值为 false

DownloadFile 操作的输出参数

如果操作成功,则返回文件或 blob 的内容。

有关如何配置 DownloadFile 操作的示例,请参阅操作示例

CreateFile 操作

通过此操作,您可以在容器或目录中创建 Blob 或文件。

CreateFile 操作的输入参数

参数名称 数据类型 必填 说明
路径 字符串 要创建的文件的路径。

如需查看有关如何配置 CreateFile 操作的示例,请参阅操作示例

CopyFile 操作

通过此操作,您可以将文件或 blob 的内容复制到同一容器或目录中的其他文件或 blob。

CopyFile 操作的输入参数

参数名称 数据类型 必填 说明
SourcePath 字符串 要复制的文件的路径。
DestinationPath 字符串 要在其中复制该文件的路径。

有关如何配置 CopyFile 操作的示例,请参阅操作示例

DeleteObject 操作

通过此操作,您可以删除文件或 blob。

DeleteObject 操作的输入参数

参数名称 数据类型 必填 说明
Recursive 字符串 将此项设为 true 可删除该文件夹的所有内容(包括所有子文件夹)。
路径 字符串 要删除的文件或文件夹的路径。
DeleteType 字符串
  • 将此项设为 FILESANDFOLDERS,以删除 Path 参数中指定的文件或文件夹。
  • 如果将此项设为 FILES,则系统将仅删除 Path 参数中指定的文件夹内的文件。

有关如何配置 DeleteObject 操作的示例,请参阅操作示例

LeaseBlob 操作

通过此操作,您可以创建和管理对 blob 的锁定。

LeaseBlob 操作的输入参数

参数名称 数据类型 必填 说明
路径 字符串 文件的路径。
LeaseAction 字符串 指定要执行的租借操作。
LeaseDuration 整数 指定租用的时长。

如需查看有关如何配置 LeaseBlob 操作的示例,请参阅操作示例

UploadFile 操作

通过此操作,用户可以将内容上传到特定 Blob 或容器。

UploadFile 操作的输入参数

参数名称 数据类型 必填 说明
路径 字符串 要上传的文件的路径。
HasBytes 布尔值 是否以字节形式上传内容。
内容 字符串 要上传的内容。

如需查看有关如何配置 UploadFile 操作的示例,请参阅操作示例

重命名对象操作

通过此操作,您可以重命名文件或文件夹。

重命名对象操作的输入参数

参数名称 数据类型 必填 说明
路径 字符串 要重命名的路径。
RenameTo 字符串 文件或文件夹的新名称。

如需查看有关如何配置 RenameObject 操作的示例,请参阅操作示例

操作示例

示例 - 下载文件

本示例下载了一个二进制文件。

  1. Configure connector task 对话框中,点击 Actions
  2. 选择 DownloadFile 操作,然后点击完成
  3. 连接器任务的任务输入部分中,点击 connectorInputPayload,然后在 Default Value 字段中输入类似于以下内容的值:
    {
    "Path": "testdirectory1/test1.pdf",
    "HasBytes": true
    }
  4. 如果操作成功,DownloadFile 任务的 connectorOutputPayload 响应参数的值将如下所示:

    [{
    "Success": "True",
    "ContentBytes": "UEsDBBQABgAIAAAAIQCj77sdZQEAAFIFAAATAAgCW0NvbnRlbnRfVHlwZXNdLnhtbCCiBAIooA"
    }]

示例 - 上传文件

此示例将内容作为 blob 上传。

  1. Configure connector task 对话框中,点击 Actions
  2. 选择 UploadFile 操作,然后点击完成
  3. 连接器任务的任务输入部分中,点击 connectorInputPayload,然后在 Default Value 字段中输入类似于以下内容的值:
    {
    "Path": "testblob4",
    "HasBytes": true,
    "Content": "abcdef\nabcdef"
    }
  4. 如果操作成功,UploadFile 任务的 connectorOutputPayload 响应参数的值将如下所示:

    [{
    "Success": "true"
    }]

示例 - 创建文件

本示例会在指定目录中创建一个文件。

  1. Configure connector task 对话框中,点击 Actions
  2. 选择 CreateFile 操作,然后点击完成
  3. 连接器任务的任务输入部分中,点击 connectorInputPayload,然后在 Default Value 字段中输入类似于以下内容的值:
    {
    "path": "testdirectory1/testblob"
    }
  4. 如果操作成功,CreateFile 任务的 connectorOutputPayload 响应参数的值将如下所示:

    [{
    "Success": "true"
    }]

示例 - 复制文件

此示例将文件从一个位置复制到另一个位置。

  1. Configure connector task 对话框中,点击 Actions
  2. 选择 CopyFile 操作,然后点击完成
  3. 连接器任务的任务输入部分中,点击 connectorInputPayload,然后在 Default Value 字段中输入类似于以下内容的值:
    {
    "SourcePath": "testdirectory1/testblob",
    "DestinationPath": "testblob"
    }
  4. 如果操作成功,CopyFile 任务的 connectorOutputPayload 响应参数的值将如下所示:

    [{
    "Success": "true"
    }]

示例 - 删除 blob

此示例将删除指定的 blob。

  1. Configure connector task 对话框中,点击 Actions
  2. 选择 DeleteObject 操作,然后点击完成
  3. 连接器任务的任务输入部分中,点击 connectorInputPayload,然后在 Default Value 字段中输入类似于以下内容的值:
    {
    "path": "testdirectory1/testblob"
    }
  4. 如果操作成功,DeleteObject 任务的 connectorOutputPayload 响应参数的值将如下所示:

    [{
    "Success": "true"
    }]

示例 - 租用 blob

本示例租用了指定的 blob。

  1. Configure connector task 对话框中,点击 Actions
  2. 选择 LeaseBlob 操作,然后点击完成
  3. 连接器任务的任务输入部分中,点击 connectorInputPayload,然后在 Default Value 字段中输入类似于以下内容的值:
    {
    "Path": "testblob2",
    "LeaseAction": "Acquire",
    "LeaseDuration": 60.0
    }
  4. 如果操作成功,LeaseBlob 任务的 connectorOutputPayload 响应参数的值将如下所示:

    [{
    "LeaseId": "7aae9ca2-f015-41b6-9bdf-5fd3401fc493",
    "Success": "true"
    }]

示例 - 重命名 blob

此示例对 blob 进行了重命名。

  1. Configure connector task 对话框中,点击 Actions
  2. 选择 RenameObject 操作,然后点击完成
  3. 连接器任务的任务输入部分中,点击 connectorInputPayload,然后在 Default Value 字段中输入类似于以下内容的值:
    {
    "Path": "testblob",
    "RenameTo": "testblob6"
    }
  4. 如果操作成功,RenameObject 任务的 connectorOutputPayload 响应参数的值将如下所示:

    [{
    "Success": true
    }]

实体操作示例

本部分介绍如何在此连接器中执行某些实体操作。

示例 - 列出所有记录

以下示例列出了 Resource 实体中的所有记录。

  1. Configure connector task 对话框中,点击 Entities
  2. Entity 列表中选择 Resource
  3. 选择 List 操作,然后点击完成
  4. (可选)在连接器任务的任务输入部分,您可以通过指定过滤条件子句来过滤结果集。始终用英文单引号 (') 指定过滤条件子句值。

示例 - 获取记录

此示例从 Resource 实体中获取具有指定 ID 的记录。

  1. Configure connector task 对话框中,点击 Entities
  2. Entity 列表中选择 Resource
  3. 选择 Get 操作,然后点击完成
  4. 连接器任务的任务输入部分中,点击 EntityId,然后在默认值字段中输入 testdirectory1/testblob1

    其中,testdirectory1/testblob1Resource 实体中的唯一记录 ID。

在集成中使用 Azure 数据湖连接

创建连接后,它在 Apigee Integration 和 Application Integration 中都可用。您可以通过连接器任务在集成中使用该连接。

  • 如需了解如何在 Apigee Integration 中创建和使用连接器任务,请参阅连接器任务
  • 如需了解如何在 Application Integration 中创建和使用连接器任务,请参阅连接器任务

向 Google Cloud 社区寻求帮助

您可以在 Cloud 论坛的 Google Cloud 社区中发布问题和讨论此连接器。

后续步骤