Azure 数据湖存储
通过 Azure Data Lake Storage 连接器,您可以连接到 Azure Data Lake Storage 并使用 SQL 检索和更新 Azure Data Lake Storage 数据。
准备工作
在使用 Azure Data Lake Storage 连接器之前,请执行以下任务:
- 在您的 Google Cloud 项目中:
- 将 IAM 角色 roles/connectors.admin 授予该用户 配置连接器。
- 将以下 IAM 角色授予您要用其来使用连接器的服务账号:
roles/secretmanager.viewer
roles/secretmanager.secretAccessor
服务账号是一种特殊类型的 Google 账号,用于表示需要验证身份并获得授权以访问 Google API 数据的非人类用户。如果您没有服务账号,则必须创建一个服务账号。如需了解详情,请参阅创建服务账号。
- 启用以下服务:
secretmanager.googleapis.com
(Secret Manager API)connectors.googleapis.com
(Connectors API)
如需了解如何启用服务,请参阅启用服务。
如果之前没有为您的项目启用这些服务或权限,则在您配置连接器时,系统会提示您启用。
配置连接器
配置连接器时,您需要创建与数据源(即后端系统)的连接。一个连接需专用于一个数据源。这意味着,如果您有许多数据源,则必须为每个数据源创建单独的连接。如需创建连接,请执行以下步骤:
- 在 Cloud 控制台 中,进入 Integration Connectors > 连接页面,然后选择或创建一个 Google Cloud 项目。
- 点击 + 新建以打开创建连接页面。
- 在位置部分中,选择连接的位置。
- 区域:从下拉列表中选择一个位置。
支持的连接器区域包括:
如需查看所有受支持区域的列表,请参阅位置。
- 点击下一步。
- 区域:从下拉列表中选择一个位置。
- 在连接详情部分中,完成以下操作:
- 连接器:从可用连接器的下拉列表中选择 Azure Data Lake Storage。
- 连接器版本:从可用版本的下拉列表中选择一个连接器版本。
- 在连接名称字段中,输入连接实例的名称。
连接名称必须符合以下条件:
- 连接名称可以使用字母、数字或连字符。
- 字母必须小写。
- 连接名称必须以字母开头,以字母或数字结尾。
- 连接名称不能超过 49 个字符。
- (可选)输入连接实例的说明。
- (可选)启用 Cloud Logging。
然后选择一个日志级别默认情况下,日志级别设置为
Error
。 - 服务账号:选择具有所需角色的服务账号。
- (可选)配置连接节点设置:
- 节点数下限:输入连接节点数下限。
- 节点数上限:输入连接节点数上限。
节点是处理事务的连接单元(或副本)。 连接处理越多事务就需要越多节点,相反,处理越少事务需要越少节点。 如需了解节点如何影响连接器价格,请参阅连接节点的价格。如果未输入任何值,则默认情况下,节点数下限设置为 2(以便提高可用性),节点数上限设置为 50。
- 账号:此属性指定 Azure Data Lake Storage 账号的名称。
- 目录:此属性用于指定用于列出文件和文件夹的根路径。
- File System:此属性用于指定将在第 2 代存储账号中使用的 FileSystem 的名称。例如 Azure Blob 容器的名称。
- 分块大小:上传大型文件时要使用的分块大小(以 Mb 为单位)。
- Include Sub Directories(包括子目录):选择是否应在 ADLSGen2 架构的“资源”视图中列出子目录路径。
- (可选)点击 + 添加标签,以键值对的形式向连接添加标签。
- 点击下一步。
-
在身份验证部分中,输入身份验证详细信息。
- 选择身份验证类型,然后输入相关详细信息。
Azure Data Lake Storage 连接支持以下身份验证类型:
- 共享访问签名
- 账号访问密钥
- 点击下一步。
如需了解如何配置这些身份验证类型,请参阅配置身份验证。
- 选择身份验证类型,然后输入相关详细信息。
- 查看:查看您的连接和身份验证详细信息。
- 点击创建。
配置身份验证
根据您要使用的身份验证输入详细信息。
-
共享访问权限签名
如果您要使用匿名登录,请选择不可用。
- 共享访问签名:包含共享访问签名的 Secret Manager Secret。
-
账号访问密钥
如果您要使用匿名登录,请选择不可用。
- 账号访问密钥:包含账号访问密钥的 Secret Manager Secret。
实体、操作和动作
所有集成连接器都会为所连接应用的对象提供抽象层。您只能通过此抽象访问应用的对象。抽象作为实体、操作和动作向您展示。
- 实体:实体可以被视为连接的应用或服务中的对象或属性集合。不同连接器的实体定义也会有所不同。例如,在数据库连接器中,表是实体;在文件服务器连接器中,文件夹是实体;在消息传递系统连接器中,队列是实体。
但是,连接器可能不支持或不支持任何实体,在这种情况下, “
Entities
”列表将为空。 - 操作:操作是指您可以对实体执行的操作。您可以对实体执行以下任一操作:
从可用列表中选择一个实体,系统会生成该实体可用的操作列表。如需了解操作的详细说明,请参阅连接器任务的实体操作。但是,如果连接器不支持任何实体操作, 操作未在
Operations
列表中列出。 - 动作:动作是可通过连接器接口提供给集成的头等函数。动作可让您对一个或多个实体进行更改,并且动作因连接器而异。通常,操作有一些输入参数和一个输出
参数。但可能的情况是,连接器不支持任何动作,在这种情况下,
Actions
列表将为空。
系统限制
Azure Data Lake Storage 连接器每秒可以处理 5 个事务, 每节点, 并throttles任何事务 。 默认情况下,Integration Connectors 会为连接分配 2 个节点(以提高可用性)。
如需了解适用于 Integration Connectors 的限制,请参阅限制。
操作
本部分列出了该连接器支持的操作。要了解如何配置 操作,请参阅操作示例。
DownloadFile 操作
借助此操作,您可以从目录或容器下载特定 blob 的内容。
DownloadFile 操作的输入参数
参数名称 | 数据类型 | 必填 | 说明 |
---|---|---|---|
路径 | 字符串 | 是 | 要下载的文件的路径(包括文件名)。示例:
|
HasBytes | 布尔值 | 否 | 是否以字节形式(Base64 格式)下载内容。
false 。
|
DownloadFile 操作的输出参数
如果操作成功,则会返回文件或 Blob 的内容。
如需了解如何配置 DownloadFile
操作,请参阅操作示例。
CreateFile 操作
借助此操作,您可以在容器或目录中创建 Blob 或文件。
CreateFile 操作的输入参数
参数名称 | 数据类型 | 必填 | 说明 |
---|---|---|---|
路径 | 字符串 | 是 | 要创建的文件的路径。 |
例如,关于如何配置 CreateFile
操作,
请参阅操作示例。
CopyFile 操作
通过此操作,您可以将文件或 blob 的内容复制到同一容器或目录中的其他文件或 blob。
CopyFile 操作的输入参数
参数名称 | 数据类型 | 必填 | 说明 |
---|---|---|---|
来源路径 | 字符串 | 是 | 要复制的文件的路径。 |
DestinationPath | 字符串 | 是 | 要在其中复制该文件的路径。 |
如需了解如何配置 CopyFile
操作,请参阅操作示例。
DeleteObject 操作
通过此操作,您可以删除文件或 blob。
DeleteObject 操作的输入参数
参数名称 | 数据类型 | 必填 | 说明 |
---|---|---|---|
Recursive | 字符串 | 否 | 将此值设为 true 可删除文件夹的所有内容,包括所有子文件夹。 |
路径 | 字符串 | 是 | 要删除的文件或文件夹的路径。 |
DeleteType | 字符串 | 是 |
|
例如,关于如何配置 DeleteObject
操作,
请参阅操作示例。
LeaseBlob 操作
通过此操作,您可以创建和管理对 blob 的锁定。
LeaseBlob 操作的输入参数
参数名称 | 数据类型 | 必填 | 说明 |
---|---|---|---|
路径 | 字符串 | 是 | 文件的路径。 |
LeaseAction | 字符串 | 是 | 指定要执行的租约操作。 |
LeaseDuration | 整数 | 是 | 指定租用的持续时间。 |
如需了解如何配置 LeaseBlob
操作,请参阅操作示例。
UploadFile 操作
通过此操作,用户可以将内容上传到特定 Blob 或容器。
UploadFile 操作的输入参数
参数名称 | 数据类型 | 必填 | 说明 |
---|---|---|---|
路径 | 字符串 | 是 | 要上传的文件的路径。 |
HasBytes | 布尔值 | 否 | 是否以字节的形式上传内容。 |
内容 | 字符串 | 是 | 要上传的内容。 |
如需了解如何配置 UploadFile
操作,请参阅操作示例。
RenameObject 操作
通过此操作,您可以重命名文件或文件夹。
RenameObject 操作的输入参数
参数名称 | 数据类型 | 必填 | 说明 |
---|---|---|---|
路径 | 字符串 | 是 | 要重命名的路径。 |
RenameTo | 字符串 | 是 | 文件或文件夹的新名称。 |
例如,关于如何配置 RenameObject
操作,
请参阅操作示例。
操作示例
示例 - 下载文件
此示例会下载二进制文件。
- 在
Configure connector task
对话框中,点击Actions
。 - 选择
DownloadFile
操作,然后点击完成。 - 在连接器任务的任务输入部分中,点击
connectorInputPayload
,然后在Default Value
字段中输入类似于以下内容的值:{ "Path": "testdirectory1/test1.pdf", "HasBytes": true }
如果操作成功,DownloadFile
任务的 connectorOutputPayload
响应参数的值将类似于以下内容:
[{ "Success": "True", "ContentBytes": "UEsDBBQABgAIAAAAIQCj77sdZQEAAFIFAAATAAgCW0NvbnRlbnRfVHlwZXNdLnhtbCCiBAIooA" }]
示例 - 上传文件
此示例将内容作为 Blob 上传内容。
- 在
Configure connector task
对话框中,点击Actions
。 - 选择
UploadFile
操作,然后点击完成。 - 在连接器任务的任务输入部分,点击
connectorInputPayload
,然后在Default Value
字段:{ "Path": "testblob4", "HasBytes": true, "Content": "abcdef\nabcdef" }
如果操作成功,UploadFile
任务的 connectorOutputPayload
响应参数的值将类似于以下内容:
[{ "Success": "true" }]
示例 - 创建文件
此示例会在指定目录中创建一个文件。
- 在
Configure connector task
对话框中,点击Actions
。 - 选择
CreateFile
操作,然后点击完成。 - 在连接器任务的任务输入部分中,点击
connectorInputPayload
,然后在Default Value
字段中输入类似于以下内容的值:{ "path": "testdirectory1/testblob" }
如果操作成功,CreateFile
任务的 connectorOutputPayload
响应参数的值将类似于以下内容:
[{ "Success": "true" }]
示例 - 复制文件
此示例会将文件从一个位置复制到另一个位置。
- 在
Configure connector task
对话框中,点击Actions
。 - 选择
CopyFile
操作,然后点击完成。 - 在连接器任务的任务输入部分,点击
connectorInputPayload
,然后在Default Value
字段:{ "SourcePath": "testdirectory1/testblob", "DestinationPath": "testblob" }
如果操作成功,
CopyFile
任务的 connectorOutputPayload
响应
参数的值类似于以下内容:
[{ "Success": "true" }]
示例 - 删除 blob
此示例将删除指定的 blob。
- 在
Configure connector task
对话框中,点击Actions
。 - 选择
DeleteObject
操作,然后点击完成。 - 在连接器任务的任务输入部分,点击
connectorInputPayload
,然后在Default Value
字段:{ "path": "testdirectory1/testblob" }
如果操作成功,
DeleteObject
任务的 connectorOutputPayload
响应
参数的值类似于以下内容:
[{ "Success": "true" }]
示例 - 租用 Blob
本示例租用了指定的 blob。
- 在
Configure connector task
对话框中,点击Actions
。 - 选择
LeaseBlob
操作,然后点击完成。 - 在连接器任务的任务输入部分中,点击
connectorInputPayload
,然后在Default Value
字段中输入类似于以下内容的值:{ "Path": "testblob2", "LeaseAction": "Acquire", "LeaseDuration": 60.0 }
如果操作成功,
LeaseBlob
任务的 connectorOutputPayload
响应
参数的值类似于以下内容:
[{ "LeaseId": "7aae9ca2-f015-41b6-9bdf-5fd3401fc493", "Success": "true" }]
示例 - 重命名 blob
此示例对 blob 进行了重命名。
- 在
Configure connector task
对话框中,点击Actions
。 - 选择
RenameObject
操作,然后点击完成。 - 在连接器任务的任务输入部分中,点击
connectorInputPayload
,然后在Default Value
字段中输入类似于以下内容的值:{ "Path": "testblob", "RenameTo": "testblob6" }
如果操作成功,
RenameObject
任务的 connectorOutputPayload
响应
参数的值类似于以下内容:
[{ "Success": true }]
实体操作示例
本部分介绍如何在此连接器中执行某些实体操作。
示例 - 列出所有记录
此示例列出了 Resource
实体中的所有记录。
- 在
Configure connector task
对话框中,点击Entities
。 - 从
Entity
列表中选择Resource
。 - 选择
List
操作,然后点击 完成。 - 您还可以在连接器任务的任务输入部分中,通过指定过滤条件子句来过滤结果集。 请务必使用英文单引号 (') 指定过滤条件子句值。
示例 - 获取记录
此示例会从 Resource
实体中获取指定 ID 的记录。
- 在
Configure connector task
对话框中,点击Entities
。 - 从
Entity
列表中选择Resource
。 - 选择
Get
操作,然后点击 完成。 - 在连接器任务的任务输入部分,点击 EntityId,然后在默认值字段中输入
testdirectory1/testblob1
。其中,
testdirectory1/testblob1
是Resource
实体中的唯一记录 ID。
在集成中使用 Azure Data Lake Storage 连接
创建连接后,该连接将在 Apigee Integration 和 Application Integration 中可用。您可以使用连接 通过连接器任务在集成中进行集成。