本页面介绍如何创建和管理 AML AI 数据集。数据集用作训练、预测和回测流水线的输入。数据集包含对 Google Cloud 项目中 BigQuery 表的引用。
此时您只需创建数据集。为方便起见,还提供了其他数据集方法。
须知事项
-
如需获取创建和管理数据集所需的权限,请让管理员授予您项目的 Financial Services Admin (
financialservices.admin
) IAM 角色。 如需详细了解如何授予角色,请参阅管理访问权限。 - 创建实例
创建数据集
某些 API 方法会返回长时间运行的操作 (LRO)。这些方法是异步的。当该方法返回响应时,操作可能未完成。对于这些方法,请发送请求,然后检查结果。
发送请求
如需创建数据集,请使用 projects.locations.instances.datasets.create
方法。
在使用任何请求数据之前,请先进行以下替换:
PROJECT_ID
:IAM 设置中列出的 Google Cloud 项目 IDLOCATION
:实例的位置;请使用某个支持的区域:us-central1
us-east1
europe-west1
europe-west2
europe-west4
southamerica-east1
INSTANCE_ID
:用户定义的实例标识符DATASET_ID
:用户定义的 AML AI 数据集的标识符;只能使用小写字母、数字、短划线和下划线(例如train_jan2018_apr2020
)BQ_INPUT_DATASET_NAME
:BigQuery 输入数据集名称PARTY_TABLE
:BigQuery 输入数据集中的 Party 表ACCOUNT_PARTY_LINK_TABLE
:BigQuery 输入数据集中的 AccountPartyLink 表TRANSACTION_TABLE
:BigQuery 输入数据集中的 Transaction 表RISK_CASE_EVENT_TABLE
:BigQuery 输入数据集中的 RiskCaseEvent 表PARTY_SUPPLEMENTARY_DATA
:BigQuery 输入数据集中的 PartySupplementaryData 表;此表是可选的,可以从请求 JSON 中移除DATA_START_DATE
:要在数据集内使用的数据的开始日期和时间;使用 RFC3339 世界协调时间 (UTC)“祖鲁语”格式(例如2014-10-02T15:01:23Z
)DATA_END_DATE
:要在数据集内使用的数据的结束日期和时间;使用 RFC3339 世界协调时间 (UTC)“祖鲁语”格式(例如2014-10-02T15:01:23Z
)
请求 JSON 正文:
{ "tableSpecs": { "party": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_TABLE", "account_party_link": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.ACCOUNT_PARTY_LINK_TABLE", "transaction": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.TRANSACTION_TABLE", "risk_case_event": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.RISK_CASE_EVENT_TABLE", "party_supplementary_data": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_SUPPLEMENTARY_DATA" }, "dateRange": { "startTime": "DATA_START_DATE", "endTime": "DATA_END_DATE" }, "timeZone": { "id": "UTC" } }
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.financialservices.v1.OperationMetadata", "createTime": CREATE_TIME, "target": "projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID/datasets/DATASET_ID", "verb": "create", "requestedCancellation": false, "apiVersion": "v1" }, "done": false }
查看结果
使用 projects.locations.operations.get
方法检查是否已创建数据集。如果响应包含 "done": false
,请重复该命令,直到响应包含 "done": true
。这些操作可能需要几分钟到几小时才能完成。
在使用任何请求数据之前,请先进行以下替换:
PROJECT_ID
:IAM 设置中列出的 Google Cloud 项目 IDLOCATION
:实例的位置;请使用支持的区域之一:us-central1
us-east1
europe-west1
europe-west2
europe-west4
southamerica-east1
OPERATION_ID
:操作的标识符
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.financialservices.v1.OperationMetadata", "createTime": CREATE_TIME, "endTime": END_TIME, "target": "projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID", "verb": "create", "requestedCancellation": false, "apiVersion": "v1" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.financialservices.v1.Dataset", "name": "projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID/datasets/DATASET_ID", "createTime": CREATE_TIME, "updateTime": UPDATE_TIME, "tableSpecs": { "party": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_TABLE", "account_party_link": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.ACCOUNT_PARTY_LINK_TABLE", "transaction": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.TRANSACTION_TABLE", "risk_case_event": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.RISK_CASE_EVENT_TABLE", "party_supplementary_data": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_SUPPLEMENTARY_DATA" }, "state": "ACTIVE", "dateRange": { "start_time": "DATA_START_DATE", "end_time": "DATA_END_DATE" }, "timeZone": { "id": "UTC" } } }
获取数据集
如需获取数据集,请使用 projects.locations.instances.datasets.get
方法。
在使用任何请求数据之前,请先进行以下替换:
PROJECT_ID
:IAM 设置中列出的 Google Cloud 项目 IDLOCATION
:实例的位置;请使用支持的区域之一:us-central1
us-east1
europe-west1
europe-west2
europe-west4
southamerica-east1
INSTANCE_ID
:用户定义的实例标识符DATASET_ID
:用户定义的数据集标识符
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "name": "projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID/datasets/DATASET_ID", "createTime": CREATE_TIME, "updateTime": UPDATE_TIME, "tableSpecs": { "party": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_TABLE", "account_party_link": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.ACCOUNT_PARTY_LINK_TABLE", "transaction": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.TRANSACTION_TABLE", "risk_case_event": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.RISK_CASE_EVENT_TABLE", "party_supplementary_data": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_SUPPLEMENTARY_DATA" }, "state": "ACTIVE", "dateRange": { "start_time": "DATA_START_DATE", "end_time": "DATA_END_DATE" }, "timeZone": { "id": "UTC" } }
更新数据集
如需更新数据集,请使用 projects.locations.instances.datasets.patch
方法。
并非所有字段都可以更新。以下示例会更新与数据集关联的键值对用户标签。
在使用任何请求数据之前,请先进行以下替换:
PROJECT_ID
:IAM 设置中列出的 Google Cloud 项目 IDLOCATION
:实例的位置;请使用支持的区域之一:us-central1
us-east1
europe-west1
europe-west2
europe-west4
southamerica-east1
INSTANCE_ID
:用户定义的实例标识符DATASET_ID
:用户定义的数据集标识符KEY
:键值对中用于整理数据集的键。如需了解详情,请参阅labels
。VALUE
:用于整理数据集的键值对中的值。如需了解详情,请参阅labels
。
请求 JSON 正文:
{ "labels": { "KEY": "VALUE" } }
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.financialservices.v1.OperationMetadata", "createTime": CREATE_TIME, "target": "projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID/datasets/DATASET_ID", "verb": "update", "requestedCancellation": false, "apiVersion": "v1" }, "done": false }
如需详细了解如何获取长时间运行的操作 (LRO) 的结果,请参阅检查结果。
列出数据集
如需列出给定实例的数据集,请使用 projects.locations.instances.datasets.list
方法。
在使用任何请求数据之前,请先进行以下替换:
PROJECT_ID
:IAM 设置中列出的 Google Cloud 项目 IDLOCATION
:实例的位置;请使用支持的区域之一:us-central1
us-east1
europe-west1
europe-west2
europe-west4
southamerica-east1
INSTANCE_ID
:用户定义的实例标识符
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "datasets": [ { "name": "projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID/datasets/DATASET_ID", "createTime": CREATE_TIME, "updateTime": UPDATE_TIME, "tableSpecs": { "party": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_TABLE", "account_party_link": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.ACCOUNT_PARTY_LINK_TABLE", "transaction": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.TRANSACTION_TABLE", "risk_case_event": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.RISK_CASE_EVENT_TABLE", "party_supplementary_data": "bq://PROJECT_ID.BQ_INPUT_DATASET_NAME.PARTY_SUPPLEMENTARY_DATA" }, "state": "ACTIVE", "dateRange": { "start_time": "DATA_START_DATE", "end_time": "DATA_END_DATE" }, "timeZone": { "id": "UTC" } } ] }
删除数据集
如需删除数据集,请使用 projects.locations.instances.datasets.delete
方法。
在使用任何请求数据之前,请先进行以下替换:
PROJECT_ID
:IAM 设置中列出的 Google Cloud 项目 IDLOCATION
:实例的位置;请使用支持的区域之一:us-central1
us-east1
europe-west1
europe-west2
europe-west4
southamerica-east1
INSTANCE_ID
:用户定义的实例标识符DATASET_ID
:用户定义的数据集标识符
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "name": "projects/PROJECT_ID/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.financialservices.v1.OperationMetadata", "createTime": CREATE_TIME, "target": "projects/PROJECT_ID/locations/LOCATION/instances/INSTANCE_ID/datasets/DATASET_ID", "verb": "delete", "requestedCancellation": false, "apiVersion": "v1" }, "done": false }
如需详细了解如何获取长时间运行的操作 (LRO) 的结果,请参阅检查结果。