GcsSource
JSON 表示法 |
{
"inputUris": [
string
],
"dataSchema": string
} |
字段 |
inputUris[] |
string
必需。输入文件的 Cloud Storage URI。每个 URI 最多可包含 2,000 个字符。URI 可以与完整对象路径(例如 gs://bucket/directory/object.json )匹配,也可以与匹配一个或多个文件的模式(例如 gs://bucket/directory/*.json )匹配。 一个请求最多可包含 100 个文件(如果 dataSchema 为 content ,则最多可包含 10 万个文件)。每个文件的大小上限为 2 GB(如果 dataSchema 为 content ,则上限为 100 MB)。
|
dataSchema |
string
从来源解析数据时要使用的架构。 支持的文档导入值:
document (默认):每行一个 JSON Document 。每个文档都必须具有有效的 Document.id 。
content :非结构化数据(例如 PDF、HTML)。inputUris 匹配的每个文件都会成为一个文档,其 ID 设置为 SHA256(URI) 的前 128 位(以十六进制字符串形式编码)。
custom :每行一个自定义数据 JSON,采用符合数据存储区定义的 Schema 的任意格式。此功能只能由“宽泛”数据存储区垂直行业使用。
csv :一个 CSV 文件,其标头符合数据存储区的已定义 Schema 。标题后的每个条目都会作为文档导入。此功能只能由“宽泛”数据存储区垂直行业使用。
支持的用户事件导入值:
|
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-10-19。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-10-19。"],[],[]]