REST Resource: documents

资源:Document

表示 API 方法的输入。

JSON 表示法
{
  "type": enum (Type),
  "language": string,
  "referenceWebUri": string,
  "boilerplateHandling": enum (BoilerplateHandling),

  // Union field source can be only one of the following:
  "content": string,
  "gcsContentUri": string
  // End of list of possible types for union field source.
}
字段
type

enum (Type)

必需。如果类型未设置或为 TYPE_UNSPECIFIED,则返回 INVALID_ARGUMENT 错误。

language

string

文档的语言(如果未指定,系统会自动检测语言)。接受 ISO 和 BCP-47 语言代码。
语言支持列出了每种 API 方法当前支持的语言。如果调用的 API 方法不支持该语言(由调用方指定或自动检测到的语言),系统会返回 INVALID_ARGUMENT 错误。

referenceWebUri

string

文档的来源网络 URI。此 URI 不用于提取内容,而是作为分析文档的提示。

boilerplateHandling

enum (BoilerplateHandling)

指明应如何处理此文档中检测到的样本内容(例如广告、版权声明、横幅)。如果未指定,系统会将样本内容与内容视为同等。

联合字段 source。文档的来源:包含内容或 Google Cloud Storage URI 的字符串。source 只能是下列其中一项:
content

string

输入的内容(字符串格式)。 Cloud Audit Logging 基于用户数据,因此无需满足此要求。

gcsContentUri

string

文件内容所在的 Google Cloud Storage URI。 此 URI 必须为如下形式:gs://bucketName/object_name。如需了解详情,请参阅 https://cloud.google.com/storage/docs/reference-uris。注意:不支持 Cloud Storage 对象版本控制。

类型

文档类型枚举。

枚举
TYPE_UNSPECIFIED 未指定内容类型。
PLAIN_TEXT 纯文本
HTML HTML

BoilerplateHandling

处理文档中检测到的样本文本的方法

枚举
BOILERPLATE_HANDLING_UNSPECIFIED 未指定样板处理。
SKIP_BOILERPLATE 不分析检测到的样板内容。必须提供参考网页 URI 才能检测样本代码。
KEEP_BOILERPLATE 将样本内容视为内容。

方法

analyzeEntities

查找文本中的命名实体(当前为专有名词和普通名词),以及实体类型、显著性、每个实体的提及和其他属性。

analyzeEntitySentiment

查找文本中与 AnalyzeEntities 类似的实体,分析与每个实体及其提及关联的情感。

analyzeSentiment

分析所提供的文本的情感。

analyzeSyntax

分析文本的语法,提供句子边界和词法单元以及词性标记、依存关系树和其他属性。

annotateText

在一次调用中提供所有语法、情感、实体和分类功能的便捷方法。

classifyText

将文档进行分类。

moderateText

审核文档是否包含有害和敏感内容。