文本审核功能会根据安全属性列表(包括“有害类别”和可能被视为敏感的主题)来分析文档。管理
调用 moderateText
方法,
以下是 moderateText
方法返回的分类的完整列表:
安全属性 | 说明 |
---|---|
有害内容 | 粗鲁、无礼或不合理的内容。 |
诋毁性内容 | 针对身份和/或受保护属性的负面或有害评论。 |
暴力内容 | 描述描绘针对个人或团体的暴力行为的场景,或一般性血腥描述。 |
色情内容 | 包含对性行为或其他淫秽内容的引用。 |
侮辱内容 | 对一个人或一群人的侮辱性、煽动性或负面评论。 |
脏话 | 下流或粗俗的语言,例如咒骂。 |
死亡、伤害和悲剧 | 人类死亡、不幸、事故、灾难和自残。 |
枪支与武器 | 提及刀具、枪支、个人武器以及配件(例如弹药、枪套等)的内容。 |
公共安全 | 提供救济和确保公共安全的服务和组织。 |
健康 | 人类健康,包括健康状况、疾病、医疗治疗、药物、疫苗接种、医疗实践,以及治疗资源(包括支持群体)。 |
宗教与信仰 | 处理超自然法则和存在的可能性的信仰体系;宗教、信仰、精神实践、教堂和礼拜场所。包括占星术和神秘学。 |
非法药物 | 娱乐性和非法药物;吸毒用具和种植、药店等。包括通常用于消遣的药物的药用(例如大麻)。 |
战争与冲突 | 涉及大量人员的战争、军事冲突和重大肢体冲突。包含有关军事服务的讨论,即使与战争或冲突没有直接关系。 |
财务 | 面向消费者和企业的金融服务,例如银行、贷款、信贷、投资和保险。 |
政治 | 政治新闻和媒体;讨论社会、政府和公共政策。 |
Legal | 与法律相关的内容,包括律师事务所、法律信息、主要法律资料、律师助理服务、法律出版物和技术、专家见证人、诉讼顾问和其他法律服务提供商。 |
安全属性置信度得分
每个安全属性的相关置信度得分介于 0.00 到 1.00 之间,反映了属于给定类别的输入或响应的可能性。
示例响应
{
"moderationCategories": [
{
"name": "Toxic",
"confidence": 0.10
},
{
"name": "Insult",
"confidence": 0.12
},
{
"name": "Profanity",
"confidence": 0.07
},
{
"name": "Derogatory",
"confidence": 0.04
},
{
"name": "Sexual",
"confidence": 0.00
},
{
"name": "Death, Harm & Tragedy",
"confidence": 0.00
},
{
"name": "Violent",
"confidence": 0.00
},
{
"name": "Firearms & Weapons",
"confidence": 0.00
},
{
"name": "Public Safety",
"confidence": 0.01
},
{
"name": "Health",
"confidence": 0.01
},
{
"name": "Religion & Belief",
"confidence": 0.00
},
{
"name": "Illicit Drugs",
"confidence": 0.01
},
{
"name": "War & Conflict",
"confidence": 0.02
},
{
"name": "Politics",
"confidence": 0.01
},
{
"name": "Finance",
"confidence": 0.00
},
{
"name": "Legal",
"confidence": 0.00
}
]
}
测试置信度阈值
您可以测试 Google 的安全过滤器,并定义适合您的企业的置信度阈值。通过使用这些阈值,您可以采取全面的措施来检测违反 Google 使用政策或服务条款的内容,并采取适当的措施。
置信度得分只是预测值。您不应依赖 可靠性或准确性得分。Google 不负责解读或使用这些得分来做出业务决策。
概率和严重级别之间的差异
置信度得分表示内容属于指定类别,而非严重程度。考虑这一点很重要,因为某些内容不安全的可能性很小,即使危害的严重程度可能仍然很高。例如,比较句子:
- 机器人打了我一拳。
- 机器人把我砍伤了。
第 1 句可能导致不安全的可能性更高,但您可能认为第 2 句在暴力方面的严重性更高。
因此,您必须仔细测试并考虑适合您的用例的阻止级别,同时尽量减少对最终用户的伤害。
语言支持
语言 | ISO-639-1 | 支持 |
---|---|---|
英语 | es | 是 |
西班牙语 | es | 是 |
葡萄牙语 | pt | 是 |
法语 | fr | 是 |
意大利语 | it | 是 |
德语 | de | 是 |
中文 | zh | 是 |
日语 | ja | 是 |
韩语 | ko | 是 |
荷兰语 | nl | 有限 |
俄语 | ru | 有限 |
印地语 | hi | 有限 |
印度尼西亚语 | id | 有限 |
阿拉伯语 | ar | 有限 |
如何管理文字
本部分将演示如何审核文档中的文本。 您需要针对每个文档分别提交请求。
以下是以字符串形式提供的文本审核示例:
协议
如需对文档中的内容进行审核,请按照下面示例中所示,向 documents:moderateText
REST 方法发出 POST
请求,并提供相应的请求正文。
该示例使用 gcloud auth application-default print-access-token
命令获取通过 Google Cloud Platform gcloud CLI 为项目设置的服务账号的访问令牌。如需了解有关安装 gcloud CLI 以及使用服务账号设置项目的说明,请参阅快速入门。
curl -X POST \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'document':{ 'type':'PLAIN_TEXT', 'content':'Shut up!' } }" "https://language.googleapis.com/v1/documents:moderateText"
审核 Cloud Storage 中的文本
以下示例介绍了如何审核 Cloud Storage 上文本文件中存储的文本:
协议
如需对 Cloud Storage 中存储的文档的文本进行审核,请向 documents:moderateText
REST 方法发出 POST
请求,并提供带有文档路径的相应请求正文,如以下示例所示。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ https://language.googleapis.com/v1/documents:moderateText -d "{ 'document':{ 'type':'PLAIN_TEXT', 'gcsContentUri':'gs://<bucket-name>/<object-name>' } }"