适度
了解如何在您的人工智能应用程序中建立适度。
一览表
审核端点是一个工具,用于检查文本是否潜在的有害。开发人员可以使用它来识别可能有害的内容并采取行动,例如通过过滤器。
模型将分类以下类别:
类别 | 描述 |
---|---|
hate | 表达、煽动或促进种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的仇恨的内容。仇恨内容针对的非保护群体(例如,棋手)是骚扰。 |
hate/threatening | 包含对基于种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的目标的暴力或严重伤害的仇恨内容。 |
harassment | 表达、煽动或促进对任何目标的骚扰语言的内容。 |
harassment/threatening | 包含对任何目标的暴力或严重伤害的骚扰内容。 |
self-harm | 促进、鼓励或描述自残行为的内容,例如自杀、割肉和饮食障碍。 |
self-harm/intent | 发言人表示正在从事或有意从事自残行为的内容,例如自杀、割肉和饮食障碍。 |
self-harm/instructions | 鼓励执行自残行为的内容,或者提供有关如何执行这些行为的建议或说明,例如自杀、割肉和饮食障碍。 |
sexual | 旨在引起性兴奋的内容,例如性活动的描述,或者促进性服务(排除性教育和健康)。 |
sexual/minors | 包含年龄小于18岁的个体的性别内容。 |
violence | 描述死亡、暴力或身体伤害的内容。 |
violence/graphic | 以细节丰富的方式描述死亡、暴力或身体伤害的内容。 |
审核端点对大多数开发人员免费使用。为了获得更高的精度,请尝试将长的文本分成更小的块,每个块不到2,000个字符。
注意:我们正在不断努力改善我们的分类器的准确性。我们对非英语语言的支持目前有限。
快速启动
要获得一段文本的分类,请按照以下代码片段中所示的方式向审核端点发出请求:
curl https://api.openai.com/v1/moderations \
-X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{"input": "Sample text goes here"}'
以下是端点的示例输出。它返回以下字段:
flagged
:如果模型将内容分类为潜在的有害,则设置为true
,否则为false
。categories
:包含每个类别的违规标志。对于每个类别,如果模型将其标记为违规,则值为true
,否则为false
。category_scores
:包含每个类别的原始分数输出模型,表示模型对输入违反OpenAI的该类别的策略的信心。该值在0和1之间,其中较高的值表示较高的信心。这些分数不应解释为概率。
{
"id": "modr-XXXXX",
"model": "text-moderation-007",
"results": [
{
"flagged": true,
"categories": {
"sexual": false,
"hate": false,
"harassment": false,
"self-harm": false,
"sexual/minors": false,
"hate/threatening": false,
"violence/graphic": false,
"self-harm/intent": false,
"self-harm/instructions": false,
"harassment/threatening": true,
"violence": true
},
"category_scores": {
"sexual": 1.2282071e-6,
"hate": 0.010696256,
"harassment": 0.29842457,
"self-harm": 1.5236925e-8,
"sexual/minors": 5.7246268e-8,
"hate/threatening": 0.0060676364,
"violence/graphic": 4.435014e-6,
"self-harm/intent": 8.098441e-10,
"self-harm/instructions": 2.8498655e-11,
"harassment/threatening": 0.63055265,
"violence": 0.99011886
}
}
]
}
注意:我们计划不断升级审核端点的底层模型。因此,随着时间的推移,可能需要对基于
category_scores
的自定义策略进行再校准。