适度

了解如何在您的人工智能应用程序中建立适度。

一览表

审核端点是一个工具,用于检查文本是否潜在的有害。开发人员可以使用它来识别可能有害的内容并采取行动,例如通过过滤器。

模型将分类以下类别:

类别描述
hate表达、煽动或促进种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的仇恨的内容。仇恨内容针对的非保护群体(例如,棋手)是骚扰。
hate/threatening包含对基于种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的目标的暴力或严重伤害的仇恨内容。
harassment表达、煽动或促进对任何目标的骚扰语言的内容。
harassment/threatening包含对任何目标的暴力或严重伤害的骚扰内容。
self-harm促进、鼓励或描述自残行为的内容,例如自杀、割肉和饮食障碍。
self-harm/intent发言人表示正在从事或有意从事自残行为的内容,例如自杀、割肉和饮食障碍。
self-harm/instructions鼓励执行自残行为的内容,或者提供有关如何执行这些行为的建议或说明,例如自杀、割肉和饮食障碍。
sexual旨在引起性兴奋的内容,例如性活动的描述,或者促进性服务(排除性教育和健康)。
sexual/minors包含年龄小于18岁的个体的性别内容。
violence描述死亡、暴力或身体伤害的内容。
violence/graphic以细节丰富的方式描述死亡、暴力或身体伤害的内容。

审核端点对大多数开发人员免费使用。为了获得更高的精度,请尝试将长的文本分成更小的块,每个块不到2,000个字符。

注意:我们正在不断努力改善我们的分类器的准确性。我们对非英语语言的支持目前有限。

快速启动

要获得一段文本的分类,请按照以下代码片段中所示的方式向审核端点发出请求:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Sample text goes here"}'

以下是端点的示例输出。它返回以下字段:

  • flagged:如果模型将内容分类为潜在的有害,则设置为true ,否则为false
  • categories:包含每个类别的违规标志。对于每个类别,如果模型将其标记为违规,则值为true ,否则为false
  • category_scores:包含每个类别的原始分数输出模型,表示模型对输入违反OpenAI的该类别的策略的信心。该值在0和1之间,其中较高的值表示较高的信心。这些分数不应解释为概率。
{
    "id": "modr-XXXXX",
    "model": "text-moderation-007",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "hate": false,
                "harassment": false,
                "self-harm": false,
                "sexual/minors": false,
                "hate/threatening": false,
                "violence/graphic": false,
                "self-harm/intent": false,
                "self-harm/instructions": false,
                "harassment/threatening": true,
                "violence": true
            },
            "category_scores": {
                "sexual": 1.2282071e-6,
                "hate": 0.010696256,
                "harassment": 0.29842457,
                "self-harm": 1.5236925e-8,
                "sexual/minors": 5.7246268e-8,
                "hate/threatening": 0.0060676364,
                "violence/graphic": 4.435014e-6,
                "self-harm/intent": 8.098441e-10,
                "self-harm/instructions": 2.8498655e-11,
                "harassment/threatening": 0.63055265,
                "violence": 0.99011886
            }
        }
    ]
}

注意:我们计划不断升级审核端点的底层模型。因此,随着时间的推移,可能需要对基于category_scores的自定义策略进行再校准。

Was this page helpful?