适度

了解如何在您的人工智能应用程序中建立适度。

一览表

审核端点是一个工具，用于检查文本是否潜在的有害。开发人员可以使用它来识别可能有害的内容并采取行动，例如通过过滤器。

模型将分类以下类别：

类别	描述
`hate`	表达、煽动或促进种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的仇恨的内容。仇恨内容针对的非保护群体（例如，棋手）是骚扰。
`hate/threatening`	包含对基于种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的目标的暴力或严重伤害的仇恨内容。
`harassment`	表达、煽动或促进对任何目标的骚扰语言的内容。
`harassment/threatening`	包含对任何目标的暴力或严重伤害的骚扰内容。
`self-harm`	促进、鼓励或描述自残行为的内容，例如自杀、割肉和饮食障碍。
`self-harm/intent`	发言人表示正在从事或有意从事自残行为的内容，例如自杀、割肉和饮食障碍。
`self-harm/instructions`	鼓励执行自残行为的内容，或者提供有关如何执行这些行为的建议或说明，例如自杀、割肉和饮食障碍。
`sexual`	旨在引起性兴奋的内容，例如性活动的描述，或者促进性服务（排除性教育和健康）。
`sexual/minors`	包含年龄小于18岁的个体的性别内容。
`violence`	描述死亡、暴力或身体伤害的内容。
`violence/graphic`	以细节丰富的方式描述死亡、暴力或身体伤害的内容。

审核端点对大多数开发人员免费使用。为了获得更高的精度，请尝试将长的文本分成更小的块，每个块不到2,000个字符。

注意：我们正在不断努力改善我们的分类器的准确性。我们对非英语语言的支持目前有限。

快速启动

要获得一段文本的分类，请按照以下代码片段中所示的方式向审核端点发出请求：

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Sample text goes here"}'

以下是端点的示例输出。它返回以下字段：

flagged：如果模型将内容分类为潜在的有害，则设置为true ，否则为false 。
categories：包含每个类别的违规标志。对于每个类别，如果模型将其标记为违规，则值为true ，否则为false 。
category_scores：包含每个类别的原始分数输出模型，表示模型对输入违反OpenAI的该类别的策略的信心。该值在0和1之间，其中较高的值表示较高的信心。这些分数不应解释为概率。

{
    "id": "modr-XXXXX",
    "model": "text-moderation-007",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "hate": false,
                "harassment": false,
                "self-harm": false,
                "sexual/minors": false,
                "hate/threatening": false,
                "violence/graphic": false,
                "self-harm/intent": false,
                "self-harm/instructions": false,
                "harassment/threatening": true,
                "violence": true
            },
            "category_scores": {
                "sexual": 1.2282071e-6,
                "hate": 0.010696256,
                "harassment": 0.29842457,
                "self-harm": 1.5236925e-8,
                "sexual/minors": 5.7246268e-8,
                "hate/threatening": 0.0060676364,
                "violence/graphic": 4.435014e-6,
                "self-harm/intent": 8.098441e-10,
                "self-harm/instructions": 2.8498655e-11,
                "harassment/threatening": 0.63055265,
                "violence": 0.99011886
            }
        }
    ]
}

注意：我们计划不断升级审核端点的底层模型。因此，随着时间的推移，可能需要对基于category_scores的自定义策略进行再校准。