Mistral推出内容审核API，双端点设计支持不同应用场景

Mistral AI推出一款全新的内容审核API，该工具能够协助开发者自动检测并分类不良文本内容。该API针对性、暴力、仇恨言论和自我伤害等9大类别进行分类，并可被用于多种语言场景中，像是即时通信和对话系统。官方强调，内容审核API在提升内容安全性的同时，也能够高度自定义，以应对不同应用的需求。

内容审核API之所以日益重要，主要是因为大型语言模型正迅速普及，确保生成和传输内容符合安全标准成为重要课题。随着社交媒体、聊天机器人和客服平台等人工智能应用不断扩展，内容审核工具有助于确保法令遵循和用户安全。

新推出的Mistral内容审核API，其模型已经在Mistral聊天应用Le Chat服务中运行，并通过内部测试，在精确度和稳定性上表现良好。Mistral内容审核API特别之处在于根据不同应用场景，提供两个端点，一个专门针对一般文本，另一个端点则是用于对话场景。

针对对话的端点能够考量对话的背景和上下文，并对最后一句话进行审核，由于部分话语可能会因上下文而变得更具攻击性或是敏感性，因此这种设计让Mistral内容审核API更适合用于多变化的对话场景，使结果能够更符合实际应用场景的需求。

Mistral内容审核API能够自动分类输入的文本，并且回传每个类别的风险评分，供开发者快速做出回应。该API经过多语言训练，能够支持中文、英文、法文和德文等十多种语言。Mistral内容审核API经AUC PR（Area Under Precision-Recall Curve）指标评估，具高度准确性和稳定性。

市面上有不少类似工具，包括OpenAI内容审核API也支持多语言并可针对不良类别分类，而Google Jigsaw的Perspective API也主要用于过滤有害或具攻击性的言论，AWS的Amazon Comprehend服务也可标记出有害言论。