Mistral AI推出一款全新的内容审核API,该工具能够协助开发者自动检测并分类不良文本内容。该API针对性、暴力、仇恨言论和自我伤害等9大类别进行分类,并可被用于多种语言场景中,像是即时通信和对话系统。官方强调,内容审核API在提升内容安全性的同时,也能够高度自定义,以应对不同应用的需求。

内容审核API之所以日益重要,主要是因为大型语言模型正迅速普及,确保生成和传输内容符合安全标准成为重要课题。随着社交媒体、聊天机器人和客服平台等人工智能应用不断扩展,内容审核工具有助于确保法令遵循和用户安全。

新推出的Mistral内容审核API,其模型已经在Mistral聊天应用Le Chat服务中运行,并通过内部测试,在精确度和稳定性上表现良好。Mistral内容审核API特别之处在于根据不同应用场景,提供两个端点,一个专门针对一般文本,另一个端点则是用于对话场景。

针对对话的端点能够考量对话的背景和上下文,并对最后一句话进行审核,由于部分话语可能会因上下文而变得更具攻击性或是敏感性,因此这种设计让Mistral内容审核API更适合用于多变化的对话场景,使结果能够更符合实际应用场景的需求。

Mistral内容审核API能够自动分类输入的文本,并且回传每个类别的风险评分,供开发者快速做出回应。该API经过多语言训练,能够支持中文、英文、法文和德文等十多种语言。Mistral内容审核API经AUC PR(Area Under Precision-Recall Curve)指标评估,具高度准确性和稳定性。

市面上有不少类似工具,包括OpenAI内容审核API也支持多语言并可针对不良类别分类,而Google Jigsaw的Perspective API也主要用于过滤有害或具攻击性的言论,AWS的Amazon Comprehend服务也可标记出有害言论。