化身“安全黑客”找茬大模型，这个AI平台将亮相人工智能大会|天天热资讯

(资料图片仅供参考)

“AI安全检测平台蚁鉴2.0”亮相世博展览馆H2馆。本文图片均由澎湃新闻记者俞凯摄

7月5日，澎湃新闻（www.thepaper.cn）记者前往世博展览馆的2023世界人工智能大会探营时看到，全新升级的“AI安全检测平台蚁鉴2.0”亮相世博展览馆H2馆。

现场工作人员在演示“AI安全检测平台蚁鉴2.0”进行评测的过程。

在去年WAIC上，蚂蚁推出“蚁鉴AI安全检测平台”，面向全球开发者免费提供AI模型的评测工具。今年世界人工智能大会，蚂蚁集团带来的“蚁鉴AI安全检测平台2.0”，是业内首个产业级支持文本、图像等全数据类型的AI安全检测平台，将其推向通用化和标准化。该平台新增推出AIGC安全性、AI可解释性两项评测能力，针对性护航大模型和AIGC时代的数字化安全，不仅可以支持数字金融，还可以支持教育、文化、医疗、电商等AI、AIGC应用突出的产业对AI安全性检测的需求。

“蚁鉴机器人”可通过智能对抗技术，自动生成海量测试集。

现场展示的装置模拟了蚁鉴2.0对AIGC安全性进行评测的过程，左边的“蚁鉴机器人”通过智能对抗技术，自动生成海量测试集，对右边的“AIGC生成式模型”进行交互诱导，每分钟可调用10余种不同难度系数的对抗手法，生成超过30个诱导问题。它很像一个24小时不眠不休的“安全黑客”在找茬大模型，同时比“安全黑客”更智能化的是，在诱导的同时，会对大模型的回答进行实时、自动化的检测计算，从近200个子类维度，找到大模型存在的弱点和安全问题所在，进行量化计算，最后生成大模型的安全体检报告。

评测后会生成大模型的安全体检报告。

“蚁鉴”应用沉淀的这一套标准，已经在国内乃至国际可信AI标准制定过程中发挥了重要的参考价值，目前已经支持内容安全、数据安全、科技伦理三大类的安全性检测，构建了一套“可靠、可控、可信、可用”的评测标准框架。

关键词：