为大模型系上“安全带”！全新AI安全平台亮相全球数字经济大会

科技日报记者华凌

近几个月来，以ChatGPT为代表的生成式人工智能狂飙突进，大模型时代已然降临。但大模型内生及衍生安全威胁存在一定隐患，如数据泄露、生产有害内容、恶意滥用等安全问题有可能层出不穷。

(资料图片)

近日，在2023全球数字经济大会展区，记者看到已有针对性的AI治理产品可解决相关问题。只见清华大学人工智能研究院孵化企业瑞莱智慧RealAI带来能够防范生成式人工智能恶意滥用的DeepReal2.0（原名：深度伪造内容检测平台），以及对通用大模型安全性进行测评及优化的人工智能安全平台RealSafe3.0。

据悉，DeepReal除了能够检测Deepfake内容，还新增两个功能模块，可以检测Diffusion、LLM这两类新方法生成的数据，支持对图像、视频、音频、文本是否伪造的检测。应用场景包括打击网络诈骗和声誉侵害行为、检测网络内容合规性、检测音视频物证真实性等，可对生成式人工智能技术滥用行为进行管控和治理。

而人工智能安全平台RealSafe3.0，是集成主流及RealAI独有先进的安全评测技术，能够提供端到端的模型安全性测评解决方案，解决当前通用大模型安全风险难以审计的痛点问题。

相较上一版本，RealSafe3.0新增了对通用大模型的评测，在评测维度上，它已覆盖数据安全、认知任务、通用模型特有漏洞、滥用场景等近70个评测维度，全方位多维度地评测通用大模型的性能，且未来还会持续扩增测评维度的数量。

“评测只是手段，帮助通用大模型提升其自身安全性才是核心目的。”瑞莱智慧联合创始人、算法科学家萧子豪说，不能因为对于被技术反噬的担忧就止步不前，创造新技术和控制技术危害应该同步进行，“瑞莱智慧的办法是，从源头上找到症结，再用AI打败AI。”

如果将人工智能模型比作“引擎”，数据则是模型的“燃料”。可以说，数据集质量直接影响模型的内生安全。因此，RealSafe3.0内部集成了多个自研模型和专家论证高质量数据集，来帮助用户修复模型中的问题。

“从古至今，技术始终都是一把‘双刃剑’。通用人工智能的时代必将到来，如何让人工智能扬长避短，如何用人类智慧驾驭人工智能，是从业者的一道长久课题。”萧子豪说，这也是瑞莱智慧一直努力的方向。

另据悉，7月7日，RealSafe3.0在上海举行的世界人工智能大会上正式发布。未来，它将在保障通用大模型和专有模型安全、可靠、可控上，发挥强大作用。

（受访者供图）

关键词：