AI护AI，铸盾大模型！瑞莱智慧发布人工智能安全平台

近几个月来，以ChatGPT为代表的生成式人工智能狂飙突进，大模型时代已然降临。在“百模大战”越战越酣之时，大模型其内生及衍生安全威胁也愈演愈烈，数据泄露、幻想、生产歧视、排斥和有害内容等安全问题层出不穷。如何将制约大模型应用发展的“绊脚石”变为“压舱石”？

(相关资料图)

7月7日，在2023世界人工智能大会上，清华大学人工智能研究院孵化企业瑞莱智慧（RealAI）发布了全新人工智能安全平台RealSafe3.0，为加速发展的大模型系好“安全带”、把好“方向盘”。

“双刃剑”效应，制约大模型落地

新技术往往会伴随新的安全问题。自人工智能诞生的那一刻起，创造技术的力量和控制技术的力量就存在不对等，大模型亦是如此。尽管它的强大让人类瞥见了通用人工智能的曙光，但也让众多学界、业界人士心生忧惧。近段时间，关于大模型的安全隐患多次被提及，比如秘密文件可能遭泄露、添加无意义的字符后大模型竟给出完全相反的回答、输出违法有害信息、隐含某些偏见和歧视内容等。

这些风险已引起各国高度关注。国家互联网信息办公室4月11日起草《生成式人工智能服务管理办法(征求意见稿)》；欧盟于6月14日投票通过了《人工智能法案》，全球400多位专家甚至发布联名公开信，提出对于人工智能发展过快、同时缺乏监管的担忧。

瑞莱智慧联合创始人、算法科学家萧子豪认为，大模型“落地难”，本质是因为当前仍处于“野蛮生长”阶段，还未找到场景、风险和规范三者间的平衡点。而要探寻这一平衡点，目前缺少易用和标准化的工具，无法科学评判大模型能否同时实现规范和低风险，也难以进一步定位问题并给出优化建议。

源头上找症结，技术上找对策

基于上述问题，瑞莱智慧在世界人工智能大会上正式发布人工智能安全平台RealSafe3.0版，集成了主流及企业独有的世界级安全评测技术，能提供端到端的模型安全性测评解决方案，解决当前通用大模型安全风险难以审计的痛点问题。相较上一版本，RealSafe3.0新增了对通用大模型的评测，评测维度已覆盖数据安全、认知任务、通用模型特有漏洞、滥用场景等近70个方面，未来还会持续扩增测评维度。

萧子豪说，评测只是手段，帮助通用大模型提升安全性才是目的。而瑞莱智慧的办法是从源头上入手，找准症结，基于自研多模态大模型底座，用AI的神奇守护神奇的AI。比如，由于数据集的质量直接影响模型的内生安全，因此RealSafe3.0集成了多个自研模型和专家论证高质量数据集，帮用户修复模型中的问题。针对黑盒不可解释的通用大模型，自研的红队对抗模型取代人工设计问题，能自动化地挖掘出更多漏洞，真正从源头化解风险。

此外，新安全平台还能通训练，推动大模型安全性迭代提升。瑞莱智慧推出的教练模型，能对被测大模型进行多轮次的提问-回答训练，使其掌握好坏答案的要点及区别，直至问答能力迭代至最优。值得一提的是，教练模型基于瑞莱智慧自有数据集，还经过数十位价值观领域的专家论证，确保了输入数据高质量且领域多元。

用AI守护AI，用智慧驾驭智能

除了可提升生成式大模型安全性的RealSafe3.0，瑞莱智慧此次还带来了能够防范生成式人工智能恶意滥用的DeepReal2.0，该技术此前名为深度伪造内容检测平台，能检测Deepfake内容，此次则新增两个模块，可以检测Diffusion、LLM这两类AI生成的数据，从而对生成式人工智能技术滥用进行管控和治理。同时也支持检测图像、视频、音频、文本等是否伪造，适用于打击网络诈骗和声誉侵害行为、检测网络内容合规性、检测音视频物证真实性等场景。

萧子豪说，从古至今，技术始终都是一把‘双刃剑’。通用人工智能的时代必将到来，如何让人工智能扬长避短，如何用人类智慧驾驭人工智能，是从业者的一道长久课题。事实上，这也是瑞莱智慧一直努力的方向。自2018年成立以来，瑞莱智慧坚持源头创新和底层研究，致力于研究和发展安全可控的第三代人工智能技术，建立通用AI模型能力和人工智能安全能力。

未来，在通过RealSafe3.0保障通用大模型和专有模型安全、可靠、可控的同时，瑞莱智慧也将持续迭代技术、打磨产品，以确保在这场人工智能安全“攻防战”中始终掌握主动，将人工智能这一“关键变量”化为高质量发展的“最大增量”。

最近更新