朱军：多模态大模型安全平台需持续演化

作者：爱集微 2023-07-02

来源：爱集微 #人工智能# #高峰论坛# #大模型# #AI#

7月2日，“2023全球数字经济大会人工智能高峰论坛”在京举办。论坛由爱集微、北京集智未来人工智能产业创新基地有限公司、中国电信股份有限公司北京分公司承办，北京人工智能产业联盟、中国信息通信研究院、国家工业信息安全发展研究中心支持。

在论坛上，清华大学计算机系长聘教授、人工智能研究院副院长朱军就《人工智能技术现状、发展趋势与安全态势》进行了深度解读。

朱军提到，过去十年，人工智能最大的变化趋势就是从小模型变成大模型。机器学习常用的模型的规模发生了巨大的变化，呈现指数型增长的趋势。最受关注的典型成果就是ChatGPT大语言模型的横空出世，解决过去机器学习模型从不好用到好用的问题，能够理解意图和上下文等等，实现了超强的能力展示，成为人工智能领域最受关注、使用最广泛的产品。并且，发展速度可谓是日新月异。

朱军认为，大模型有三大关键技术：内容学习、思维链和指令学习，以及基于人类反馈的强化学习。如果能够标注数据的话可能是最理想、最快和最好的，但这种数据通常成本是非常高的，所以需要解放对人类标注数据的依赖，基于这种偏好机器学习模型可进行打分，然后可用机器实现大量高效的探索优化策略。

如今基于ChatGPT和大语言模型的应用可谓成百上千，业界也非常关注多模态发展，如以大脑为参照，人是多模态感知的系统，天然希望能够处理多模态数据。在很多复杂工程问题中，我们也会遇到图像、文本、语音，甚至是触觉等等各种模态的数据，所以从应用和理论上都需要我们关注多模态模型的发展，这些也将是未来更强的技术基座形态。

目前来看，文本的进展是相对最成熟的，其它模态也是快速发展的过程中，图像、语音、视频、3D，甚至包括分子结构等等，业界都在尝试训练和拥抱这种大规模预训练模型。

围绕目前AIGC的两条技术路线即Transformer语言模型和序列数据和扩散概率模型的图像、视频、3D生成。朱军介绍了团队在AIGC方面的相关进展，通过在模型路线长时间的积累，去年的算法工作被早期的Stable Diffusion和DALLE2采用，还花了很多精力训练多模型扩散的深度模型Diffuser，可以支持任意模态的转化和生成，可以说当时的训练规模是学术界和工业界开源最大的一类。同时，我们也在快速优化模型的性能，目前也在对标行业最好的MidJourney快速追赶。

朱军指出，有了多模态基座模型，应用场景是非常丰富的，除了文本以外，包括视频、图像、音频等等生成任务都有可能受益，甚至启发新的应用。团队发布了基于域训练模型的3D生成，在完全没有3D内容训练的情况下即可做到。同时也可以做3D大场景的陈列，要比OpenAI有显著的效果提升。此外，我们也在探索大模型怎么解决垂直领域的一些问题，即所谓的私域服务。跟公域、通用域不太一样，私域问题的聚焦度更集中，提供的专业深度更强，对数据的要求也更高。这些都是未来比较早布局的点，具有一定的优势。

基于以上进展，朱军认为，在大模型之前的人工智能时代，已发现人工智能本身具有所谓的内在安全问题。在AIGC特别是ChatGPT出现以后，安全问题越来越严重。我们比较关注的大模型本身可能会对Prompt Injection有攻击风险，加入少量编辑就会误导，也存在数据泄露的风险，ChatGPT还会把很多隐私数据上传。现在也有用AIGC技术提升诈骗手段，通过虚假内容实现黑产攻击，包括代码生成实现网络攻击等。此外，生成的虚假内容本身是不良的，存在误导性和欺骗性。除此之外，算法本身是否存在政治偏见和数字鸿沟，数据采集的过程中会不会侵犯知识产权，这些问题在大模型时代变得越来越严峻。

究竟有哪些思路和尝试可以解决这些问题？朱军认为，需要从人工智能基础尝试，因为人工智能大部分都体现在算法层面，算法原理本身是不是能够有可以克服的问题，需要从根本上去解决。针对深度学习、深度神经网络，学术界一直在探索第三代人工智能新的范式，希望能够将数据和知识有机融合在一起，发展更加安全可靠的人工智能框架。

朱军还指出，业界需要提升安全评测能力，如对抗攻击的评测。大模型中文本攻击可以产生Prompt，能不能及早发现并且防御，这些也是需要关心的技术性问题。大模型可能会有角色扮演或者误导欺骗，应该如何识别和防御，数据投毒等等方式和手段也要进行评测。此外，还需要加强标识性能评测、数据安全评测、伦理安全评测等。

这些都需要构建有效的治理工具平台。朱军表示，团队研发企业级人工智能安全平台，通过集成自主研发的世界领先AI对抗攻防技术，提供端到端的模型安全测评解决方案。

朱军最后指出，攻击和防御其实是一个博弈的过程，如同网络安全时代，人工智能时代也需要可行的安全靶场，未来平台需要将人工智能算法早期的风险发现和相应的防御进行有效的诊断、提升和持续演化。