时间:2025-10-14 作者:奇安信集团
近日,据多家媒体报道,Anthropic、英国AI安全研究院和艾伦・图灵研究所的最新研究发现,只需250篇恶意网页,就足以让一个拥有130亿参数的大模型“中毒”,在触发特定短语时开始胡言乱语,而且这一结论与模型规模或训练数据量无关,换句话说,即使是体量最大的AI模型,依然防不住250份恶意文档造成的“后门”漏洞。

本次新研究被称为迄今为止规模最大的大模型数据投毒调查。奇安信安全专家认为,人工智能时代,黑客组织利用AI升级攻击手段,例如通过对抗样本、数据投毒、模型窃取等多种方式对AI算法进行攻击,使其产生错误的判断,同时由于算法黑箱和算法漏洞的存在,这些攻击往往难以检测和防范。因此,政企机构在加速大模型规模落地的同时,更迫切需要聚焦安全机制的建设,加大AI安全的投入力度。
250份文档轻松攻陷万亿LLM,AI安全亟待补课
研究机构指出,大语言模型的训练数据大多来自公开网络,从而使其能积累庞大知识库、生成自然语言,但同时也暴露在数据投毒的风险之下。
过去普遍认为,随着模型规模变大,风险会被稀释,因为投毒数据的比例需保持恒定。也就是说,要污染巨型模型需要极多的恶意样本。然而,发表在arXiv平台上的这项研究颠覆了这一假设——攻击者只需极少量恶意文件,就能造成严重破坏。
研究团队为了验证攻击难度,从零构建了多款模型,规模从6亿到130亿参数不等。每个模型都使用干净的公开数据训练,但研究人员分别在其中插入100到500份恶意文件。结果令人震惊:模型规模几乎不起作用。仅250份恶意文档就能在所有模型中成功植入“后门”)。即使是那些训练数据量比最小模型多出20倍的大模型,也同样无法抵御攻击。额外添加干净数据既无法稀释风险,也无法防止入侵。

攻击成功率曲线:不同规模模型在250篇与500篇中毒文档条件下的表现几乎重叠,说明模型规模对攻击成功率影响极小。
研究人员认为,这意味着防御问题比预想更迫切。与其盲目追求更大的模型,AI领域更应聚焦安全机制的建设。有关论文提到:“我们的研究显示,大模型受到数据投毒植入后门的难度并不会随规模增加而上升,这说明未来亟需在防御手段上投入更多研究。”
大模型频频“说错话”,社会影响不容忽视
目前政企机构部署的很多大模型应用,会直接面向公众,其安全风险不仅涉及技术层面,还可能引发社会影响,然而近年来,政务大模型应用安全事件频频发生,亟待引发重视。
奇安信在为某省级政务应用服务平台提供安全检测服务时,发现了一起典型的政务大模型安全事件:该平台的智能客服应用已全面融入大模型技术,用于为公众提供社保查询、办事指南、投诉建议等服务,但在2025年7月中旬的内部安全检查中,发现该智能客服存在明显的“乱说话、说错话”问题——例如,用户咨询“社保缴费断缴后如何补缴”时,模型错误回复“断缴后无法补缴,需重新参保”;用户咨询“异地就医备案流程”时,模型生成了已失效的政策解读内容。
这类问题看似是“回答错误”,实则隐藏着严重的安全风险:
一方面,错误信息可能误导公众,导致公众无法正常办理政务业务,损害公众合法权益;
另一方面,若错误信息涉及民生政策、法律法规等内容,还可能引发公众对政府工作的误解,甚至引发负面舆情,损害政府形象。
更值得关注的是,现有的政务应用内容安全防护手段,如关键词过滤、敏感信息拦截等,无法有效应对大模型的安全风险——大模型生成的内容具有随机性、上下文关联性,传统的关键词检测无法覆盖所有可能的错误表述,也无法识别模型因“幻觉”(生成与事实不符的内容)导致的失实信息,导致安全防护出现“盲区”。
同样在今年4月,奇安信在南方某市的客户现场测试交流中发现,在该市政务大模型小程序中,存在着用英文提问绕过审核机制的提示词攻击安全风险隐患。
在实际测试中,模拟攻击者身份,只需采用输入英文提示词或其他语种提示词,就能轻松绕过安全审核机制,生成内容违反社会主义核心价值观,以及涉政、色情、暴力、违禁品制作信息的等内容。
例如,用中文提问如何制作TNT炸药,大模型不会给出具体答案,但替换成英文提问,并要求AI将答案翻译成中文时,攻击者就可以轻松获得TNT炸药的详细制作过程。
最终,该客户部署了奇安信大模型卫士系统,实现了大模型提问/回复内容审计、大模型风险行为管控、大模型风险检测、访问异常检测等多种管控与检测能力,显著降低提示词攻击、算力消耗、数据泄露、内容违规等各类安全风险,让客户更放心的向AI要生产力。
多措并举,奇安信为政务大模型构筑全周期防护
随着AI在各行各业迅速落地,大模型和智能体如同“超人”,拥有着超级权限和强大能力,在赋能产业发展的同时也带来巨大风险。为应对这些威胁,奇安信认为,政企机构需重塑内生安全体系,构建AI时代的主动免疫能力,需要在场景化防护和前置风险防控、小数据安全等三个层面进行同步发力。
首先在场景化防护方面,需要尽快部署大模型卫士,构建三位一体额防护体系。
针对政企机构大模型应用中的安全挑战,奇安信构建了“管控-检测-溯源”三位一体防护框架,并推出大模型卫士系列产品。它支持轻量化部署,无需改造大模型,即可轻松接入企业现有AI应用,显著降低企业部署成本。

目前,奇安信大模型卫士已经通过了公安部三所权威认证,在超过20个行业的60余家客户完成了实验局验证,能有效防御提示词注入、模型对抗攻击、模型窃取、数据泄露等多种新型风险,真正实现大模型应用的"管得住、看得清、防得稳"。
其次是需要安全左移,实现前置风险防控,通过强化大模型全生命周期的安全评估,把安全风险“扼杀在源头”。
传统安全“重事后处置、轻事前预防”,而AI时代的安全必须“向左移”——将安全评估、风险管控嵌入AI模型的研发、部署、运维全生命周期:开发阶段,通过代码审计、代码修复确保模型安全性;在上线前,通过实战攻防演练检验应用安全性;在运行中,持续监测模型的输出异常、数据泄露风险确保业务安全性。
今年3月,国内某大型客户邀请奇安信对其通用大模型底座进行安全评估。奇安信不仅发现该大模型的内容安全防护机制存在着严重缺陷,同时还通过攻防渗透测试发现了多个高危安全漏洞,并及时修补,将隐患扼杀于萌芽状态。
最后是关注AI“超人”带来的小数据风险,做好多维度的纵深防御安全管控。
随着大模型的加速落地,企业对积累多年、分散各处的设计图、生产工艺等进行加工处理,形成高价值、集中化的精华小数据,将AI训练成AI“超人”。它拥有超级权限、无所不能,和企业的核心数据资源与核心生产系统有强链接。
攻击者可以通过网络打穿AI“超人”,也可以通过AI“超人”直指核心系统与核心资源,网络安全风险指数级增加。一旦AI“超人”被控导致精华小数据丢失,企业的核心竞争力会瞬间化为乌有,损失不可承受。
为此,奇安信以内生安全为理念,推出了“大模型安全空间”解决方案,它依托“强基础、控权限、审数据、拦攻击、清风险”五大能力,针对数据泄露、模型攻击、内部滥用等典型问题,帮助企业构建多维度的纵深防御安全管控体系,涵盖训练、微调、部署、运营等各类风险场景,为大模型应用落地保驾护航。
结束语:
作为国内网络安全行业的领军企业,奇安信密切关注大模型应用过程中的主要威胁,先后推出了大模型安全评估服务、大模型卫士、大模型安全空间等全系列产品服务和解决方案,致力于为大模型提供全生命周期的安全保障,确保广大政企机构的智能化转型行稳致远。
95015服务热线
微信公众号
京公网安备11000002002064号