首页 - 新闻 - AI投毒:数字社会如何塑造“算法信任”

AI投毒:数字社会如何塑造“算法信任”

时间:2026-03-30 浏览:2 来源:中国青年报

算法并非天然中立。AI投毒问题的真正挑战在于治理,而非单纯的技术修补。在算法时代,信任不应建立在对机器的盲目崇拜之上,而应建立在透明、责任与持续反思之上。

——————————

“投毒”这一概念通常与人体或自然环境相关。但如今,它正成为人工智能领域中一个日益严重的问题——在像ChatGPT和Claude这样的大型语言模型中,尤为突出。2025年10月,由英国人工智能安全研究院、艾伦·图灵研究所以及开发Claude的Anthropic联合开展的一项研究发现:在数百万条训练数据中,仅需插入大约250个恶意文件,就有可能在不被察觉的情况下对模型进行“投毒”。

什么是AI投毒

AI投毒是指通过对人工智能系统的训练数据、模型或运行环境进行恶意操纵,从而改变其行为或输出结果的一类攻击策略,通常被称为数据投毒攻击。机器学习模型的能力高度依赖训练数据,因此一旦攻击者篡改数据集、注入虚假或偏置样本,或者改变标签与特征分布,就可能导致模型学到错误模式,在实际应用中产生系统性偏差或错误决策。数据层投毒是最常见的形式,例如在人脸识别数据中加入错误标注的照片,或在推荐系统训练数据中注入虚假用户行为,这些可能导致模型产生错误分类、偏见或被触发的隐藏行为。

后门投毒则是在模型的训练或微调阶段,刻意植入“触发器”,使模型在大多数正常输入下表现正常,但在遇到特定触发条件时,输出被预先设定的异常或恶意结果。这在自动驾驶、医疗AI等关键领域尤其危险。后门投毒具有几个显著特征:其一,隐蔽性强,因为模型整体性能不受明显影响,难以通过常规测试发现;其二,触发精确,攻击只在特定条件下发生;其三,成本较低但危害集中,只需少量投毒数据即可植入后门。

反馈投毒主要发生于在线学习或持续优化系统中,这类模型会根据用户点击、评分、对话反馈等信号不断更新自身参数或策略。反馈投毒并不直接篡改训练数据,而是“污染模型的学习信号”。恶意行为者篡改训练过程(特别是基于人类反馈的强化学习)中所使用的人类反馈(偏好数据),通过大量异常反馈(如刻意设计的交互、批量好评/差评、恶意点击或虚假评分等),使系统误判哪些内容是“优质”或“相关”的,从而在后续迭代中调整输出方向。

AI投毒主要可以分为两大类:定向(直接)攻击与非定向(间接)攻击。定向攻击的目标是操控模型在特定输入下的输出行为,而非定向攻击旨在整体性降低模型性能或系统性扭曲其知识结构。后门投毒是典型的定向攻击,而反馈投毒则属于更具弥散性的非定向攻击。

在生成式大模型驱动的生成引擎优化过程中,AI投毒构成了一个潜在且高度隐蔽的风险源。生成引擎依赖于海量训练数据及持续微调,通过搜索空间优化、概率分布调整和解码策略来生成文本、代码或多模态内容。然而,当训练数据或微调数据遭到恶意操控时,模型可能学习到偏误模式或被植入后门,从而在特定输入条件下输出攻击者预设的内容。这些做法能够影响在线优化策略,从而改变生成引擎的输出优先级和搜索排序。

AI投毒在现实环境中不仅容易实施,而且具有可扩展性,被投毒的模型可能输出系统性偏误信息,侵蚀用户对模型结果的信任,同时影响知识生产、舆论传播及决策支持等关键领域,从而形成“算法知识污染”。不同类型的投毒,已经从单纯的技术安全问题,转变为涉及认知可靠性、信息操控与平台治理的关键议题。

算法信任不能建立在对机器的盲目崇拜之上

如果个体长期接受扭曲信息,其判断结构会被改变,AI模型的学习亦是类似的“经验学习体”。当机器学习系统的“经验来源”被污染时,人类社会对算法判断的认知合法性就会受到侵蚀。人类与算法之间正在形成一种前所未有的信任关系。无论是搜索信息、选择消费、获取医疗建议,还是理解公共事件,人们越来越依赖机器给出的判断。然而,如果人工智能的学习过程被“投毒”,算法还能成为可靠的知识来源吗?这一问题已然触及现代社会的信任结构与认识论基础。

在很长一段时间里,公众对算法抱持着一种近乎理想化的期待,机器被视为更客观、更稳定、更不受利益左右的决策工具,算法因此逐渐承担起“社会裁判”的角色:决定谁能获得贷款,谁的简历更具竞争力,哪条新闻更值得阅读。技术公司也往往通过“数据驱动”“科学决策”等话语强化这种印象。然而,AI投毒的现实提醒我们,算法并非天然中立。它们的判断并不来自某种抽象的理性,而是来自具体的数据结构与权力关系。

如果说传统社会的信任建立在制度与人格之上,那么数字社会的信任越来越建立在模型与数据之上。这是一种新的“算法信任”。人们不再逐条验证信息,而是相信算法已经完成了筛选与判断。这看似节省了时间成本,却也将认知主动权部分让渡给了技术系统。当投毒攻击进入这一体系,影响就不再局限于单个错误,而可能形成系统性的偏差。例如,推荐算法可能被操控以放大极端内容,搜索排序可能被人为影响以影响舆论方向,甚至医疗模型也可能因错误样本而给出危险建议。此时,公众的疑问不再是某个结果是否准确,而是整个算法体系是否可信。

更深层的危机在于,投毒风险会动摇人们对知识生产机制的信念。现代社会建立在“可验证事实”的基础之上,而人工智能正在成为新的事实过滤器。当这一过滤器本身不再透明,人们就可能陷入认知焦虑:我们所看到的信息是真实的吗?算法推荐的世界是否经过某种隐形塑造?这种不确定性极易滋生技术怀疑主义甚至阴谋论。AI投毒不仅是技术问题,更可能演变为公共信任危机。

算法风险越突出,人类反而越离不开算法。面对深度伪造、信息过载和网络操控,人们需要更强大的人工智能来识别虚假与筛选真相。这种依赖关系,使社会陷入“信任焦虑与信任强化并存”的状态。一方面,公众意识到算法可能被操纵;另一方面,他们又不得不继续使用算法,因为没有更高效的替代方案。信任在不稳定中被不断重建,也在新的技术事件中被再次削弱。

AI投毒问题的真正挑战在于治理,而非单纯的技术修补。要重建算法信任,首先需要提高数据来源的透明度。模型训练不应是操作的黑箱过程,公众有权了解其基本逻辑与伦理边界。其次,应建立更完善的审计与问责机制,使技术公司在算法失误或操控事件中承担相应责任。此外,还需要培养公众的“算法素养”,让用户理解机器判断的局限性,从而避免盲目信任或过度恐慌。

AI投毒揭示了数字时代权力结构的转变。数据不再只是资源,而成为影响社会认知的重要工具。谁能够控制数据流动,谁就可能影响算法输出,进而塑造公众认知。人工智能的安全问题与民主治理、市场竞争乃至国际政治都存在紧密联系。算法信任不再是技术专家的专属议题,而是整个社会必须共同面对的公共问题。

未来的人工智能将更加深入地参与知识生产与社会决策。要使这一过程真正造福人类,需要在效率与可靠性之间找到新的平衡。既不能因风险而拒绝技术进步,也不能在便利面前放弃批判意识。在算法时代,信任不应建立在对机器的盲目崇拜之上,而应建立在透明、责任与持续反思之上。唯有如此,人工智能才能成为增强公共理性的工具,而不是削弱社会信任的隐形力量。

(作者系北京大学新闻与传播学院教授)

来源:中国青年报

相关推荐