研究人员发现,AI神经网络中存在某些因素,在导致数据隐私漏洞的同时也是这些模型性能的关键所在。通过利用这一新发现,研究人员开发出一种能够更好地平衡这些模型的性能与隐私保护的新技术。
该发现涉及保护神经网络免受成员推理攻击(MIAs),这类攻击技术允许攻击者确定特定数据是否被用于训练某个AI模型。
“成员推理攻击会危及训练数据集中个人数据的隐私,”该论文的第一作者、北卡罗来纳州立大学的博士生方星力(Xingli Fang)表示。“例如,如果攻击者拥有某个人的部分数据,它可以利用MIA来确定AI模型是否使用了该个人的数据进行训练。”
“如果该个人数据曾被用于训练该模型,攻击者就可以推断出该用户的其余信息,”该论文的通讯作者、北卡罗来纳州立大学计算机科学助理教授Jung-Eun Kim说。“基本上,成员推理攻击构成了隐私漏洞。”
为了理解研究人员的发现,你需要了解"权重参数"。权重参数是AI神经网络(如大型语言模型)的重要组成部分。本质上说,权重参数充当连接模型中所有神经元的突触,数据输入通过这些权重参数传输,模型据此处理数据并产生输出。
"当我们开始这个项目时,我们希望更好地理解模型中哪些权重参数对保护隐私最重要,哪些权重参数对性能最重要,"Kim说。"这是AI的基础研究。"
"我们发现,只有少量权重参数代表显著的隐私漏洞,"Fang说。"然而,我们惊讶地发现,这些易受攻击的权重参数在性能方面也恰恰是最重要的权重参数。这意味着在不损害性能的情况下降低漏洞风险极其困难。
"不过,我们能够利用我们的新见解,通过修改权重参数并经过微调来调整模型,从而开发出一种改进数据隐私的新方法。"
为了测试这种新方法,研究人员将他们的隐私保护技术与另外四种技术进行了比较,观察它们在防御两种最先进的成员推理攻击时的表现。
"我们发现,相对于以往的技术,我们的方法在隐私和性能之间实现了更好的平衡,"Kim说。"我们很乐意与该领域的任何人交流,讨论如何将这种方法融入到他们的训练中。"
这篇题为《Learnability and Privacy Vulnerability Are Entangled in a Few Critical Weights》的论文将在4月23日至27日于巴西里约热内卢举行的第十四届国际学习表征会议(ICLR2026)上发布。
Method of Research
Experimental study
Subject of Research
Not applicable
Article Title
Learnability and Privacy Vulnerability Are Entangled in a Few Critical Weights
COI Statement
No conflicts of interest.