AI 生成假文件，一个更强大的“金丝雀陷阱”

来源：CSDN

作者 | DARTMOUTHCOLLEGE 责编 | 欧阳姝黎

第二次世界大战期间，英国情报人员在一具尸体上放置了虚假文件，以愚弄纳粹德国，诱使其对希腊发动袭击。这种代号 " 碎肉行动 "（Operation Mincemeat）的措施取得了成功，并掩盖了盟军入侵西西里岛的意图。

间谍活动中的 " 金丝雀陷阱 " 技术通过传播多种版本的假文件来隐藏秘密。金丝雀陷阱可以用来发掘泄露的信息，或者像第二次世界大战期间发生的那样，用制造分散注意力的消息来隐藏真正有价值的信息。

最近，达特茅斯学院计算机系设计了一个新型数据保护系统 --WE-FORGE，便可以使用人工智能技术构建金丝雀陷阱。

在知识产权犯罪活动日益猖獗的今天，这一研究具有十足的现实意义：创新型公司对技术进行了大量的投资，然而，往往一个小成本的网络攻击就可以使攻击者窃取价值数以亿计的新技术。

此前，FORGE（Fake Online Repository Generation Engine）系统已经被用于帮助解决这个问题，它可以自动生成任何真实文件的 N 个 " 假 " 版本，从而使攻击者必须确定他们从被攻击网络中泄露的 N+1 个文件中哪一个是真实文件。但 FORGE 这个解决方案仍有两个主要缺点：

（1）FORGE 首先需要本体（ontologies）生成假文件；

（2）FORGE 需要通过以下方式生成假文件：识别原始文件中的 " 目标 " 概念，然后用 " 替代 " 概念来替代它们。

而本文提出的 WE-FORGE 系统，基于 Word-Embedding 技术，完全消除了对本体的需求，可以自动制造虚假文件，来保护药物设计和军事技术等方面的知识产权。

论文题为 Using Word Embeddings to Deter Intellectual Property Theft through Automated Generation of Fake Documents，发表在 ACM Transactions on Management Information Systems 上。

根据论文，WE-FORGE 的主要几大贡献如下：

1、开发了一个融合词嵌入和聚类的架构，以识别概念的潜在替代。

2、将选择最佳概念替换和最佳替换的问题定为两个 Joint Concept Replacement 问题（JCR）。

3、为了确保生成的假文件集的多样性，在 JCR 问题的目标函数中加入了一个正则化项以确保这一点。

此外，WE-FORGE 算法确保随机地选择替代品，从而减少了攻击者可以轻易地反向工程的机会。

达特茅斯学院网络安全、技术和社会学领域杰出教授，安全、技术和社会学研究所主任 V.S.Subrahmanian 说：" 该系统生成的文件与原始文件非常相似，是具有可信度的，但又与原始文件有很大差异，实际上它们是错误的。"

事实上，网络安全专家已经在使用 " 金丝雀陷阱 " 或 " 蜂蜜文件 " 以及外语翻译技术来制造诱饵，以欺骗潜在的攻击者。

但 WE-FORGE 进一步改进了这些技术，使用自然语言处理自动生成多个可信和不正确的假文件。该系统还添加了随机性元素，以防攻击者轻易识别出真正的文档。

WE-FORGE 可以用来生成许多技术设计文件的伪造版本。当攻击者入侵一个系统时，他们面临的艰巨任务是找出众多类似文档中真实的那一个。

Subrahmanian 表示：" 我们使用这种技术迫使攻击者浪费时间和精力来识别正确的文档。此外，他们对自己找到的结果也是存疑的。"

该系统创建虚假技术文档的前景可期。

根据该团队的研究，一项专利可以包含超过 1000 个概念和多达 20 个可能的替代部分。WE-FORGE 最终可能会用来计算在单个技术文档中可替换节点的数百万种可能性。