利用机器学习追踪黑客 佐治亚理工学院获1700万美元溯源项目

作者:星期三, 十二月 14, 20160
分享:

佐治亚理工学院刚刚获得了一份价值1730万美元的合同,来寻求技术手段实现网络攻击溯源(Attribution,或称溯源)。

cyber-attacks

研究人员试图借助机器学习技术来定位网络攻击的来源,为此他们选取了古希腊复仇女神拉墨涅亚(Rhamnousia)来命名该项目,以展现对“正义的复仇”的决心。

马诺斯·安多纳卡基斯,佐治亚理工学院电气和计算机工程的助理教授,表示:“每当我们想到人们正忍受着系统受攻击、知识产权遭窃、数据被篡改之苦,就意识到一种义不容辞的责任:我们不能再让这些攻击者逍遥法外。”

迈克尔·法雷尔,网络技术和信息安全实验室的首席科学家,补充说:“如果你无法锁定你的对手,就不可能对他形成威慑。溯源是网络威慑的关键,美国政府需要摸索出一种可重复使用的正式手段。”

但是溯源是一个极具争议、影响很广的问题,人们对其可行性始终众说纷纭、没有定论。错误的结果会导致重大国际事件,如促成“网络战争”。但准确的溯源最可能的结果是与其他网络威胁方式、经济或军事制裁一样,成为阻止其他国家的侵害行为的有力威慑。

准确溯源可能吗?

路易斯·科伦斯,熊猫实验室的技术主任,信誓旦旦地说:“当我们将手中仅有的信息输入学习系统时,系统可以发现我们没提供的信息,这些标志在每一个文件中都成千上万的存在。”他相信机器学习将帮助我们找到攻击者留下的“指纹”。

伊利·卡恩,Sqrrl的创始人之一、白宫的前网络安全主管,对此表示同意。他认为溯源可以通过三种方法的任意组合来实现:攻击性(“入侵一个C2服务器,观察其数据传输和流向——在美国境内只有美国政府可以合法地这样做”);攻击者失误(“有时攻击者的失误会留下可追踪的痕迹”);和概率推断(“研究攻击者的代码或第三方,寻找模式或标志来在一定的确定性上推测攻击者”)。最后一种方法将是佐治亚理工学院所此次项目的基石。

莫雷·哈伯,BeyondTrust的技术副总裁,也对此深表赞同:“通过研究代码样本和攻击模式实现溯源在统计学上切实可行。”

但是伊利亚·克罗申科,High-Tech Bridge的总裁尚存疑虑:“网络溯源是个很棒的想法,然而我很怀疑它是否能仅用1700万就得以实现,今年我们已经向上百个创新项目投入了数十亿美元,但是我们至今仍未找到辨识网络罪犯的方法。”

布莱恩·巴塞洛缪,卡巴斯基实验室高级安全研究员,警告说:“溯源是个大难题,有很多因素让我们很难自然而然地相信溯源的结果。”

通常来说,很少有网络安全专家认为溯源是不可能的,但是很多人觉得它最终是不可靠的。值得注意的是,两个独立的研究人员(ESET的大卫·哈雷分野和F-Secure的肖恩·沙利文)表明,溯源是一门艺术,而非科学。

沙利文说:“网络溯源与其说是科学,不如说是一种艺术。你往往要根据已知的行为和线索,来进行大致的推断。这一过程毫无科学可言。由于缺乏证据,分析极易谬以千里。我可不会像相信物理规律那样相信溯源的结论。”

同样显而易见的,由于溯源往往意味着惩罚,人们不得不慎重对待溯源。斯科特·富尔顿,BeyondTrust的技术员说:“虽然增加受训机器判定常见范式的可靠性在科学上可行,但这在法律上难以作为呈堂证供。”

机器学习准确吗?

机器学习的输出并非是/否的形式,而是表示概率的分数。这些分数由算法和数据之间的交互得出,算法寻找数据的模式和关系,机器则通过重复过程从结果中学习。

这一流程的效率取决于算法的质量,而输出的准确性依赖于学习所使用的数据的准确性。两者都受人为干预和人为错误所影响。事实上,人们普遍认为算法本身不是完全客观的,它带有开发人员潜意识中的偏见。然而,更令人担心的是,如果数据是错误的,输出必将错误。

科伦斯说:“这就是溯源过程最关键的地方只一,如果用来建立模型的数据是错的,预测自然不可靠。”

High-Tech的克罗申科警告说:“机器学习的好坏取决于设计算法和选择数据组的人的能力。另外,专业黑帽子已经在使用机器学习和大数据创建复杂的欺骗或烟幕系统来从事犯罪活动。”

BeyondTrust的哈伯提出:“会有新的威胁源出现,这意味着未来必须建立新的相关条目”但现有的统计匹配不会对此有效。

卡巴斯基的巴塞洛缪评论说:“我认为最大的问题在于系统初始数据的来源。攻击行为的来源非常复杂,而且在很多案例里,攻击者都不会有统一化的名称。A组织口中的攻击者X可能最终被B组织称之为攻击者Y和Z。处理这种组织形式非常困难,除非他们默认这是同源的(如同一政府)。但如果他们采取这种方式,我们就先天限制了自己的视野,不断围绕这一假设打转。

迈克·安德斯, Shadow Blade Technologies的网络情报研究员有着一种乐观的态度,毕竟任何“智能”都做不到100%准确。“除非猜测的结果被证实,所有的情报工作的正确可能性总会低于100%,甚至被证实后这些工作也可能是错的!等待准确率100%的溯源不过是个用烂了的借口。缺乏完整的智慧永远是用于这一目的。是否能在深知他们信息可能错误或数据不足的情况下作出判断,是区分真正的领导人、决策者和酒囊饭袋的依据。”

误导性的信息、方向和标志

一些专家担心不同的攻击源会故意误导溯源机器。

巴塞洛缪警告说:“有很多攻击者积极使用欺骗手段来误导或迷惑调查者。我们理论上做得到区分各种案例中的错误标志,然而,有些攻击者非常善于伪造出蛛丝马迹来让人追寻。近年来,这一趋势越来越流行,我认为它只会越演越烈。”

哈利补充:“有些标志攻击的目的就是产生错误溯源。同时,很多攻击试图伪造编程细节、时间轴等信息”

克罗申科警告:“黑帽子们可以轻易用多国家的数十个VPN来骗过FBI的机器,或利用FBI内部IP开展攻击。这些案例在技术和政治层面上都难以调查。我们能清楚地猜到幕后攻击者是谁,但是除非攻击者犯下错误导致暴露,我们就没有任何确切的技术证据。”

科伦斯认为良好的溯源引擎将让虚假标志的行动更加困难,但也无法让其根绝,“除非攻击者知道用于溯源的具体模型。例如,国防部将获得的所有信息,这样他们才可以让假标志能愚弄系统——例如说服总统X国对我们发动了攻击。”

网络战争

溯源结果被认可的可能后果之一就是推动本就必然发生的网络战争。如果一次破坏性的网络攻击来源被锁定在特定某一国家政府,被攻击的政府就不得不公开还击。

巴塞洛缪:“关键问题在于:虽然创造了新的技术来帮助溯源是可喜可贺的,我们却一定不能过分依赖这种“证据”或简单地以它为工具来分析情报。”

科伦斯则认为,虽然网络战争是不可避免的,但是准确的溯源会使它减少。这就是溯源的威慑效应。“网络战争是不可避免的……之所以不可避免,是因为攻击便宜易行而溯源困难重重。如果能“解决”溯源问题,哪怕只是部分解决,也能使任何国家在攻击前不得不三思(为避免被发现)。

Sqrrl的卡恩指出报复性反击不会仅仅在于自发的网络层面或战争层面。“如果一次网络攻击美国利益严重受损,美国政府将无所不用其极,来对敌人迎头痛击,其中可能包括外交谴责、具体动作和(秘密或公开的)网络行为。”

迈克安德斯也指出,政府永远不会只根据这一个情报来源就进行决策。“网络战争是一种可能的选择。但是,就像所有关于战争的决定,它永远不会仅仅根据一件事或一个事件而产生。或者至少说,它不应该这么潦草。我们需要牢记:真正的情报工作在于从数据中提炼信息和对信息加以分析。”

网络溯源是情报归纳的一部分。溯源不仅仅是一个组件,但也不是下结论前最后一步。任何战争的决定都不会仅仅采取黑箱运行的结果,而需各种情报的全面分析来得到精确性。这就是为什么人类网络分析师对决策过程如此重要。机器可以成为战争利器,但你仍然需要人类对他们加以控制。网络情报分析的道理与此完全相同。”

企业需要期待溯源吗?

现阶段的共识是:准确自动的溯源已经在一定程度上可实现,但是其准确率不可能到100%。我们必须考虑到始终存在的错误输入和弱分析的危险。在这种前提下,企业(而不是政府)是否应对溯源抱有期望?路易斯·科伦斯认为企业确实应该,虽然它们现在兴致不高。

安德斯确凿地说:“企业确实应当关心。但是政府需要介入并明确限定,在尊重“网络主动防御”的前提下,被攻击的商业单位的权限范围。公开承认主动防御意味着很多,并不等同于“黑客”等传统观念中的主动进攻行为,而是一种严格意义上的网络防御行动。这需要由司法部、美国联邦调查局和国会共同推进。之后,就不会有那么对人对溯源达不到100%准确率而横加指责了”

“虽然任重而道远,找到问题的实质还是让我们倍感轻松。溯源是通向决策的一种努力,这样的努力显然越多越好,它也不可能达到100%准确——这就是网络的本质,有时候你必须习惯它。”

 

分享:

相关文章

写一条评论

 

 

0条评论