美国情报高级研究计划署(IARPA)将其1140万美元“网络攻击自动化非常规传感器环境(CAUSE)”项目签给了全球第三大军品公司——BAE Systems。
IARPA的项目简介指明:“IARPA希望执行者能识别并提取内部和外部传感器(常规和非常规)先导信号,并将之用于产生网络攻击警告——概率预报和/或检测。执行者将产生针对参与CAUSE项目的一家或多家美国产业公司的真实网络攻击。”
目的在于预测网络威胁,而非仅仅检测。公司企业此后将能够防范攻击,而不用为响应攻击焦头烂额。
BAE声称:CAUSE项目将开发结合现有高级入侵检测功能和非常规公开可用数据源的预测方法,利用那些一般不与网络安全联系起来的数据源。“研究人员将寻求从大量嘈杂的外部数据流识别出攻击主要指标,然后从不同来源关联相关数据以产生准确的、可执行的警告。”
这不是第一个寻求用计算机的力量预测未来的项目。现有的两个例子是洛克希德马丁公司维护的“综合危机早期预警系统(ICEWS)”,以及乔治城大学卡勒夫·李塔路教授开发并维护的“事件语言和语调全球数据(GDELT)”项目。所有3个例子,ICEWS、GDELT和现在的CAUSE,其基本前提,都是输入大量数据,处理那些数据,并基于那些数据输出预测。
数据明显是关键。只有具备了正确的源数据、合适的源数据量,和正确的分析算法,预测才可能成功。稍早的预测系统都不是太成功。很多之前的努力都有待证明其可操作性。政治科学家40年来不断尝试自动化预测这些事件之后,大数据框架提供了某种程度上的洞见,但在可靠性和一致性上完全失败。其中一个关键原因,就是数据科学上的一句老话:“垃圾进,垃圾出”——胡乱输入,自然就得到胡乱的输出。
但是,今天可用的数据,在质量和数量上,都远超几年前的。大多数网络早期预警框架只关注某个特定数据流或最多少量几个,而且它们几乎没有囊括进人类行为。CAUSE跳出了这种模式,建立在之前自动化的开源工作基础上,利用社交媒体、传统新闻媒体报道和其他公开来源,进行攻击或不稳定状态预报。
“社交媒体”这个元素进来吸引了大量关注。上周,推特CEO杰克·多尔西将自家媒体形容为“人民的新闻网络”。虽然某种程度上这或许是真的,但推特流在提供可靠预测上是否足够准确,还有待观察。飓风桑迪登陆之后,如果首批救援人员用推特来找受灾最严重的地方,那他们就会只去往电力尚存的区域,而不是那些连网都上不了的地方,但这些地方恰恰是应急救援需要关注的。
CAUSE与之前预测方法的区别,就在于此处。虽然还是会从推特之类的“嘈杂”来源获取数据,CAUSE会寻求在做出预测性结论前,将这些数据与更可靠的来源相互关联。即便如此,预期数据源里还是会包括甚至比推特更不可靠的,比如来自暗网的数据。虽然也是有用的数据源,但暗网数据未必能纳入可靠范围,尤其是从网络早期预警所要求的速度和覆盖面来看。
瑞贝卡·卡西,BAE首席研究员,解释了CAUSE工作原理。“我们的系统,将人类行为、网络攻击和社会理论,应用到公开信息上,开发出对攻击早期阶段指示性行为的非常规传感器。这些传感器会搜索包括情感语言、情绪和交通话题的信号。传感器的输出将会与根植了专门知识的模型进行融合,预测出正对特定目标的网络攻击的可能性。这与传统网络攻击检测完全不同。传统方式利用运行在私有数据上的常规传感器,重点在于检测正在进行的事件,而不是预测。我们的传感器利用一系列技术和算法,来挖掘数据的图解展示。”
目前还有待观察的,就是大数据融合、处理能力和高级分析上是否有足够的进步以将良好想法转变为可靠行动。