人工智能?机器学习?深度学习?安全界用辞令人困惑,了解主要用语真正的意义,方可在信息安全的世界中游走自如。
在热情的市场营销人员口中,“人工智能”、“机器学习” 和 “深度学习” 的定义变得模糊,明确性让位于增加销量的需要。客户完全有可能遇到贴着多个此类标签,却几乎不具备这些特性的产品或服务。
机器智能的话题常会落入其独特的术语和专业概念无底洞。这些术语将构成未来安全基础设施中的重要部分,其间区别真的重要吗?
三个分支
总的说来,机器 “智能” 就是一套系统,摄入数据,产出结果,并且随着数据摄入量的增加而不断变得更好、更快。整个机器 “智能” 大类下有三个标签常被贴到系统上:机器学习、深度学习和人工智能。每一种都有其独有的数据处理方式和结果呈现方式。
这三种方式在运行机制上的差异使得它们分别适用于不同的任务。而其间最为突出的差别存在于人工智能 (AI) 和其他两种之间。简单讲,AI 的结果能令你震惊,而其他两种则“只”能让你惊异于其速度和准确性。
机器学习
机器学习采用静态模型(营销人员口中的 “启发式方法”)而非僵化的算法编程来获得结果。从稍微不同的角度观察,机器学习可以运用大量输入来获得特定的结果集。
市面上很多技术都可以归到机器学习上来。比如监督和非监督式学习、异常检测,以及关联规则。以上几种技术中,机器学习都可以从中输入新的学习样本,让其作为动作依据的算法模型更加丰富、全面、准确。
所以,关键就在于 “特定结果集”。比如说,如果你想让机器学习系统分辨猫和狗,你可以教它各种用于定义猫和狗的参数。越多数据用于构建模型,该系统就越能准确区分猫和狗,最终能够基于耳朵或尾巴分辨目标对象是猫还是狗。但即使你拿出的是一只鹅,该系统也会告诉你是一条狗还是一只猫,因为判断结果就只有这两种选择。
如果目标是分类多种输入,或者指示要采取的特定动作以完成自动化过程,那么机器学习就是非常合适的一种技术。
深度学习
深度学习归属机器学习范畴,但是其中尤为特别的一类。“深度学习” 表明神经网络属于处理技术大家族。尽管神经网络面世已久,但最近十年的发展才令该技术更贴近应用开发人员。
如今的神经网络基本上采用层次化技术在多个处理层间传递输入。这是神经网络模拟动物智能的一种方式。这种拟态使深度学习适用于为数不少的一系列应用。
安全之外的语音识别和图像识别应用就常建立在深度学习技术之上。而在安全领域,深度学习常见于恶意软件检测和威胁检测系统。因为神经网络节点间的连接数量(从几百个到数百万个不等),学习和处理主要发生在中央云系统,而学习结果应用在网络边界的那类应用,常会用到深度学习技术。
沿用前文中举的猫狗分辨例子,深度学习也能够学习如何分辨猫和狗,经训练后能判断狗和猫的品系,甚至能达到根据外貌特征给杂种狗指派可能品系的程度。但,深度学习仍然只局限在分辨猫狗上,可怜的大鹅依然不存在于深度学习的结果集中。
人工智能
机器学习和深度学习系统都是不断摄入大量数据,返回特定参数集范围内的结果。所以,这两种技术便于集成到自动化系统中。人工智能则不然,其得出的结论可能超出定义的参数。人工智能拿出的结果会令你惊讶。
若咨询学术界 AI 研究员,他们会说市面上的 AI 都不“真” AI。他们的意思其实是当前不存在通用 AI ——《太空漫游 2001》里 HAL 9000 那种人工智能电脑。
但是,可针对特定问题应用先进智能的 AI 系统是存在的。IBM 的 Watson 就是其中最为知名的,但还有其他很多特定于应用的 AI 引擎为各供应商所用。“深度伪造” (deep fake) 音视频引发的广泛担忧,也是不同应用和服务中所用 AI 功能催生的。机器人,包括自动驾驶汽车,则是另一个例子。
AI 系统应能纳入深度学习中建立的所有模型信息并加以延伸。再给多一点信息,AI 系统还可能分辨新图像是哺乳动物还是其他种类的动物,即便呈现在眼前的是消防栓的图片,AI 系统也能告诉人类操作员这是从未见过的新 “动物”,需要更多学习。AI 的结果可能跳出给定的结果集。
网络安全领域里,分析师用 AI 帮助筛选和分类每天涌入安全运营中心 (SOC) 的大量输入数据。需要指出的是,现今非预期结果出现的可能性意味着,AI 是用来辅助或增强人类分析师的,不仅仅用于驱动安全自动化。
天网预备役
面对以上几种机器智能,操作人员必须警惕两大问题,其中一个问题由内部力量驱动,另一个问题则受外因推动。内部问题是所谓的 “模型偏好”——系统模型中用于学习的数据会使模型偏向特定分析方向,而不是由系统自然得出数理上正确的答案。
外部问题则源自 “模型中毒”,也就是有外部因素确保模型得出不正确的结果。取决于应用,中毒可导致令人尴尬或灾难性的结果,IT 或安全人员必须警惕这种可能性。
相关阅读