IoT异常检测：用数据预测非预期事件

作者：nana 日期：2019年03月26日阅：5,345

这几年来，数据科学与人工智能(AI)技术已成功应用于各个领域各类事件的预测和检测。比如：

生物DNA片段
客户行为
IoT机械部分的生命周期控制
制药业新分子的生成
社交媒体情绪分析
信用卡交易欺诈检测
流行病学疾病爆发预测
心电图信号心跳分类
人脸识别
语音识别

网上搜索“机器学习用例”，会搜出连篇累牍的文档链接，都是描述机器学习(ML)算法是怎么检测或预测某些数据领域中的某类事件。

总的说来，成功的机器学习应用肯定是用充足的通用训练集训练出来的。机器学习模型在训练期间应摄入足够的可用样例以学习每一类事件。任何数据科学项目的关键，都是有足够大的事件样例集可供算法训练。

应用机器学习进行IoT事件预测

安全团队能够应用机器学习算法预测和识别机械部件损坏，或者以之检测网络安全事件吗？答案显然是肯定的。数据科学技术在IoT和网络安全领域已经得到了成功的应用。比如说，机器学习在IoT领域的一个经典用例就是需求预测。今晚有多少顾客会光临餐厅？能卖出多少箱奶？明天的用电量是多少？提前知道这些数据可以进行更好的规划。

医疗健康也是IoT数据科学非常常见的一个用例。有很多运动健身应用和设备可以监测我们的关键指标，近实时地提供大量数据供人分析和评估健康状况。

IoT领域另一个常见案例研究是预测性维护。预测机械部件是否需要维护以及何时需要维护，可以优化维护安排，延长机械部件的寿命。鉴于很多机械部件都相当复杂且昂贵，能够做到这一点可是不小的优势。只要数据集可用，这种方法就相当奏效。如果数据集还经过了合理标记，这种方法就更有效了。经过标记的数据意味着描述事件的每个数字向量都被预分配给了某一类事件。

异常发现：寻找非预期事件

数据科学有个特别的分支：异常发现。异常是什么？异常就是相当罕见，难以归入某一特定类型，难以预测。异常事件就是非预期事件，不能以当前所知加以分类。异常是数据科学最难攻破的用例之一：

当前所知不足以定义其类型。
数据中通常没有可用样例来描述该异常。

因此，异常检测的问题可以简单地归结为寻找我们毫无所知的非预期、无样例事件。虽然看起来难以解决，异常检测却还真不是什么罕见用例。比如说：

欺诈交易很少发生，但往往以一种意想不到的方式发生。
IoT中昂贵的机械部件会毫无预兆地损坏。
心电图中有时会出现无法识别的新心律失常波形。
网络安全威胁出现的时候，可能会因为之前从未见过而难以识别。

以上案例，基于已标记数据样例集的传统数据科学方法，是无法应用的。这一问题的解决方案就是对常规算法学习做一些调整。