BlackHat2015焦点访谈：中国黑客如何玩转深度学习

作者：aqniu 日期：2015年08月07日阅：6,391

在大数据分析领域，中国公司正在迅速赶上世界的先进水平，这是因为中国公司有两方面的优势

今年黑帽大会的一个热点就是大数据分析在网络安全中的应用，有不少公司像Cylance，Intel， 360， Novette等公司都有关于大数据分析在安全领域应用的演讲。由于360天眼团队王占一的演讲是唯一的一个中国人的演讲，又涉及到深度学习领域，特别引起了我们的关注。

王占一在演讲中，简单介绍了通过多层神经网络组织成一个深度学习系统的基本原理，然后就开始介绍360的研究团队对这一系统进行的工程优化以及利用此系统进行流量分析的情况。他的研究团队利用在内网收集的大量流量数据进行模型训练，能够比较准确地识别各类基本的网络协议以及不同的应用，对网络协议的识别准确率能够达到95%以上，对不同的应用也有相当的识别率（90%以上）。通过对系统的工程优化，他们团队的系统支持并行运算和GPU运算，使得系统效率能够显著提高。基本可以做到对流量的实时识别。

会后，安全牛对王占一进行了专访，一下是专访的内容节选

安全牛（安）：今天首先祝贺您演讲成功。演讲的内容也很精彩，很有启发性。

王占一（王）：谢谢，今天是第一次在黑帽上发言，还是有点紧张，英语不太好。

安：听了您的演讲，我有几个问题想请教一下。第一个问题是，你提到系统能够进行实时识别，请问具体的指标是什么。

王：从我们的实验来看，我们如果只用CPU计算的话大概每秒能处理几万条记录，如果用GPU的话，可以达到每秒十万以上的处理能力。

安：这个处理能力对于企业级应用来说具有实用性了。有没有计划产品化？

王：目前我们还准备进一步完善一些算法和系统上的东西，等成熟了后就可以考虑产品化的事情了。

安：你提到你的训练数据集有数百万条记录，对这些记录的标示添加是怎样的方式。是人工的还是自动的方式？

王：在数据清洗和整理这里面有人工和自动的方式。对于流量识别的训练数据集我们有同事进行标注也有一些自动的方式。对应用流量我们有一些自动化的方式。

安：我看刚才Q&A的时候也有老外问是不是对这么大量的数据采取人工方式标注，看来你们公司在这方面也是投入了不少人力成本的。

王：对，公司在这方面还是不错的。

安：在您的演讲里，您提到了识别的准确率有的达到了97％， 98%，那么请问你的模型识别的误报率（False Positve）是怎么样的？

王：任何模型都存在False Positive的情况，从我们的实验来看，我们的模型表现还是不错的，总体的误报率大概是百分之一点几。

安：我看您在演讲中提到的应用流量的分析主要是国内的应用，有计划延伸到一些国外流行的应用吗？

王：我们也愿意多一些国外应用的训练数据，不过由于很多国外应用在中国不能用，所以这方面的流量数据比较少。

安：能介绍一下您本人的情况以及您的团队的情况吗？

王：我是北邮毕业的，毕业以后在移动研究院工作过一段时间，主要从事用户行为分析等数据挖掘方面的研究。来360一年多了，目前在企业产品部从事大数据分析方面的研究。我们团队算上实习生是9个人，除了进行深度学习的研究，我们也做一些别的数据分析方面的研究，比如基于图论的数据分析模型的研究等等。

安：非常感谢您接受安全牛的采访，祝您和您的团队取得更多的成果。

王：谢谢。

安全牛点评：在大数据分析领域，中国公司正在迅速赶上世界的先进水平。我们认为中国公司有两方面的优势，第一是数据清洗方面的人力成本。中国具有相对低成本的高素质人力资源，数据分析中80%的工作其实是比较枯燥的数据清洗，这一点我们中国公司的人力成本优势能够发挥出来。第二就是我们的工程师具有相对比较强的工程优化能力。在数据分析领域，因为算法基本都是公开的，基本上比拼到最后就是模型的工程能力，在这方面中国的工程师是比较强的。因此，在大数据安全分析领域，中国公司是大有可为的。

关键词: