数据量飞升的同时需要高性能的支持:这家初创公司如何做好大数据的安全
作者:星期四, 十月 10, 20190

数字时代带来了海量的数据,而中国的快速发展和大国人口为大数据的应用提供了一个全球范围内最适宜的环境。大数据环境相比传统数据库环境,不仅仅是数量级上的提升,更需要在保持性能的情况下进行计算——这无疑给大数据的安全带来了更多挑战。那么大数据安全该如何落地?大数据和大数据安全的发展又通往何方?洽闻国内专注大数据保护的厂商——观数科技近期进行了新一轮千万级的融资,安全牛采访了观数科技创始人李科,并就这些问题以及观数科技的发展进行了解。

人物介绍

从主机安全到大数据安全

安全牛:观数的团队是以前椒图科技的,而椒图科技是致力于主机安全的,那你们怎么就开始做数据库安全、大数据的安全了呢?

李科:这其实和我们从椒图离开有直接关系。我从椒图离开的时候,因为竞业限制,需要重新选择方向。而我们发现,在大数据这个领域,也需要用到访问控制,只是主体和客体发生了变化,但技术的使用和目标却依然是一样的。

安全牛:我感觉应该还是有点区别的:主机安全主要面对的是系统,而大数据的安全则面对的是数据库。

李科:技术栈确实不一样,但本质上只是主体和客体的变化:在操作系统上,主体可能是用户和进程;在分布式数据库上主体就可能是列、组、字段等——但进行防护安全理念是不变的。所以,我们就可以把之前做主机防护的思路转化到分布式数据库上。

安全牛:所以你选择转移到大数据,是因为你觉得大数据是未来的方向,而且暂时没什么人在专营大数据保护这个领域。

李科:在 2015 年寻找方向的时候,我们首先在考虑云计算。但是,云计算各种层面上都和主机安全重合度太高——云计算其实是将一个主机虚拟成多个系统,但大数据恰恰相反——大数据把多个主机集合成一个系统,这其实会带来新的问题。我们自己动手后发现,根据网上的教程搭建出来的系统,只要网线能连上,就能访问 hadoop 中所有数据。然而,这些访问没有任何的账户体系,也缺乏足够的访问控制。在这样的情况下,我们在国内做了一些研究,寻找是否有专注于做大数据安全的公司,结果发现没有。但是,我们发现国外有像 BlueTalon 这样的公司;于是我们就认为这样的需求事实上是存在的。

安全牛:那在确定了这个方向之后,你们开始着手做了哪些内容呢?

李科:我们就开始往这个方向做第一款 DAF,对应 WAF( D 代表 Data )。在 2016 年做出来了以后,拿到公安部三所去送检。当时国家也还没有标准,所以专家认为这是可以填补国内空白的工作,就去参照国外同类产品的功能。我们现在也是唯一一个有公安部发的针对 hadoop 安全的《信息安全专用产品销售许可证》。目前仍然只有我们一家有这个证。

大数据安全的三大痛点:敏感数据处理、合法合规、集群管理

安全牛:那你们之后都在哪些行业推广了自己的产品呢?

李科:首先是运营商。我们发现运营商在整个大数据的板块里,从技术的角度来看是最成熟,规模也是最庞大的。

其实我们刚和电信接触的时候,他们并不认可单一的产品。他们对大数据安全是有一个整体的顶层设计的,所以如果我们只能解决中间一个环节的问题,他们是没法给我们立项的——我们必须要一个整体的安全解决思路。那我们就反过来和他们沟通,询问他们的真实痛点是什么。最后,我们总结出了三个痛点:敏感数据的处理、合法合规、以及集群管理。

安全牛:敏感数据的处理一直都是数据安全领域非常重要的话题,那在大数据安全领域你们是怎么看的?

李科:这一步里细分了很多领域,比如如何梳理敏感数据资产。电信有些宽表有几千个字段,包含了身份证号、电话、家庭地址等等。电信表示他们知道自己有很多敏感数据,但是如果没有一个完善的资产表,他们无法知道这些敏感数据在哪。另一方面数据开放才有价值:数据需要在流动中才能产生价值,在这个过程需要跨部门,甚至跨机构,但是需要在流动过程中防止敏感数据泄露。

安全牛:现在你们在这个痛点上有什么样的解决方案?

李科:我们平台里有两个模块:一个是敏感数据发现,这个就对接了现在的主流大数据平台,像 HDFS、HBase、Hive 等。我们自己也定义了一个数据分类分级的标准。我们通过和人访谈,比如在电信行业之前有自己内部的一套标准,并且在今年发文正式制定。我们根据这个标准,创建了一个发现敏感数据的引擎,可以扫描数据库并生成报告,告诉用户自己的哪些敏感数据在哪个表、哪个字段。

另一个模块是脱敏,分为两种:静态脱敏和动态脱敏。静态脱敏主要用于存量数据,当要开放给其他第三方分析的时候,在从A库拖到B库的过程中,用加星、泛化等方式进行脱敏处理。静态脱敏一般没有实效性要求。静态脱敏已经在我们一期的几个电信环境都已经落地了。当我们今年在第二期的时候,就遇到了动态脱敏的需求。动态脱敏要求实时处理,这就比静态脱敏更进了一步。这个时候我们就转换思路,用 Spark 在中间做了一个转化层,这个转化层可以做到只要数据经过,就能实时进行脱敏处理。但事实上,我们发现结果不是特别理想。因为一旦数据量太大,我们这个环节就会成为瓶颈。所以,后来我们又想了一个办法:我们只截获传输中的 SQL 语句,或者是大数据取得语句,通过改造语句,直接做到在输出的时候不含敏感字段。

安全牛:感觉这个要求的技术含量很高,因为一个 SQL 指令的处理会面临的是海量的数据。

李科:对,而且语句当中存在嵌套。我们在这个技术上确实花了很长时间,而且不少厂家已经在这个坑上卡了一年多。

我们实际上也不快,只是我们在电信行业里花了一年多时间去研究这方面的实现方式。这需要同时对业务和大数据整个框架都比较熟悉才能做到。前几年都在说 NoSQL、NewSQL,但这两年我们感觉在大场景里都在转向 AllSQL——这样才能标准化。现在就有点像 Linux 十年前的环境,没有标准化。我对大数据行业前两年的印象就是乱象丛生,但现在我们明显能看到是在往 AllSQL 的方向走。

安全牛:等保2.0是今年才出的,那你们是之前就发现了合法合规是一个痛点吗?

李科:是的,因为其实除了等保,之前还有网络安全法。另一方面,工信部本身就有一套对数据安全和行业监测的标准,这其实是刚需。

安全牛:集群管理这个痛点又是怎么一回事呢?

李科:之前机器只有几十个,上百个,客户会需要一个好的管理软件,去下发补丁、统一管理。但是,现在集群数量太多了,像刚刚提到的有 1,500 个,那如何管理这样庞大的集群就成了问题。主机层面有其他厂商在处理,我们不会去插手,然而这上千个集群中会有几十种组件,使用的版本还可能有区别;那么,一旦某个版本出现性能不足、消耗内存过多、需要打补丁、甚至出现了漏洞该怎么办?我们现在把这个需求称为 “集群管理”,而且用户在这方面急需一些有管理能力的工具,而我们的平台现在也兼具了这样一部分功能:一旦安装了我们平台,那么当前集群的一些参数,比如 CPU 消耗、内存消耗,都可以被收集。我们在平台上还有一个阈值的调整,对于偏离阈值的情况进行告警;当有新的补丁发布,我们会进行提示。我们目前已经解决了集群管理中的一部分问题。这方面在未来还有很多工作要做。这可以算是泛安全的概念。

观数的技术优势

安全牛:这三个痛点是你们现在总结出来的,并且在运营商行业有了一定的成果。那现在你们是准备继续在运营商领域挖掘,还是计划扩展行业了?

李科:我们其实除了运营商,还有一个领域是电网。

因为电网除了电力输送之外,还有一个作用是信息。电网本质上和运营商是一样的,只不过电网跑的东西是它自身——国家电网是有一套自己的内网进行运行的。这一套系统的需求其实和运营商差不多。所以在电网里,我们的一些大数据审计、漏扫之类的功能也在使用。这两个行业我们已经摸索了两年多了,因此相对而言有一些经验。但是我们现在还没有做好去扩展新行业的准备。我们这次融资的目标,是将业务扩展到全国的运营商,将我们现在比较成功的模式在全国进行复制。

安全牛:我们知道现在大数据市场已经完全爆发了,各行各业都在建大数据平台。在这个情势下,很多安全需求可以很直白地被看出来。那么这些安全需求现在由谁在处理呢?

李科:运营商和电网是我们作为原厂商专门去耕耘的行业,我们并不主要去做其他行业,但是我们有合作伙伴希望我们一起去挖掘——比如深信服。我们刚中标了一个区的雪亮工程,他们使用的大数据集群和超融合一体机都是深信服的,那么里面集成的大数据访问控制和脱敏就是我们来处理。

安全牛:这么多大数据市场和结构,其实都缺乏有效的安全保护,或者是比较合理的机制。大数据平台都已经建立起来了,那这些工作是谁在做呢?

李科:有一些厂商也在跟进。大一些的厂商都已经开始涉足这个领域了。和他们相比,我们起步更早,有更多的积累,并且我们只做这一件事。举个例子,某些厂商做数据库审计,他们做了很多年,市场也很大,他们现在也在做这方面的审计,但是他们现在而言支持的组件远比我们少。

我认为做这行是需要时间的,而不是说其他厂商没有这方面的能力。

安全牛:那你们在运营商和电网两个领域的经验,以及总结出来的三个痛点是否是普适的呢?

李科:是。这三个痛点肯定是普适的。这是我们在第一年的项目中总结出来的。但是,我们在第二年的项目当中又发现了一些变化:变得更场景化。然而,场景化的需求不是厂商闭门造车就能搞明白的。我们现在的审计已经做到天天和用户在一起做分析。最初我们主要做的就是五要素:主体、客体、时间、动作、结果,形成一个记录。我们会基于记录进行分析,把数据做成了可视化——这是我们第一期的工作,达成了事后有据可查。而现在我们开始在做事件关联,就是我所审计的日志,和客户的业务产生关联性。另一方面,当我们发现某个字段出现 “update” 和 “delete” 操作,并且这个字段是敏感字段,那我一旦点开这个字段,我能发现这个字段上级属于哪个列族、哪个库,并且来自于哪——即血缘分析。这是我们现在主要在往前做的功能。

安全牛:现在大数据市场本身也在变化,比如之前都是 Hadoop,那这种情况是否会影响你们的发展?

李科:在第一年的时候确实存在这个问题,我们都要去做定制开发,所以我们支持的组件范围就相对比较广。但是现在 AllSQL 的模式正在影响用户,所有的功能都在往这个方向转,所以我们现在的精力也主要往这个方向走。我们的思路是今年在我们的电信产品中,往一个平台的方向走:无论后台是用哪种组件,只要接入我们平台,就用 SQL 的协议进行转换,从而就能做得更标准化。

大数据安全 Vs. 数据库安全

安全牛:你认为你们和普通的数据库安全厂商最大的区别是什么?

李科:其实从根本上来看,我们现在是在一线的、不完善的技术层面进行摸索。大数据解决的是性能问题;我们一直都是以此为前提在做安全。所有人都知道性能和安全是冲突的——而我们和传统的数据库安全的区别就在这点上。传统数据库在做的时候不需要太多考虑性能方面的问题,因为性能早就已经决定了——他们就是处理实时的、小数据量的内容。但是到了大数据领域,用传统数据库也能解决——用一千个防火墙;但是一旦这么处理了,也不用做大数据了,因为效率太低失去了大数据的意义。我们的技术特长和难点,就是我们一定要在兼顾性能的情况下考虑安全。

首先分布式就是有区别的——所有鸡蛋并不是放在一个篮子里,我们要解决如何整体去保护的问题。另一点就是不能影响性能。

安全牛:所以很多比较敏感的涉密单位,最后的保护方式就是加密。但是一旦加密,对于使用而言就很麻烦,性能会很低下。那你们大数据会涉及到这方面问题吗?

李科:这类单位的重点是分类分级。一旦某些信息被分类到一定敏感级别,即使牺牲性能,也必须要进行加密;未到达敏感级别就不能加密。因此,分类分级反而是这类单位大数据的最关键点。据我所知,现在有多个运营商都在要求大数据加密的组件,我们也为他们提供了一些 demo。但是要做到这件事情,首先要能梳理好企业自身的数据资产,否则全部数据都加密,大数据也就不用落地了。

观数的未来发展

安全牛:刚刚聊了很多技术方面的内容,那在市场前景、企业文化等方面,你是怎么看的呢?本次新融资的投资方是谁,这轮融资的主要规划是什么?

李科:市场前景的话,就像我之前提到的,大数据已经在开始往标准化的方向走了;对于我们而言,现在就是立足这两个行业,以我们自己的能力去深挖。在这两个行业里,我们需要做的就是把我们标准化的产品打磨出来。我们刚进入行业的时候都是接项目。尽管我们都是带着我们自己的产品和客户沟通,但是客户都觉得我们的产品和他们的实际需求差距有点大,所以就需要进行定制。结果就是前几个项目我们都是定制,再加上我们原来产品,进行了大量的开发工作。在这个过程中,我们发现,可以把一些做得很好、很标准的功能单独提取出来做成产品——这些产品是不需要我们将来去做服务的,就像防火墙以及审计类产品一样。我们今年的目标就是做出两款标准化产品。这些标准化产品的意义在于我们以后就有能力和大厂商合作,作为原厂商输出产品,给一些深信服、绿盟、奇安信等大公司员工进行培训,让他们提供服务,甚至可以将大量的利润让给这些公司。只有这样通过渠道,像我们这样以技术,而非销售为导向的公司,才能提升产品的销售量。这是我们现在最重要的事情。

我们本次投资方是瀚晖资本,是一家关注高成长性的投资机构,此前成功投资过欧派家居 (603833)、科顺股份 (300373)。本次融资主要规划是建立销售 体系和技术支撑队伍,提升服务质量和能力,进一步扩大市场。

安全牛评

观数科技通过自身与国内大数据应用能力最强的运营商领域的合作,逐渐总结出了大数据安全的三大痛点:敏感数据的保护、合法合规、大量集群管理,在原有功能的基础上进一步针对痛点进行开发。这些是观数成立以来专注于研究大数据安全,和客户一起研究、分析的成果。安全领域需要大量的积累,尤其是针对客户需求的总结,而不是闭门造车地一味追求某种功能。观数因起步早产生的经验积累,与他们对大数据安全的专注,成为其在这一领域立足的优势。

另一方面,观数科技的 CEO 李科也提到,大数据的整体方向也将是走向标准化。这一趋势,无论是对大数据平台,或是正在涉足大数据安全的厂商,都是在考虑自身产品开发与落地时必须意识到的因素。

 


相关文章

写一条评论

 

 

0条评论