访谈|数据流动时代 大数据风险如何管控?
作者: 日期:2019年04月09日 阅:10,144

大数据时代,数据从被保护资产上升到生产资料,数据只有流动才能实现更大的价值,这一理念已经成为共识。但数据在流动中会面临更多的风险,既有数据泄露的所有者权益损失的风险,也包含了对其他方如个人隐私侵犯和影响国家安全的风险。对应的,这种流动的数据环境对数据安全的体系提出了新的要求,很难再用传统的系统安全保护体系:通过静态的隔离保护措施来控制数据在流动中的风险。如何看待和解决数据流动带来的安全挑战?安全牛近日采访了数据安全创新企业全知科技的创始人,方兴。

个人简介:

方兴,网络ID FlashSky。知名网络安全专家,历任启明星辰ADLAB副经理、EEYE高级研究员、微软全球特聘安全专家、翰海源CEO、阿里巴巴资深安全专家。2003年世界首发MS03-026漏洞细节,利用该漏洞的冲击波蠕虫引发了全球安全体系变革,2004年世界第一个发布了WINDOWS内核溢出远程利用的技术,同时是最早的漏洞自动化挖掘研究者,第一个BLUEHAT的中国演讲者,被《WINDOWS利用技术的过去现在和将来》列为影响了WINDOWS安全技术发展进程里的唯一中国人。连续创业者,2010年和王伟联合创立翰海源,专注APT领域,2015年翰海源被阿里巴巴全资收购,2017年创立了数据安全公司全知科技,主攻数据安全。

一、数据成为生产资料 安全正在变革

安全牛:近两年数据安全无疑已经成为业界非常关注的技术领域,你认为是什么导致了数据安全的大热呢?

方兴:在公司发展定位的思考中,我逐步认知到数据安全的视角正在发生着很大的转变,本质原因是大数据和AI技术的发展,在改变着数据和信息这二者之间的关系。为此我曾经请教过很多专家“信息和数据到底是什么关系”,经典的回答一般都是“数据是信息的载体”。我们传统的数据安全以这个认知为基础,保护数据这个载体的安全,就是保护着信息安全。但当今的“人工智能-AI”和“大数据”技术,则在变革着数据仅仅只是信息载体的这一定位

在情报学中,对数据和信息之间的关系的理论定义如下。

  • 数据位于最底层,它是对事物客观的描述或被抽象出来的数字。
  • 信息依赖于对数据的解读,同样的数据不同的解读会产生出不同的信息。
  • 知识则是信息之间的结构关系,人们通过对信息的归纳、演绎和总结来发现信息之间的关系,形成知识
  • 通过利用知识和信息进行关联和推理,可以获得一些被掩藏,但对发现者有重要意义可以指导其行动和决策的信息,也就是情报

在传统的信息系统中,信息系统是提供信息的传输和存储、数值的计算、执行事务的逻辑流程,辅助人类对信息进行加工的工具。而对数据的解读、对知识的归纳总结、对情报的关联推理的活动,则是人的工作范畴,而知识和情报会再以信息的方式存储在系统中再次被人使用。对这样的信息系统,最有价值的就是以数据方式存储在其内的知识和情报这样的信息,保护数据本质是保护知识和情报这种高价值的信息。

但AI和大数据技术正在重构这四者的关系, AI的本质是从大量的数据中,通过机器学习、把一种统计概率转换成可用于决策并指导行动的知识,如阿尔法狗。而大数据技术,是通过寻找信数据之间的相关关系,来获得信息之间的结构和关联,本质就是通过这种相关的关系挖掘获取知识和情报的一种过程。当前企业推进数字化,本质就是通过业务线上化来实现对更多数据的获取,以便利用大数据和AI技术,将数据转化为可以指导企业业务行动和决策的知识和情报(智能化)并应用于业务过程。在这个以数据为中心重构业务的过程中,信息系统的定位由从人类处理信息的辅助工具,逐步演变成汇集数据并生产企业业务所需的知识和情报的生产体系,因此数据则从单纯的信息载体这一角色,演变为生产过程里的基础性的生产资料。这个角色的转变,带来了新的数据安全问题和需求。

二、数据安全的三个维度

安全牛:这个视角下的数据安全和传统视角下的数据安全有什么区别?

方兴:这个视角下的数据安全,是需要考虑三个不同维度的风险。

一个是传统的资产安全维度,如何保护数据现在的价值不受损失。对资产而言的最大价值即今天的价值,因此资产维度安全天然有减少资产被使用的场景以控制风险的倾向。

第二个是生产效率维度。生产效率是站在未来的价值增值的视角,为了减少今天的价值,可能导致未来更大的损失.某种意义上,对一个组织而言,不发展是更大的风险。

第三个维度是社会责任维度,生产的过程和生产输出的产物,都具有一定的社会属性,对这些过程和结果的失控,可能带来对社会和第三方的危害或损失,如导致的隐私问题、国家安全问题等。

我们看到这三个维度之间是存在本质冲突的,无法同时将三个维度的安全都做到极致。一个维度的极致安全,可能意味着另一个维度的极致风险,比如要想生产效率最高,就可能罔顾了资产安全和社会责任。但是想要追求极致的资产安全,可能就必须放弃极有生产经济价值的数据使用包括人工智能这些方向,代价甚至可能是放弃了国家的快速发展形成国家安全问题。要三者兼顾,就意味着某种意义上,我们不得不接受一些维度的风险,也就是需要认识到风险事件是不可避免的,需要通过动态的风险感知体系,以多层次风险滤出方式将三个维度的风控控制在一个最佳可接受的平衡,并通过可溯源体系不断迭代改进自己的最佳实践。

三、基于“负信任”的风控体系

安全牛:其实这是一种方法论,最终目的是要维持这三个维度的平衡。那由此推出的风控体系,该如何落地呢?

方兴:我们同样给出了一套方法体系来印证它,这套方法体系基于几个前提:

首先我提出一个“负信任”的概念。现在大家都在提零信任,零信任体系是我信任我赋权的主体对象,但我无法信任当前登录的这个用户就是我相信的那个主体对象,因此我需要结合多个维度的信息来不断识别对象,比如结合登录设备指纹,用户的登录和行为方式等,同时根据登录场景和工作需求给予用户最小化的授权,并在以后变化中持续验证这个主体对象。

而“负信任”是因为在生产中,是从效率和成本角度来组织生产,因此我们很难将生产交给完全可信的主体对象去完成,很多时候我们必须依赖不那么可信的人来完成我们生产的过程,也就是我必须给予不可信任的主体对象以权限去完成生产的工作,所以即使我能确定了你是你,也能给予你权限,但我还是无法相信你,要360度的了解你具体的工作行为和过程,也就是需要以一种“监工”的身份,对主体对象的行为,以及我需要保护或控制的对象的状态,进行行为遵从性的监督。

第二是风险的不可避免性。如果我们接受风险的不可消除性,就必须从风险不同阶段形成层次化的手段来逐层控制风险,风险从阶段角度可以可分为风险诱因(脆弱点)、风险事件、风险影响和追溯改进四个环节。敏感数据的暴露面就是一种风险诱因;有人企图利用脆弱点盗取数据,这是风险事件;数据是否丢失,丢失了多少,对客户和业务带来了多大的问题,这是风险的影响;最后对事件的追责和溯源调查,准确找到风险各个环节的问题进行改进,这是风险的追溯和改进。

以上四个风险阶段都可以控制风险,但是每一阶段都不可能完全消除风险,同时考虑生产的效率需求,通过逐层也可以把一些较大影响生产效率的阶段保护措施置换为较小影响生产效率的阶段保护措施。

风控体系实际落地时,可以分为七个步骤,我们叫RPCMART模型:

第一步:规范,梳理数据的资产,对敏感数据资产进行定级,并依据级别确定数据资产对应的保护、控制规范。

第二步:预防性保护,和P2DR里的保护基本一个含义,在一些有数据透出的边界上进行提前的保护措施。

第三步:控制,确保人接触数据的行为,以及数据资产相关的状态,符合规范。一般而言,控制是业务层面的事情,需要对应的场景业务方主动实施。

第四步:监测,传统安全体系的检测更多偏向对威胁行为和载体的检测。而这里的监测,更偏向内部授权主体的行为、保护/控制对象的状态进行监测,监测更强调持续的行为,也可以包括短期的一些手段如检查、审计等。

第五步:分析,结合各个数据流动环节的监测的信息,对数据资产的规范策略,全局分析数据风险态势,发现高危的数据风险事件。

第六步:响应,针对数据风险事件进行响应,如通过保护和控制手段进行紧急处理,同时启动相关的调查

第七步:溯源改进,它有两个角度,一个是对人的,称之为追责。另一个是事件发生过程的路径和关键原因溯源,找到引起风险事件的关键环节。并针对这些关键环节进行过程改进。

一般整体而言,风险的监测、分析、响应、溯源(MART)对生产效率的影响越小,但对能力的要求较高,否则安全风险会较大。保护和控制(PC)从风险的控制能力较强,但是会极大的影响生产的效率。这当中的平衡选择,取决于企业的实际业务场景。

总结一下,数据的核心价值在于流动过程中参与分析与运算带来的增值,而非仅仅当前已有的信息价值。但数据的流动不仅仅是物理层的载体传输的风险,更在于数据在不同组织、主体和业务之间的逻辑流动带来的风险,因此很难用传统的信息安全手段解决。所以全知科技更注重的是对数据在流动过程中的数据风险治理和数据风险监测,在兼顾数据资产安全、数据生产效率,以及数据合规风险三者的同时,建设数据流动风险的防治体系,目前给客户提供有应用数据风险防治、数据资产风险管理、大数据平台管控等多个产品方案。

四、全新视角的数据安全

安全牛:实际上,API安全、UEBA和DLP同样也在各自的维度上解决数据流动带来的风险,这与全知的解决方案又有哪些不同呢?

方兴:API安全,UEBA,DLP关注的角度有较大的差异。API安全的核心是关注数据流动【管道】的安全,通过API网关做好接口的版本,身份认证,权限等管理,它主要是针对接口本身而不是针对数据。UEBA核心关注的是数据【操作主体】的安全,通过对账号,IP等主体的行为进行建模分析,发现行为异常。DLP更多是从数据的【去向】来关注数据的安全,由于对数据本体和数据来源认知的缺失,使得DLP的可运营性较差。以上三种技术均存在不同程度的缺失,而全知的方案以【数据本体】为中心,将上述三者的能力关联融合形成更完善的数据安全方案,对数据流动的【数据本体】,【管道】,【操作主体】,【去向】进行风险监测。

比如通过对数据本体流动的追踪,我们可以关注到各自异常的流向,如在某银行数据流向的分析中,我们发现有大量的数据流向其中一台未知设备,最后调查结果发现这是一台打印机。没有部署我们的产品之前,用户并不知道这些敏感数据会通过打印方式出去,而且这台打印机也没有做任何的防护手段。

安全牛:具体到应用场景有哪些呢?

方兴:我们一个产品是应用数据安全产品、应用层数据安全是一个被大家忽略的点,但应用层数据安全有非常大的问题,比如针对阿里这样互联网平台,应用层是数据泄露最核心的场景,在应用层有很多数据泄露的模式,如

  • 爬虫:这是最有效和最广泛的手段,数据有关联性,一些我们觉得不重要的数据,在黑灰产手里可能成为很重要的桥接数据。比如利用用户对商品的评论数据来关联用户的订单;利用商家的注册ID序号来关联商家的新手程度来实施诈骗。
  • 木马植入:针对特定行业应用,如酒店入住系统、电商客服系统。开发只针对特定应用进行篡改劫持数据的木马,因为不修改系统文件,传统杀毒软件无法查杀。然后再通过人肉(如应聘)定向植入。
  • 收买内鬼:收买可接触客户数据的基层员工窃取数据。黑市上一条热数据(如交易5分钟之内的订单数据,诈骗成功率最高)可卖16元,很多基层人员难以抵挡这种诱惑。

这些应用层搞数据的手段,成本低,难防范,以我们的经验,互联网企业80%的个人信息泄露是在应用层产生的,阿里花了很大的力气来建设应用层的数据安全体系,但很多企业目前还没认识到应用层的数据风险。

全知天权(应用数据安全产品)是适用于拥有大量敏感数据或个人数据、但又需要业务员工在工作中使用这些数据的场景,比如银行、证券、医疗、电商等,他主要提供事前的涉敏接口发现和管理,事中的数据流向追踪和数据异常风险事件的发现,以及事后的数据泄露事件的快速调查和溯源能力;

另一个产品是大数据4A管控平台和大数据安全审计,帮助组织建立大数据平台统一管理能力,实现细粒度权限控制,统一认证体系,动态脱敏,多维度行为画像,适合于大数据平台广泛被分析和业务BI使用的场景。

还是数据地图产品,是围绕数据资产的识别、数据资产的分类分级,以及数据资产的状态分析便于企业更好的形成统一的数据安全策略,并针对满足GDPR和《个人信息安全规范》的要求,帮助企业开展数据资产的主体授权分析、个人数据的处理流程梳理提供了支持,方便企业快速做好隐私安全。近期的一个数据地图使用案例是一家旅游网站的合规。客户在数据资产识别后,可以根据数据的表结构相似性分析,多个库表之间的权限分析,发现安全风险点,比如未脱敏数据核查、权限核查等。

即使是通过粗粒度的分类分级,也能够通过安全策略的一致性检查和映射带来价值,这样可以让客户更有做好数据分类分级这种基础性工作的驱动力。

在不断接触客户的过程中,我们发现用户认知度其实是和数据的使用度相关的。此外,我们认为未来医疗行业对于这部分的需求会快速成长起来。因为医疗行业为了实现医疗数据的互联互通,比较理想的互联互通模式是中心化的方式,而在实际推进过程中无论是部署互联互通agent或前置机的模式,各医院之间彼此调用关系呈现网状结构,复杂的数据流动关系带来极大的数据风险。

安全牛:数据是在不断地被消化、处理,产生增值服务,进一步产生更多的数据,从而形成数据回流,全知是在数据使用流动场景中构建一体化风控体系,对吧?那结合你的从业经验和对行业的理解,谈一谈你对公司的未来规划吧。

方兴:一般而言,企业发展主要分为四个阶段:

  1. 流寇:没有主线产品,只有想法、方向;
  2. 乡勇:推出主线产品,成为某个单项产品的领头羊;就像拥有了一个据点,但须抵住各方的压力,
  3. 正规军:具备几个主线产品;相当于割据了一小块地盘,生存不是问题但如何壮大是问题。
  4. 集团军:成为一线玩家、甚至国际级玩家,需要围绕多个主线产品形成整个体系的解决方案商,强调数据安全整个领域的市场占比。

对于全知的未来规划,目标肯定是要做到更大。而要做到更大,首先公司拥有的产品和团队是最重要、最宝贵的资产,这一点上公司一定会非常重视。再者,正确的方向才能保证未来的发展,我们作为初创公司,能有幸参与到数字化时代的发展,也从另一个角度洞见了数字化时代的数据安全发展的脉搏,希望我们能随这个趋势的发展,引领数字化时代的数据安全。

安全牛评:

如何让你的数据流动起来?如何更好地保护数据流动时的价值?业务流程中自然会产生数据,被记录、被算法处理,然后形成决策,指导业务的进行,通过客户的反馈不断优化决策,使整个业务的发展走上了数据流动反馈闭环的正向循环之中。但是,与此同时数据的流动也带来了基础性、人为性或合规性的风险,这依旧是一个亟待解决的难题。利用大数据技术解决此类问题拥有十分广阔的发展前景,数据流动风险防治也一直是大数据领域的关键,所以对于未来应用于数据流动核心风险的防护,我们拭目以待。

 

申明:本文系厂商投稿收录,所涉观点不代表安全牛立场!


相关文章