《数据分类分级自动化能力建设指南》报告发布
作者: 日期:2023年11月16日 阅:5,712

数据分类分级作为数据安全治理的第一步,是近年来企业开展数据安全防护工作的重点。随着企业数据量和复杂度的增加,仅通过手动方式进行分类分级已不可行,通过自动化技术提升数据分类分级效率和准确性成为当前企业组织的普遍需求。不过,组织想要实现数据分类分级自动化并不容易。首先,大多数企业在数据分类分级工作中,自动化程度仍然较低;其次,目前的自动化技术在数据分类分级准确性上存在一定偏差;此外,如何对非结构化数据进行自动化分类分级一直都是难点。

为了更好推动自动化技术在数据分类分级工作中的应用,安全牛以第十版全景图报告中数据安全细分领域调研数据为基础,邀请到绿盟科技、美创科技、亿赛通、明朝万达、神州数码、观安信息、纽盾科技、北信源(排名不分先后,按调研先后顺序展现)8家国内数据安全治理领域的代表性厂商,联合发起《数据分类分级自动化能力建设指南》报告(以下简称“报告”)研究工作,对当前我国企业组织数据分类分级自动化技术的能力供给、技术实现及应用实践进行研究和分析。2023年11月15日,报告正式发布。

报告关键发现

  1. 当前,我国企业组织在开展数据分类分级工作中,平均自动化应用程度占比不足40%,大量的分类分级工作还需要人工进行,未来自动化应用程度有较大可提升空间;
  2. 影响自动化数据分类分级质量的主要因素包括数据识别率和打标准确率。调研数据统计发现,针对结构化数据,在无人工干预下,自动化分类分级的准确率仅为60%左右,只有通过人工干预后,最终的数据分类分级准确率才可以提升到90%以上;
  3. 企业组织数据分类分级自动化技术的应用程度主要取决于以下因素:数据体量大小、数据的质量、行业规范是否明确,以及数据安全保护意愿是否持续;
  4. 数据分类分级自动化的技术方案有较强的行业属性,行业项目实践数量是考量一个厂商数据分类分级自动化能力,以及在该行业实际可用性的重要指标;
  5. 非文本文件、流媒体文件是当前数据分类分级自动化实施中的难点,也是当前主流数据安全厂商研发的重点;
  6. 目前数据分类分级自动化能力构建还以项目为主,而未来随着机器学习、知识库、大模型等智能化技术的应用,以及甲方用户数据安全能力的提升,数据安全厂商有可能会演变成为分类分级模板提供者。

数据分类分级自动化的目标

企业组织在开展数据分类分级工作时会面临诸多挑战,应优先使用效率高、周期性强且具有广泛适用性的自动化技术和方法,实现对数据的更好管理与运用。构建自动化的数据分类分级能力,将有助于企业组织实现以下目标:

  • 提升对海量数据资产分类分级的实施效率通过采用手工打标的方式对于小数据量是可行的,但是对于海量数据,无论从成本上还是从可扩展性上,人工方式均无法形成有效支撑,需要通过自动化技术来实现。
  • 提升对隐藏数据资产的发现识别能力在很多企业中,有大量没有被纳管的数据资产无法被人工方式所识别。而通过自动化的数据资产发现工具,以主动的数据资产扫描发现方式,对隐匿的数据资产进行识别发现,提升企业对数据资产的管理能力。
  • 提升分类分级知识复用能力通过数据分类分级自动化工作,企业组织可将项目形成的结论、结果、规则形成知识,并复用移植到其他数据安全管理工作中。这种知识积累可以在后续项目实施中应用,提升项目的实施效果,节约项目实施时间。
  • 提升数据分类分级工作的持续性和实时性通常情况下,以项目实施进行的数据分类分级工作,最短期限也在半年以上,大型企业同一个业务系统甚至在一年周期。而通过部署自动化的数据分类分级工具,可以让数据分类分级工作的实施更加灵活,实施周期也可以缩短至一个月。
  • 提升数据分类分级工作的联动能力人工进行数据分类分级工作,形成的结论不能动态、实时与其他安全设备联动。而通过自动化数据分类分级产品联动,能有效形成数据安全产品之间的联动。
  • 简化数据安全管理与运营通过自动化方式扫描企业数据资产,并形成数据资产地图,不仅可以提升企业对数据资产的把控能力,还可以提升数据安全运营工作的效率。

数据分类分级自动化的难点

企业在实现数据分类分级自动化的过程中,会存在以下三方面的困难和挑战:

  1. 分类分级模板自动生成挑战数据分类分级模板自动化生成需要规则及先验知识,然而在两个方面目前还比较欠缺:从生成规则上看,当前可直接用于生成模板标准、规定较少,无论是目前已有的分类分级国家标准还是行业标准,对数据分类的划分较粗,无法对应成深入到字段级规则的分类分级扫描模板。从先验知识上看,数据的业务属性明显,因此不同行业、不同企业数据分类分级模板很难直接移植。这就意味着,在进行自动化的分类分级工作前,需要有人工对测试分类分级结果进行评估,并对分类分级模板进行修改。
  2. 数据质量不稳定由数据资产扫描所识别出的数据质量是不稳定的。很多低质量的数据无法获取其属性,也无法准确地判断其内容,这一方面加大了数据分类分级自动化的应用难度,另一方面低质量数据识别出的不准确结果,也可能无论是人为修改抑或自动修改识别模型,均存在影响模型准确度的可能。
  3. 数据分类分级准确率较低数据分类分级自动化工具的准确性一直是考察数据分类分级能力的重要指标,也是数据分类分级自动化能力的重要难点。从用户侧来讲,用户对数据资产的把控管理程度、用户所在行业的标准细化程度能够影响项目的准确率;从厂商侧看,厂商数据安全服务人员的能力、已有项目积累、智能化技术的应用,均对数据分类分级准确率有影响。

数据分类分级自动化技术应用

从流程上看,数据分类分级工作可分为三个阶段:准备阶段、实施阶段及持续运营阶段。在此流程中,自动化技术主要可应用于实施阶段和持续运营阶段。

数据分类分级自动化工作原理

自动化技术在数据分级分类工作中的主要应用环节包括:

  • 基于已有的规则库,用实际的业务数据,对规则模板的应用情况进行自动化测试;
  • 对数据资产进行自动化的主被动测试。对于可以主动探测的系统,采用主动探测的方式进行扫描;对于不可主动探测的系统,采用被动监听的方式,根据数据量的大小,进行以天为单位的监听工作;
  • 对分类分级测试结果进行研判,并结合人工方式,对模板中的规则、特征等内容进行修改,在反复修改中,自动化形成适合项目的模板;
  • 通过采用模板,对数据资产依照先分类,后定级的方式,进行数据分类分级自动化打标工作;
  • 对数据分类分级结果进行评判,然后进行差值分析。如符合用户要求,则生成清单、报告等,并继续后续的数据安全治理工作。如不符合用户要求,则持续改进直至符合;
  • 对于大部分企业,还需要对数据进行持续的监督,并对增量数据进行持续的分类分级工作。

数据分类分级自动化虽然能够在减少人工、提高效率等方面,对数据分类分级提供支持,但在是否选择自动化工具时,报告认为企业还需要根据自身情况进行考量:

首先,要考虑自身的数据量,如果自身数据量不大,依靠手动的分类分级即可满足需求,分类分级自动化工具的应用对效率的提升不高;

其次,要考虑数据分类分级的应用场景。一般来讲,数据分类分级作为数据安全治理的第一步,后续必然会联动其他安全技术。而如果用户没有持续地数据安全运营场景,数据分类分级自动化工具使用率较低;

再次,要考虑在自身行业,是否有数据分类分级的标准。如果没有数据分类分级标准,建立数据分类分级的规则和模板需要较强人工讨论工作。对数据资产的打标也可能需要“一事一议”,在这种情况下,通过自动化工具提供的准确率较低,因此不适用于自动化工具的应用。

最后,要考虑数据质量,如果数据质量较差,数据资产的扫描准确率较低,数据敏感信息的识别效率也较差。在这种情况下,可以先提升数据质量,再进行数据分类分级自动化工作,或者直接通过人工方式进行。

数据分类分级代表性国产厂商分析

企业组织在选择数据分级分类自动化工具和相关方案选型时,需要从厂商的产品能力、应用能力和项目能力等维度进行考量。

数据分类分级自动化工具选型因素

本次报告根据第十版网络安全行业全景图中“数据安全”细分领域的研究数据,对领域中的部分代表性厂商进行调研访谈,并对其在数据分类分级自动化方面的应用特点进行了研究分析。

绿盟科技

绿盟科技是一家综合型安全厂商,在人工智能技术应用方面具有较强的前沿性和创新性。在绿盟科技数据分类分级产品中,应用了词向量等较先进的人工智能技术,提高了数据分类分级的准确性及效率。绿盟科技数据分类分级方案适合于较大型企业进行数据安全总体建设,特别是具备一定数据治理实践基础的企业。

美创科技

美创科技推出数据分类分级产品/方案,强调数据分类分级后的实际可用性,因此在进行分类分级时,会重点考虑与组织业务的贴合程度。同时,美创科技将数据分类分级相关产品与其他数据安全产品形成了有效联动,能够将数据分类分级结果应用在后续的数据防护、数据流转等工作中。近年来,美创科技在政府、医疗等行业的数据分类分级工作,针对行业数据的特点、类型进行了较深入的分析和了解。

亿赛通

亿赛通是一家能力较全面的数据安全厂商,能够从全生命周期的数据安全防护视角来考虑和提供数据分类分级服务方案,并与后续的安全防护工作进行联动。亿赛通在政府、金融等行业有较广泛的应用积累,特别是在具备大数据流量、交换、共享的场景下,可以基于行业经验积累和产品优势,提供完整的全生命周期数据安全治理解决方案。

明朝万达

明朝万达是国内一家传统的数据安全厂商,在数据分类分级领域有较完善的理论和技术积累,且有完整的数据安全产品能够与数据分类分级方案相配合。明朝万达在金融行业的数据安全治理中有较防范的客户积累,对于金融行业业务系统、业务数据类型有较全面了解,并以此来简化规则模板的建立,增加规则的应用效果和准确性。

神州数码

神州数码是一家传统的信息化方案商和综合服务商,近年来积极布局数据安全领域。神州数码的数据安全服务能力体系是自上而下构建,即从平台类产品布局,向底层安全防护产品提供支持和延展。神州数码的数据分类分级解决方案既可独立作为工具,也可以被集成在统一的数据安全管控平台中,与数据脱敏、数据水印、分享溯源等安全能力协同联动,构建整体的数据安全治理能力体系。

观安信息

观安信息有着较丰富的数据分类分级项目实施经验,因此积累沉淀了数量众多的数据分类分级规则模板。同时,观安信息的数据分类分级服务能力可以与其数据安全平台整合联动,支持用户企业开展持续性的数据安全运营工作。在观安信息的数据分类分级产品中,一个重要特点是可以有效支持对非文本文件的识别,例如识别人类生物特征信息等。对于一些无文本数据的分类分级工作,观安信息也可以提供图像相似度匹配等方式,进行有效发现和标记。

纽盾科技

纽盾科技将其数据分类分级产品定位于流程化、赋能,能够较好地帮助用户完成数据安全合规工作。在进行数据分类分级建设时,纽盾科技方案的特点主要体现在:一是减少用户的应用成本,二是能较好满足评估、出境等多种合规场景。目前,纽盾科技数据治理方案已经全面融合利用人工智能技术、大模型技术,帮助企业提升数据分类分级中的自动化程度。

北信源

北信源是一家传统的综合型安全厂商,特别是在终端安全管控方面有较深厚技术积累。在北信源数据安全治理方案中,对于终端文档数据的防护是其一个重要特点,并能够与涉密系统相关联,全面实现终端数据的泄露防护。北信源数据分类分级方案的另一个优势点在于对非结构化数据的安全识别和分类分级打标中,并且与终端数据防泄漏联动,实现针对性的数据资产分级保护。

目前,《数据分类分级自动化能力建设指南》报告已经在安全牛商城上架,获取完整版本报告,请点击识别下方二维码:

申明:本文系厂商投稿收录,所涉观点不代表安全牛立场!


相关文章