大数据技术如何改变备份和恢复的玩法
作者:星期一, 七月 4, 20160

如今的分布式数据库中,为这些PT级数据弄个可靠的快照可不是件容易的事

640

IT界都知道:动了软件栈的一部分,有很大的可能性另外一部分也不得不动。不用舍近求远,看看大数据,秒懂。

首先,大数据冲击了数据库领域,开拓了“向外扩展”技术新门类。那是被诸如Hadoop、MongoDB和Cassandra的产品例证的模型,数据不再被打包进一个单独的巨大的服务器,而是分散存放在多个商品服务器上。

其中的美学,当然在于灵活性:要容纳更多PT数据,只需要增加一两台廉价的机器,而不需要数出大量的钞票来将原来大象级的服务器升级成猛犸级。

一切看起来如此美好,但现在,问题来了:备份和恢复咋办?

Gartner副总裁戴夫·拉塞尔说:“传统备份产品无法应对超大数据量备份问题。该架构向外扩展的特性也让传统备份应用难以处理。”

今天的横向扩展数据库确实包含了一些可用性和恢复的功能,但通常都不像IT用户已经习惯了的那么健壮。

这是一个能让大企业在遭遇停电时陷入大麻烦的问题。但也是新一类数据保护产品开始崭露头角的机会。

数据恢复初创公司 Datos IORecoverX就是其中之一。

“如果你用的是像Oracle或MySQL这样的传统数据库,只能是扩充升级,而且需要持续的日志。” Datos IO 共同创始人兼CEO塔伦·塔库尔说。

这种情况下,那份日志的副本,就是当问题发生时的备份了。

而在今天这种数据分布式存储在多个小机器上的下一代数据库时代,事情远没那么简单。

“由于没有主控,每一个节点都独立负责自己的事务,持续性日志这种概念是不存在的。”塔库尔解释道,“不同的节点有不同的权限,每个节点都对操作有不同的视图。”

出现这种情况,有部分原因是出于对适应大数据“3V”要求(容量volume、速度velocity、多样性variety)的权衡。尤其是,为在适应疯狂高速涌来的多样化数据的同时提供可扩展性,今天的分布式数据库已经脱离了传统关系数据库遵循的“ACID”标准(原子性Atomicity、一致性Consistency、隔离性Isolation、持久性Durability),转而采用大规模分布式系统的“BASE”理论(基本可用Basically Available、软状态Soft State、最终一致性Eventual Consistency)。

这是决定性的不同。最相关的就是传统数据库全程提供强一致性的地方——也就是ACID中的C,分布式数据库则是努力谋求所谓的“最终一致性”。或快或慢地,更新最终会覆盖到所有节点,但,中间肯定会有时间差。

“如果你需要可扩展性,就得放弃一致性,二者择其一。”

这让获得可靠的整体快照以进行实时恢复变得很难。不仅是更难以在任意时间点追踪哪些数据移动到了分布式数据库的哪里,而且根植到更新的分布式数据库中的弹性特性(比如复刻),在数据被损坏的情况下也无法保护你。

“你不过是复刻了那些被损坏的数据而已。”

本月早些时候,Datos IO 发布了RecoverX,打算用被其称之为可扩展版本控制和语义式重复数据删除功能来解决这些问题。结果就是,既节省空间,又本地格式可用的集群一致备份。

美国第一资本汽车金融公司原CTO兼工程管理副总裁索维克·达斯率先感受到了备份的危机。

现在已是医疗保健初创公司 Grand Rounds 工程高级副总裁的达斯称,采用传统数据库数年之后,第一资本在几年前进行了“大转型”,铺开了类似Cassandra这样的新分布式技术。

这意味着,要找寻新的备份和恢复策略。

“大多数备份厂商和软件通常都会调整适应他们正在备份的那类系统。”

在新分布式数据库上用老式备份产品会引发问题。

“要么软件完全不知道怎么备份新的数据存储,要么只能以非最佳方式运行。”达斯说,“我们知道,得找另一种备份解决方案了。”

Datos IO 和Talena——另一家该领域的主要厂商,都在第一资本的考虑范围内。

传统的备份产品厂商也在逐渐调整自己的产品以适应大数据,不过现下的备份厂商要支持更新的技术还需要花点时间。

退回10年,一开始是非常难以为VMware虚拟机做备份的。这让Veeam这样的公司在现有厂商的鼻子底下挤进了市场,偷走了VM备份市场份额。

 

关键词:
分享:

相关文章

写一条评论

 

 

0条评论