全球最大OpenStack云如何修复“熔断”及“幽灵”漏洞

作者：nana 日期：2018年06月01日阅：4,423

欧洲核子研究组织(CERN)运营着全球最大的OpenStack云，曾不得不重启其整个云基础设施以修复“熔断”和“幽灵”漏洞。

1月3日，CPU安全漏洞“熔断”和“幽灵”公布，引发全球IT用户和云运营商一片大哗。5月24日，温哥华OpenStack峰会上，运营者揭示了他们修复熔断漏洞的过程，阐述了修复过程耗时良久的原因。

说到OpenStack，世界上没有哪家运营商比托管着大型强子碰撞型加速装置和容纳有30万枚计算核心OpenStack云基础设施的CERN更大的了。Arne Wiebalck 负责 CERN OpenStack 云的整体运营，当“熔断”和“幽灵”之类的漏洞出现，他就得做出响应，部署相应的修复措施。

他说：“CERN通常会在寒假期间休息两周，所以这事儿还是大家都在家休息的时候知道的。”

CERN有一支专门负责网络安全的团队，Wiebalck的运营团队与该安全团队合作，一起弄清缓解“熔断”和“幽灵”漏洞风险所需的动作或措施。

我们最后决定关停整个云进行修复。

鉴于CERN OpenStack 云的规模，关闭和修复势必会一个痛苦的过程。Wiebalck的团队不得不重启超过3万台虚拟机，并通告成千上万的CERN云用户该重启事件。

我们的云已经在生产环境中上线了约5年之久，这还是第一次不得不真的全部关停。

CERN当然没有一次性全部关停，而是在数天之内分阶段执行修复、关停和重启过程。CERN运用了迭代的过程，最初关闭了约200个虚拟机管理程序以检查错误并查看能否顺利恢复。

虽然CERN像大多数大型IT商店一样采用自动化过程，但涉及到“熔断”和“幽灵”漏洞修复与重启，其间的大量手动过程还是不得不出动人力来执行并监控。

真的是人力，我们当然有工具可以通联数百台机器，但确实是我和我的同事在或多或少地手动执行这些过程。

OpenStack基础设施

Clarke Boylan 是OpenStack基础设施项目的项目技术负责人，用于构建全球云中所用OpenStack软件的系统就归他负责。与CERN的Wiebalck类似，他也不得不重启大量系统以修复“熔断”和“幽灵”漏洞。

Boylan称，OpenStack基础设施团队成员分担了修复工作，利用Ansible配置管理技术确保已修复的内核部署到位。

我们仍然分派了人手仔细观察，确保服务在重新上线的时候以预期的方式运行。

除了“熔断”和“幽灵”漏洞，还有对潜在性能降级问题的担忧，Boylan的团队同样对该问题加以了监测。OpenStack基础设施团队的最优先事项，是尽快部署Linux内核补丁。

更进一步，OpenStack Nova 计算项目开发人员添加了一项新功能，可增强对CPU功能标志的控制，让云运营者可以限制对CPU较危险部分的访问，缓解补丁对性能的影响。

经验教训

对OpenStack社区中像前 OpenStack Barbican 秘密管理项目技术负责人，现思科工程师 Dave McCowan 这样的人来说，“熔断”和“幽灵”问题给云运营者上了一课。

经验教训就是要为任何不测事件做好准备。在考虑构建云和规划工具的时候，要知道你可能需要从硬件上修复或更换系统中的任何东西。

相关阅读

打上熔断和幽灵补丁后 CPU哭了

关键词: