一个微小错误如何令半个美国断网
作者: 日期:2017年11月08日 阅:3,665

1年前,一场针对域名系统服务提供商Dyn公司的DDoS攻击,导致大半个美国互联网连接断绝。11月6日,全国范围内的一系列断网事件重现。不过,原因却更令人无语:互联网骨干网公司兼企业互联网服务提供商(ISP) Level 3 的一个错误配置。网络分析师称,该错误配置,是会造成涟漪效应的一个路由问题,给康卡斯特、Spectrum、威瑞森、Cox和RCN之类的公司带来了麻烦。

最近刚被CenturyLink收购的Level 3,在给媒体的声明中称,该公司已在90分钟内解决了此问题:

我们的网络经历了一次服务中断,影响到一些基于IP服务的客户。该中断由一个配置错误导致。

Level 3 网络中断时,康卡斯特用户就已开始报告了,但该公司称其正在监测“某外部网络问题”,而不是该公司自身基础设施上的问题。RCN证实,6号时因 Level 3 而遭遇了同样的网络问题。该公司称,已通过重路由流量到另一家骨干网,而恢复了RCN服务。

DDoS及网络安全公司Arbor Networks首席工程师罗兰德·多宾斯称,该错误配置是“路由泄露”。

ISP采用“自治系统”(AS)跟踪IP地址所处网络,并在其间路由数据包。他们使用边界网关协议(BGP)来建立并沟通路由。比如说,数据包可在网络A和网络B之间路由,但网络A还能通过网络B,将数据包路由到网络C。这就是ISP间交互操作让你得以浏览整个互联网的机制,互联网用户并不仅仅局限在浏览自家ISP所拥有的IP地址上。

而在“路由泄漏”中,自治系统会发布其网络上不正确的IP地址信息,导致原始ISP和其他试图通过路由流量失败或低效进行。这就像是保持交通导向正确方向的路标被标错了一样,各种各样的混乱就随之而来了。

路由泄漏有可能是恶意的,有时候被称为“路由劫持”或“BGP劫持”,但6号的事件似乎是低级失误发酵出全国性影响的案例。意外路由泄露导致大规模掉线的情况以前也出现过。

多宾斯称:“人们想要调整路由策略,然后犯了错。”问题可能源自CenturyLink试图集成进 Level 3 网络,或者源于典型的流量工程和效率工作。

路由泄漏导致的各种规模断网,数十年来一直没停过。ISP试图通过“路由过滤器”——检查ISP和客户收发数据包的IP路由,来最小化路由泄漏导致的断网,并捕获任何有问题的规划。但面对当今如此之大的互联网规模,这些过滤器非常难以维护,也会出现其自身的错误。

6号的断网,再一次凸显出连接有多岌岌可危,也表现出互联网架构的某些特定方面——灵活性及易用性,会给这一重要服务带来的不稳定性。

 

申明:本文系厂商投稿收录,所涉观点不代表安全牛立场!


相关文章