Web管理员注意：Robots.txt可透露有价值的信息给黑客

作者：Venvoo 日期：2015年05月28日阅：4,192

Web系统管理员需要注意了，robots.txt文件可以告诉攻击者目标的有价值信息，因为这些txt文件指向拥有者试图保护的目录。

Robots.txt文件会告诉搜索引擎，Web服务器上的哪些目录可以读，哪些不能读。这些文件会透露管理员存储敏感信息的位置，因为在robots.txt中提到的目录很明显就是文件所有者想要隐藏的目录。不仅是那些限制访问的路径，还有服务器上部署的技术。

有点像捂着口袋走路的行人，无疑是在告诉小偷钱放在哪里。

从防御者的角度来看，有两种常见的错误认识。一是robots.txt只是一种访问控制机制；二是该文件的内容不能被人工读取，只能被搜索引擎读取。

许多网站往往把一些有用的信息放在robot文本文档里的disallow列表中，本意是为了掩盖这些资产。但对于渗透测试人员或黑客而言，则可通过robots.txt文件更快地发现敏感信息。

加拿大的渗透测试人员Thiebauld Weksteen认为，“在渗透测试的调查阶段，测试者通常会使用一系列已知的子目录暴力破解服务器，搜索隐藏的资源。根据特定网页技术的情况，这一过程需要基于固定间隔进行刷新。”

而目录的禁止访问机制会告诉攻击者有哪些高价值的信息是应当寻找的。此外，如果这一点对于一家网站可行，那么很有可能也适用于另一家网站。

Weksteen对安全从业人员提供了他个人的建议，告诉人们如何收集子目录列表，并介绍了清理、验证最初很大的数据集的方法。只需要100行脚本代码就可以做到这种探测功能，但通过优化算法，可以进一步增进效率。

比如，以色列议会网站上的robots文件中就直接包括了1万个左右的未分类文件，通过它们可以直接发现敏感数据。另一个例子是美国国务院，虽然它将搜索关键词生成的未分类资产的字符串进行了屏蔽，但还是能够通过时光倒流网站，The Internet Archive进行访问。

有人利用Weksteen所说的方法，发现了一个可能被跟踪的女学生的身份。robot文本文件中的不允许访问索引指出了一个图像文件，文件的描述暴露了她的名字。

两个防护措施：

管理员最好通过一般条件来引用文件，而不是通过绝对路径；

更具创新性的作法是在robot不允许访问索引中设置一些假文件，部署蜜罐……

关键词: