Nuxt CNode：Node.js专业中文社区

CNode 中文社区

nowall被爬虫盯上了，怎么办？

发布于 13 年前作者 guilin 6900 次预览最后一次回复是 13 年前来自

nowall.be 是 nodejs实现的网页。代。理。其中链接可以包含整个互联网。所以当爬虫进入之后就会无休止的抓取。而且爬虫们很多都不遵守robots协议。

需要想个办法来屏蔽这些爬虫。

5 回复

1楼•13 年前

可以用做一个middleware,HTTP头来判断爬虫，然后屏蔽之。例如Google爬虫的头是 googlebot(at)googlebot.com 百度是 Baiduspider

2楼•13 年前

不错。顺便更新了以前写的一个middleware一直还没用过。 https://github.com/guileen/connect-block

3楼•13 年前

@guilin block参数只有IE，你是想表达什么吗，呵呵

4楼•13 年前

是bug, 这种在js中动态拼装的url, 很容易出问题.

RSS | 源码地址

CNode 社区为国内最专业的 Node.js 开源技术社区，致力于 Node.js 的技术研究。