现在用node写网页爬虫用phantomjs和jsdom各有什么利弊?
 发布于 12 年前  作者 foomorrow  17825 次预览  最后一次回复是 9 年前  来自  

目前用phantomjs 遇到很多问题。 看了网上的demo 用child_process来调用phantomjs 只能从stdout获取数据,或者用phantomjs写到文件里再用node打开文件获取数据。 phantomjs开发时不好调试,有时报错stdout就卡着不动了,没法查问题。

jsdom就好多了 可以用jquery直接抓dom

12 回复
khowarizmi

一般用request & cherrio基本就没问题了,有ajax的上phantomjs

alsotang

这两样不能一起比吧?

hackerjs

node.js 调试确实头疼。。

kingapple

用宝石写爬虫不是更好么?

petersun

对于ajax的页面,我只好用phantom了。。。但也遇到和楼主一样的困惑,非得将数据拉下来写文件,再让node拿,感觉好不爽。至于解析dom,推荐cherrio。

andyhu

node.js调试再简单不过了吧,连ide都不用,试试node-inspector

andyhu

宝石有什么高明之处?

jiangzhuo

这坟挖的,cnodejs是不是要考虑下跟v2ex一样的帖子排序