Nuxt CNode：Node.js专业中文社区

CNode 中文社区

爬虫爬到这种【数字】，该如何解决？

发布于 7 年前作者 JZLeung 5222 次预览最后一次回复是 7 年前来自问答

正在学习爬虫，然后发现页面上看上去比较正常的数字，原来暗藏玄机。 ### 这特么的不是正经数字！！！！！！！

右键选择后，就发现了奇怪的现象，浏览器菜单根本识别不出来这是什么东西。然后查看源代码发现，好像是一种自定义的字体。

<span class="dzfoYFxr">&#100333;&#100330;&#100330;&#100338;&#100331;&#100330;</span></em><cite>万字</cite>

而且，每次刷新都是不一样的。刷新后是这样的：

<span class="xVHrzwwr">&#100518;&#100516;&#100516;&#100512;&#100519;&#100516;</span></em><cite>万字</cite>

查看元素可以发现真的是字体。

那么，请问，这种情况该如何解决？

13 回复

MiYogurt

1楼•7 年前

这是一种反爬策略。

hxc1995

2楼•7 年前

nb

dbit-xia

3楼•7 年前

应该可以根据ascii码来做个对照表

[CNodeMD]

fruit-memory

4楼•7 年前

看编码格式像是HTML Entities，Unicode编码，但是解码出来好像不是数字

function decode(str) {
  return str.replace(/&#(\d+);/g, function(match, dec) {
    return String.fromCharCode(dec);
  });
}
console.log(decode('&#100518;&#100516;&#100516;&#100512;&#100519;&#100516;'));  //袦袤袤袠袧袤

JZLeung

5楼•7 年前

@fruit-memory 因为它有相对应的字体的。而且这些字体是每次刷新都不一样。

JZLeung

6楼•7 年前

@dbit-xia 可以对应，但是这些字体是每次刷新都不一样。

fruit-memory

7楼•7 年前

@JZLeung 看你上面给的图片，数字用了特殊字体

dislido

8楼•7 年前

以前见过这样的反爬，它会生成被随机打乱的字体文件

longFeiLi

9楼•7 年前

有网址吗？我也研究研究

JZLeung

10楼•7 年前

@longFeiLi https://book.qidian.com/info/1004608738

coolfishstudio

11楼•7 年前

改成抓取 https://m.qidian.com/book/1004608738 2.右键看源代码 https://qidian.gtimg.com/qd_anti_spider/ZnVFaoWp.woff 每一分钟一改变解析找对应关系个人倾向抓取的时候移动端可是可以抓的

JZLeung

12楼•7 年前

@coolfishstudio 对耶，移动端没有使用到这种字体。谢谢你的帮助。

RSS | 源码地址

CNode 社区为国内最专业的 Node.js 开源技术社区，致力于 Node.js 的技术研究。