请教各位: 我通过nodejs爬虫在网站上抓取了一些数据,并整理生成了sql语句,这些语句的数量比较多。 请问,可否把这些sql语句push进一个执行的缓冲池子,并按照先进先出的顺序依次执行?
有没有这样现成的库?或者直接就能简单的实现? 谢谢!
别这样做,内存会爆掉的。池好解决不过是个数组。但是生成快于写入你的池会越来越大
来自酷炫的 CNodeMD
直接把抓到的数据按数据表字段的格式写到txt文件,然后load data inflile xxx 一键导入
赞同2楼的说法 我就这样做的
二楼的办法是个好办法,这样导入速度更快
@yakczh
谢谢你的回答。
我现在的问题是,最终生成的数据量比较大! 目前我也是采用写入sql到磁盘的方式,但是生成的sql文件非常大,导入的非常慢。
爬虫采集的过程也是一个长时间执行的程序,每次生成的数据量不算大,如果每次能直接执行sql的话,应该比一次性导入要好一些。
请问有这样现成的解决方式吗?
@klesh 谢谢回答。
那么我的问题就是有没有这样现成的库?
能够避免这样的现象发生,比如池子满了,就发出通知,延迟往池子中写入数据?
@miaogong 生成的文件不是sql 是裸数据
CNode 社区为国内最专业的 Node.js 开源技术社区,致力于 Node.js 的技术研究。
别这样做,内存会爆掉的。池好解决不过是个数组。但是生成快于写入你的池会越来越大
来自酷炫的 CNodeMD
直接把抓到的数据按数据表字段的格式写到txt文件,然后load data inflile xxx 一键导入
赞同2楼的说法 我就这样做的
二楼的办法是个好办法,这样导入速度更快
@yakczh
谢谢你的回答。
我现在的问题是,最终生成的数据量比较大! 目前我也是采用写入sql到磁盘的方式,但是生成的sql文件非常大,导入的非常慢。
爬虫采集的过程也是一个长时间执行的程序,每次生成的数据量不算大,如果每次能直接执行sql的话,应该比一次性导入要好一些。
请问有这样现成的解决方式吗?
@klesh 谢谢回答。
那么我的问题就是有没有这样现成的库?
能够避免这样的现象发生,比如池子满了,就发出通知,延迟往池子中写入数据?
@miaogong 生成的文件不是sql 是裸数据