node.js实现简单爬虫
工具:cheerio
cheerio 是nodejs特别为服务端定制的,能够快速灵活的对JQuery核心进行实现。它工作于DOM模型上,且解析、操作、呈送都很高效。
更多API参看:
我们以慕课网页面为例,爬取每个视频课程的标题和课程对应id,期望结构如下:
第一步,我们用node写一个请求,获取想要爬虫的网站html,这里以慕课网为例
第二步,我们根据需求来编写过滤HTML的函数,将过滤后的数据打印在控制台。
爬虫结果:
小结:node.js使得JavaScript代码能够运行在服务端,从而进行一些操作,node.js的更多用法参看后续文章.