第8步:保存、勾选并开始任务(如果是同一分组的,可以在分组上批量选中)
Google Sheet使用Google Sheet爬取数据前,要保证三点:使用Chrome浏览器、拥有Google账号、电脑已翻墙 。
步骤如下:
(1)打开Google Sheet网站:
http://www.google.cn/sheets/about/
(2)在首页上点击“转到Google表格”,然后登录自己的账号,可以看到如下界面,再点击“+”创建新的表格
(3)打开要爬取的目标网站,一个全国实时空气质量网站http://www.pm25.in/rank,目标网站上的表格结构如下图所示
(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询, 索引),“网址”就是要爬取数据的目标网站,“查询”中输入“list”或“table”,这个取决于数据的具体结构类型,“索引”填阿拉伯数字,从1开始,对应着网站中定义的哪一份表格或列表
对于我们要爬取的网站,我们在Google sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1),回车后就爬得数据啦
(5)将爬取好的表格存到本地
八爪鱼采集器网站:https://www.bazhuayu.com/
八爪鱼采集器是用过最简单易用的采集器,很适合新手使用 。采集原理类似火车头采集器,用户设定抓取规则,软件执行 。八爪鱼的优点是提供了常见抓取网站的模板,如果不会写规则,就直接用套用模板就好了 。
它是基于浏览器内核实现可视化抓取数据,所以存在卡顿、采集数据慢的现象 。不过整体来说还是不错的,毕竟能基本满足新手在短时间抓取数据的场景,比如翻页查询,Ajax 动态加载数据等 。
操作步骤:
(1)登陆后找到主页面,选择主页左边的简易采集,如图:
(2)选择简易采集中淘宝图标,如图红框:
(3)进入到淘宝版块后可以进行具体规则模板的选择,根据楼主截图,应该手提包列表的数据信息采集,此时我们选择“淘宝网-商品列表页采集”,如图:
(4)然后会进入到信息设置页面,根据个人需要设置相关关键词,例如此处我们输入的商品名称为“手提包”,如图:
【手机爬虫app推荐 图片爬虫app最新版】(5)点击保存并启动后就可以进行数据采集了,以下是本地采集效果示例,如图:
GooSeeker 集搜客网站:
https://www.gooseeker.com/
集搜客也是一款容易上手的可视化采集数据工具 。同样能抓取动态网页,也支持可以抓取手机网站上的数据,还支持抓取在指数图表上悬浮显示的数据 。集搜客是以浏览器插件形式抓取数据 。虽然具有前面所述的优点,但缺点也有,无法多线程采集数据,出现浏览器卡顿也在所难免 。
推荐阅读
- 压缩视频的软件 手机视频压缩神器
- 苹果有什么游戏好玩 苹果手机必玩的游戏
- 安卓手机工具推荐 安卓手机必备
- 图片美化软件哪个好 最火给照片做装饰的app
- 三星i9308好用吗 三星i9308手机参数
- 手机黑屏了怎么办 解决方法
- 手机辐射大吗 手机辐射对孕妇的影响
- 联想手机乐檬k3怎么样 联想乐檬k3手机参数
- 文字识别软件哪个好用 免费扫描识别文字app
- 华为哪个系列手机好 华为最值得入手的手机推荐