手机爬虫app推荐 图片爬虫app最新版

前天给大家整理了免费数据源网站合集,看大家的反馈很积极,有粉丝留言说,她还想要爬取一些网页的数据进行分析,不知道该如何下手
目前的用的比较多数据爬取方法是用python爬虫,这两年python很火,网上关于python爬虫的教程也很多,大家可以自行学习,但是对没有代码基础的朋友来说,短期上手python还是很困难的 。
于是我就连日整理8个零代码数据爬取的工具,并附上使用教程,帮助一些没有爬虫基础的同学获取数据
1.Microsoft Excel没错,第一个要介绍的就Excel,很多知道Excel可以用来做数据分析,但很少有人知道它还能用来爬数
步骤如下:
1)新建Excel,点击“数据”——“自网站”

手机爬虫app推荐 图片爬虫app最新版


(2)在弹出的对话框中输入目标网址,这里以全国实时空气质量网站为例,点击转到,再导入

手机爬虫app推荐 图片爬虫app最新版


选择导入位置,确定

手机爬虫app推荐 图片爬虫app最新版


(3)结果如下图所示

手机爬虫app推荐 图片爬虫app最新版


(4)如果要实时更新数据,可以在“数据”——“全部更新”——“连接属性”中进行设置,输入更新频率即可

手机爬虫app推荐 图片爬虫app最新版



手机爬虫app推荐 图片爬虫app最新版



缺点:这种方式虽然很简单,但是它会把页面上所有的文字信息都抓取过来,所以可能会抓取一部分我们不需要的数据,处理起来比较麻烦
火车头采集器官网地址:http://www.locoy.com/
火车头是爬虫界的元老了,是目前使用人数最多的互联网数据抓取软件 。它的优势是采集不限网页,不限内容,同时还是分布式采集,效率会高一些 。不过它规则和操作设置在我看来有一些死板,对小白用户来说上手也有点困难,需要有一定的网页知识基础
操作步骤:(以火车头8.6版本为准)
第1步:打开—登录
第2步:新建分组

手机爬虫app推荐 图片爬虫app最新版


第3步:右击分组,新建任务,填写任务名;

手机爬虫app推荐 图片爬虫app最新版


第4步:写采集网址规则(起始网址和多级网址获取)

手机爬虫app推荐 图片爬虫app最新版


第5步:写采集内容规则(如标题、内容)

手机爬虫app推荐 图片爬虫app最新版


第6步:发布内容设置勾选启用方式二(1)保存格式:一条记录保存为一个txt;(2)保存位置自定义;(3)文件模板不用动;(4)文件名格式:点右边的倒立笔型选图片爬虫app最新版(手机爬虫app推荐);(5)文件编码可以先选utf-8,如果测试时数据正常,但保存下来的数据有乱码则选gb2312;

手机爬虫app推荐 图片爬虫app最新版


第7步:采集设置,都选100; a.单任务采集内容线程个数:同时可以采集几个网址; b.采集内容间隔时间毫秒数:两个任务的间隔时间; c.单任务发布内容线程个数:一次保存多少条数据; d.发布内容间隔时间毫秒数:两次保存数据的时间间隔;

手机爬虫app推荐 图片爬虫app最新版


附注:如果网站有防屏蔽采集机制(如数据很多但只能采集一部分下来,或提示多久才能打开一次页面),则适当调小a值和调大b的值;

推荐阅读