前天给大家整理了免费数据源网站合集,看大家的反馈很积极,有粉丝留言说,她还想要爬取一些网页的数据进行分析,不知道该如何下手
目前的用的比较多数据爬取方法是用python爬虫,这两年python很火,网上关于python爬虫的教程也很多,大家可以自行学习,但是对没有代码基础的朋友来说,短期上手python还是很困难的 。
于是我就连日整理8个零代码数据爬取的工具,并附上使用教程,帮助一些没有爬虫基础的同学获取数据
1.Microsoft Excel没错,第一个要介绍的就Excel,很多知道Excel可以用来做数据分析,但很少有人知道它还能用来爬数
步骤如下:
1)新建Excel,点击“数据”——“自网站”
(2)在弹出的对话框中输入目标网址,这里以全国实时空气质量网站为例,点击转到,再导入
选择导入位置,确定
(3)结果如下图所示
(4)如果要实时更新数据,可以在“数据”——“全部更新”——“连接属性”中进行设置,输入更新频率即可
缺点:这种方式虽然很简单,但是它会把页面上所有的文字信息都抓取过来,所以可能会抓取一部分我们不需要的数据,处理起来比较麻烦
火车头采集器官网地址:http://www.locoy.com/
火车头是爬虫界的元老了,是目前使用人数最多的互联网数据抓取软件 。它的优势是采集不限网页,不限内容,同时还是分布式采集,效率会高一些 。不过它规则和操作设置在我看来有一些死板,对小白用户来说上手也有点困难,需要有一定的网页知识基础
操作步骤:(以火车头8.6版本为准)
第1步:打开—登录
第2步:新建分组
第3步:右击分组,新建任务,填写任务名;
第4步:写采集网址规则(起始网址和多级网址获取)
第5步:写采集内容规则(如标题、内容)
第6步:发布内容设置勾选启用方式二(1)保存格式:一条记录保存为一个txt;(2)保存位置自定义;(3)文件模板不用动;(4)文件名格式:点右边的倒立笔型选图片爬虫app最新版(手机爬虫app推荐);(5)文件编码可以先选utf-8,如果测试时数据正常,但保存下来的数据有乱码则选gb2312;
第7步:采集设置,都选100; a.单任务采集内容线程个数:同时可以采集几个网址; b.采集内容间隔时间毫秒数:两个任务的间隔时间; c.单任务发布内容线程个数:一次保存多少条数据; d.发布内容间隔时间毫秒数:两次保存数据的时间间隔;
附注:如果网站有防屏蔽采集机制(如数据很多但只能采集一部分下来,或提示多久才能打开一次页面),则适当调小a值和调大b的值;
推荐阅读
- 压缩视频的软件 手机视频压缩神器
- 苹果有什么游戏好玩 苹果手机必玩的游戏
- 安卓手机工具推荐 安卓手机必备
- 图片美化软件哪个好 最火给照片做装饰的app
- 三星i9308好用吗 三星i9308手机参数
- 手机黑屏了怎么办 解决方法
- 手机辐射大吗 手机辐射对孕妇的影响
- 联想手机乐檬k3怎么样 联想乐檬k3手机参数
- 文字识别软件哪个好用 免费扫描识别文字app
- 华为哪个系列手机好 华为最值得入手的手机推荐