八爪鱼爬虫怎么用 八爪鱼爬虫( 二 )


公众号太多 , 用手机阅读容易分心?爬取到Excel里 , 线条阅读最高的开始看 。
另外还有 , 抖音播放数据、公众号阅读、评论数据 , B站弹幕数据、网易云评论数据 。
爬虫+数据分析 , 给网络带来了更多的乐趣 。
2- 爬虫易 , 利其器
提到爬虫 , 大部分会想到编程技术 , python、数据库、beautiful、html结构等等 , 让人望而生畏 。
其实 , 基础的爬虫非常的简单 , 借助一些采集软件 , 点点按钮就可以轻松的完成 。
常用爬虫软件
下面几个软件 , 是我爬取数据时用过的 , 推荐给大家:
1- 爬山虎采集器
简单易学 , 通过可视化界面、鼠标点击即可采集数据、向导模式 , 用户无需任何技术基础 , 输入网址 , 一键提取数据 。http://www.51pashanhu.com/
这是我接触的第1个爬虫软件 , 
优点:
1- 使用流程简单 , 上手入门特别好 。
缺点:
1- 导入数量限制 。采集下来的数据 , 非会员只能导出时限制1000条 。2- 导出格式限制 。非会员只能导出txt文本格式 。
2- 八爪鱼
无需再学爬虫编程技术 , 简单三步就可以轻松抓取网页数据 , 支持多种格式一键导出 , 快速导入数据库https://www.bazhuayu.com/
爬山虎无法满足我的需求之后 , 开始尝试更专业的采集软件 , 找到了八爪鱼 。
优点:
1- 采集功能更强大 , 可以自定义采集流程 。2- 导出格式、数据量没有限制 。
缺点:
1- 流程有些复杂 , 新手入门学起来有些困难 。
3- 后羿采集器(推荐)
智能识别数据 , 小白神器基于人工智能算法 , 只需输入网址就能智能识别列表数据、表格数据和分页按钮 , 不需要配置任何采集规则 , 一键采集 。自动识别列表、表格、链接、图片、价格、邮箱等http://www.houyicaiji.com/
这是我现在用的采集软件 , 可以说是中和了前两个采集器的优缺点 , 使用体验更好 。
优点:
1- 自动识别页面信息 , 入门上手简单2- 导出格式、数据量都没有限制
目前没有发现缺点 。
3- 爬虫操作过程
注意啦 , 注意啦 , 接下来是动手的环节了 。
我们以「幕布精选文章」为例 , 用「后羿采集器」体验一下爬虫的快乐 。
采集后的效果如下:
1- 复制采集的链接
打开幕布官网 , 点击「精选」 , 进入到精选文章页面 。
复制精选页面的网址:https://mubu.com/explore
2- 后羿采集数据
1- 登录「后羿采集器」官网 , 下载并安装采集器 。
2- 打开采集器后 , 点击「智能模式」中的「开始采集」 , 新建一个智能采集 。
3- 贴入幕布精选的网址 , 点击立即创建
这个过程中 , 采集器会自动识别页面中的列表、数据内容 , 整个过程是AI算法自动完成的 , 等着识别完成 。
页面分析识别中 ↑
页面识别完成 ↑
4- 点击「开始采集」->「启动」 , 开启爬虫的旅程 。
3- 采集数据导出
在数据爬取过程中 , 你可以点击「停止」结束数据爬取 。
或者等待数据爬取完成后 , 在弹出的对话框里 , 点击「导出数据」 。

推荐阅读