这个操作原理和八爪鱼也差不多,详细的步骤可以看一下官方的文档,我就不展示了
WebScraper网址:https://webscraper.io/
WebScraper 是一款优秀国外的浏览器插件 。同样也是一款适合新手抓取数据的可视化工具 。我们通过简单设置一些抓取规则,剩下的就交给浏览器去工作 。
安装和使用步骤:
Web scraper是google浏览器的拓展插件,它的安装和其他插件的安装是一样的 。
(1)启动插件,根据提示使用快捷键打开插件 。实际是在开发者工具中添加了一个tab(开发者工具的位置必须设置在底部才会显示)
(2) 创建爬取任务
- 点击Create New Sitemap——Create Sitemap
- 输入Sitemap name:爬取任务名称
- 输入start url:爬取的初始页面,这里为https://movie.douban.com/chart
- 点击create sitemap完成创建
(3) 创建选择器
创建sitemap后进入选择器创建界面,点击Add Selector
Selector:选择器,一个选择器对应网页上的一部分区域,也就是包含我们要收集的数据的部分
一个 sitemap 下可以有多个 selector,每个 selector 有可以包含子 selector,一个 selector 可以只对应一个标题,也可以对应一整个区域,此区域可能包含标题、副标题、作者信息、内容等等信息 。
selector设置,参数设置完成后点击save selector
- id为selector名称,自行设定(小写英文)
- 爬取排行榜中的电影名称,因此type选text
- selector:点击select,依次点击前两部电影的标题,可以看到后续全部标题已被自动选中,点击Done Selecting结束选择
- 采集多条数据时勾选multiple
- Regex为正交表达式设置,用于对选取文本的过滤,此处不设置
- Delay (ms)为每次爬取之间的延迟时间
(4)爬取数据
点击sitemap douban——Scrape
分别设置请求延时(避免过于频繁被封)与页面载入延时(避免网页载入不全)后点击Start Scraping,弹出新页面开始爬取
爬取结束后弹窗自动关闭,点击refresh按钮,即可看到爬取的数据,然后点击sitemap douban——Export Data to CSV导出数据
Scrapinghub地址:https://scrapinghub.com/
如果你想抓取国外的网站数据,可以考虑 Scrapinghub 。它是一个基于Python 的 Scrapy 框架的云爬虫平台,安装和部署挺简单的,但是操作界面是纯英文的,不太友好,而且性价比不高,它提供的每个工具都是单独收费的 。
推荐阅读
- 压缩视频的软件 手机视频压缩神器
- 苹果有什么游戏好玩 苹果手机必玩的游戏
- 安卓手机工具推荐 安卓手机必备
- 图片美化软件哪个好 最火给照片做装饰的app
- 三星i9308好用吗 三星i9308手机参数
- 手机黑屏了怎么办 解决方法
- 手机辐射大吗 手机辐射对孕妇的影响
- 联想手机乐檬k3怎么样 联想乐檬k3手机参数
- 文字识别软件哪个好用 免费扫描识别文字app
- 华为哪个系列手机好 华为最值得入手的手机推荐