手机爬虫app推荐 图片爬虫app最新版( 三 )


这个操作原理和八爪鱼也差不多,详细的步骤可以看一下官方的文档,我就不展示了
WebScraper网址:https://webscraper.io/
WebScraper 是一款优秀国外的浏览器插件 。同样也是一款适合新手抓取数据的可视化工具 。我们通过简单设置一些抓取规则,剩下的就交给浏览器去工作 。
安装和使用步骤:
Web scraper是google浏览器的拓展插件,它的安装和其他插件的安装是一样的 。

手机爬虫app推荐 图片爬虫app最新版


(1)启动插件,根据提示使用快捷键打开插件 。实际是在开发者工具中添加了一个tab(开发者工具的位置必须设置在底部才会显示)

手机爬虫app推荐 图片爬虫app最新版



手机爬虫app推荐 图片爬虫app最新版


(2) 创建爬取任务
  • 点击Create New Sitemap——Create Sitemap
  • 输入Sitemap name:爬取任务名称
  • 输入start url:爬取的初始页面,这里为https://movie.douban.com/chart
  • 点击create sitemap完成创建

手机爬虫app推荐 图片爬虫app最新版


(3) 创建选择器
创建sitemap后进入选择器创建界面,点击Add Selector
Selector:选择器,一个选择器对应网页上的一部分区域,也就是包含我们要收集的数据的部分
一个 sitemap 下可以有多个 selector,每个 selector 有可以包含子 selector,一个 selector 可以只对应一个标题,也可以对应一整个区域,此区域可能包含标题、副标题、作者信息、内容等等信息 。

手机爬虫app推荐 图片爬虫app最新版


selector设置,参数设置完成后点击save selector
  • id为selector名称,自行设定(小写英文)
  • 爬取排行榜中的电影名称,因此type选text
  • selector:点击select,依次点击前两部电影的标题,可以看到后续全部标题已被自动选中,点击Done Selecting结束选择
  • 采集多条数据时勾选multiple
  • Regex为正交表达式设置,用于对选取文本的过滤,此处不设置
  • Delay (ms)为每次爬取之间的延迟时间

手机爬虫app推荐 图片爬虫app最新版


(4)爬取数据
点击sitemap douban——Scrape

手机爬虫app推荐 图片爬虫app最新版


分别设置请求延时(避免过于频繁被封)与页面载入延时(避免网页载入不全)后点击Start Scraping,弹出新页面开始爬取

手机爬虫app推荐 图片爬虫app最新版


爬取结束后弹窗自动关闭,点击refresh按钮,即可看到爬取的数据,然后点击sitemap douban——Export Data to CSV导出数据

手机爬虫app推荐 图片爬虫app最新版


Scrapinghub地址:https://scrapinghub.com/
如果你想抓取国外的网站数据,可以考虑 Scrapinghub 。它是一个基于Python 的 Scrapy 框架的云爬虫平台,安装和部署挺简单的,但是操作界面是纯英文的,不太友好,而且性价比不高,它提供的每个工具都是单独收费的 。

推荐阅读