手机爬虫app推荐图片爬虫app最新版( 三 ) _云知道

这个操作原理和八爪鱼也差不多，详细的步骤可以看一下官方的文档，我就不展示了
WebScraper网址：https://webscraper.io/
WebScraper 是一款优秀国外的浏览器插件。同样也是一款适合新手抓取数据的可视化工具。我们通过简单设置一些抓取规则，剩下的就交给浏览器去工作。
安装和使用步骤：
Web scraper是google浏览器的拓展插件，它的安装和其他插件的安装是一样的。

（1）启动插件，根据提示使用快捷键打开插件。实际是在开发者工具中添加了一个tab（开发者工具的位置必须设置在底部才会显示）

（2）创建爬取任务

点击Create New Sitemap——Create Sitemap
输入Sitemap name：爬取任务名称
输入start url：爬取的初始页面，这里为https://movie.douban.com/chart
点击create sitemap完成创建

（3）创建选择器
创建sitemap后进入选择器创建界面，点击Add Selector
Selector：选择器，一个选择器对应网页上的一部分区域，也就是包含我们要收集的数据的部分
一个 sitemap 下可以有多个 selector，每个 selector 有可以包含子 selector，一个 selector 可以只对应一个标题，也可以对应一整个区域，此区域可能包含标题、副标题、作者信息、内容等等信息。

selector设置，参数设置完成后点击save selector

id为selector名称，自行设定（小写英文）
爬取排行榜中的电影名称，因此type选text
selector：点击ｓｅｌｅｃｔ，依次点击前两部电影的标题，可以看到后续全部标题已被自动选中，点击Done Selecting结束选择
采集多条数据时勾选multiple
Regex为正交表达式设置，用于对选取文本的过滤，此处不设置
Delay (ms)为每次爬取之间的延迟时间

（4）爬取数据
点击sitemap douban——Scrape

分别设置请求延时（避免过于频繁被封）与页面载入延时（避免网页载入不全）后点击Start Scraping，弹出新页面开始爬取

爬取结束后弹窗自动关闭，点击refresh按钮，即可看到爬取的数据，然后点击sitemap douban——Export Data to CSV导出数据

Scrapinghub地址：https://scrapinghub.com/
如果你想抓取国外的网站数据，可以考虑 Scrapinghub 。它是一个基于Python 的 Scrapy 框架的云爬虫平台，安装和部署挺简单的，但是操作界面是纯英文的，不太友好，而且性价比不高，它提供的每个工具都是单独收费的。