网站数据分析方法,大数据分析方法( 三 )


一个大神整理的非常全面的数据获取渠道 , 包含各个细分领域的数据库资源 。领域科研研究 , 从这里开始 。涉及的领域包括:农业、生物学、气候、计算机网络、数据科学、地球科学、经济学、教育、能源、金融学、GIS、图像处理、机器学习、自然语言、神经科学、物理学、心理学、社会科学....oh , 看到英语不用害怕 。谷歌浏览器 , 你值得拥有 。
2. 亚马逊AWS(https://aws.amazon.com/cn/datasets/?nc1=h_ls)来自亚马逊的跨科学云数据平台 , 包含化学、生物学、经济学、天文学等多个领域的数据集 。同样是公开数据集 , 涉及领域较少但是非常权威 。3.UCI(http://archive.ics.uci.edu/ml/datasets.html)加州大学欧文分校开放的经典数据集 , 可以说非常经典了 , 被很多机器学习实验室采用 。
机器学习必选数据 。二、国内公开数据1.国家数据(http://data.stats.gov.cn/)这个数据库信息内容涵盖范围全面、详实 , 并且有些数据已经做好了可视化 , 所以具有很高的实用性;基本只要和国情相关的信息都会在里边发布;比如地区房价、工业、能源、居民消费总额、房地产投资甚至食品的平均价格 。国家统计数据库包括历年月、季、年度数据 , 可通过数据库“搜索”、选择“指标”等方式 , 方便快捷地查询到历年、分地区、分专业的数据 。
2.中华人民共和国国家统计局(http://www.stats.gov.cn/)这个网站的信息是比较宏观的 , 国家统计局一般只发布全国和分省的宏观统计数据 。但如果想获取市级、地级信息 , 也可以底部的友情链接中获取 。三、数据采集网络爬虫 , 做数据分析的 , 相信大家都听说过 。但很多人就说 , 我不会写Python , 也没时间学 。
很多公司需要数据的时候常常也会将要爬取的网站外包出去 。但其实还有一种方式 , 就是采集器采集 。1.八爪鱼采集器(http://www.bazhuayu.com/)这是一款免费的数据采集工具 , 而且没有功能限制 , 几乎所有网站都能采集 , 最大的特点是上手快 , 免费采集几万条数据没压力 , 当然也有付费增值服务可选 。四、地图数据源不得不承认 , 做数据分析的时候 , 我最喜欢的就是地图了 。
因为可以自己选择、编辑、绘制地图 。而地图的美观程度直接影响了我的心情 。当然最重要的还是里面的开源数据 。1.OSGeo中国中心(http://www.osgeo.cn/)OSGeo中国中心的使命是支持开源地理信息软件和遥感软件的开发以及推动其更广泛的应用 , 尤其是帮助中国地区的用户和开发者 。涉及生态领域、地理、气候资源较多 。
2.ArcGIS(https://hub.arcgis.com/pages/open-data)3.OSM(openstreetmap.org/)OpenStreetMap 是一个世界地图 , 可依据开放许可协议自由使用、编辑、绘制 。目标是创造一个内容自由且能让所有人编辑的世界地图 。设计属于自己的地图 , 从这里开始 。

推荐阅读