海量游戏日志收集与分析,日志分析

海量日志分析有这几个关键问题zd:1、采集海量日志(对技术、性能是考验)2、采集后的数据结构化及存储(后期完成高复杂度的分析)3、最后才是海量日志数据的搜索分析实现海量日志分析,目前采用较多的方式是日志易、ELK等 。目前市场上日志分析平台有几家做的比较好:splunk、日志易、袋鼠云,关于具体到哪家好,应该说是各有优势吧 。
海量日志分析怎么处理?

海量游戏日志收集与分析,日志分析


海量日志分析有这几个关键问题zd:1、采集海量日志(对技术、性能是考验)2、采集后的数据结构化及存储(后期完成高复杂度的分析)3、最后才是海量日志数据的搜索分析实现海量日志分析,目前采用较多的方式是日志易、ELK等 。两者的区别点在于一个属于商业化产品(简单配置、操作方便、功能强大、灵活等),ELK产品则是开源(免费、需要部署多个产品、需要二次开发、耗费人工成本) 。
网站日志分析都可以得到什么数据?
海量游戏日志收集与分析,日志分析


网站日志该分析哪些数据呢?从基础信息、目录抓取、时间段抓取、IP抓取、状态码这几点来分析:第一、基础信息下载一个网站日志文件工具获取基础信息:总抓取量、停留时间(h)及访问次数;通过这三个基础信息可以算出:平均每次抓取页数、单页抓取停留时间,然后再用MSSQL提取蜘蛛唯一抓取量,根据以上的数据算出爬虫重复抓取率:平均每次抓取页数=总抓取量/访问次数单页抓取停留时间=停留时间*3600/总抓取量爬虫重复抓取率=100%—唯一抓取量/总抓取量统计出一段时间的数据,可以看出整体趋势是什么样的,这样就可以发现问题,才能够调整网站的整体策略 。
下面用一个站长的日志基础信息为例:日志基础信息从日志的基本信息,我们需要看它的整体趋势来调整,哪些地方需要加强 。网站日志文件该分析哪些数据总抓取量从这个整体走势来看出,爬虫的抓取总量整体是在下降的,这个就需要我们进行一些相应的调整 。网站日志文件该分析哪些数据蜘蛛重复抓取率整体来看,网站重复抓取率是有点上升的,这个就需要一些细节,多一些为抓取的入口和使用一些robots及nofollow技巧 。
单面停留时间爬虫单面的停留时间,曾经有看到过一篇软文,网页加载速度是如何影响SEO流量的;提高网页加载速度,减少爬虫单面停留时间,可以为爬虫的总抓取做出贡献,进而增加网站收录,从而提高网站整体流量 。在16号至20号左右服务器出现一些问题,之后进行调整后,速度明显变快,单页停留时间也相应的下来了 。而对此进行相应调整如下:从本月整理来看,爬虫的抓取量是下降的,重复抓取率是上升的 。
综合分析,需要从站内链接和站外的链接进行调整 。站内的链接尽量的带锚文本,如果不能带的话,可以推荐其他页面的超链接,让蜘蛛尽可能的深层次的抓取 。站外链接的话,需要多方面的发布 。目前平台太少了,如果深圳新闻网、商国互联等站点出现一丝差错的话,我们站点将受到严重影响 。站外平台要广,发布的链接要多样话,不能直发首页的,栏目及文章页面需要加大力度 。
目前,来讲站外平台太少,将近10w的外部链接,集中在几个平台上 。第二、目录抓取用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量 。可以很清晰的看到每个目录的抓取情况,另外可以对比之前的优化策略,优化是否合理,重点的栏目优化是不是预期的效果 。爬虫抓取的目录绿色:主做栏目 黄色:抓取较差 粉色:抓取很差 深蓝色:需要禁止栏目网站日志文件该分析哪些数据目录整体趋势可以看到整体的趋势并没有太大变化,只有两个栏目的抓取是有较大变动的 。

推荐阅读