如何建立数据分析模型「大数据建模一般有哪些步骤呢」( 四 )


每个产品都有适合它的几个指标,不要一股脑的装一堆指标上去,当你准备了二三十个指标用于分析,会发现无从下手 。
三、建立正确的指标结构
既然指标太多太复杂不好,那么应该如何正确的选择指标呢?
和分析思维的金字塔结构一样,指标也有固有结构,呈现树状 。指标结构的构建核心是以业务流程为思路,以结构为导向 。
假设你是内容运营,需要对现有的业务做一个分析,提高内容相关数据,你会怎么做呢?
我们把金字塔思维转换一下,就成了数据分析方法了 。
从内容运营的流程开始,它是:内容收集—内容编辑发布—用户浏览—用户点击—用户阅读—用户评论或转发—继续下一篇浏览 。
这是一个标准的流程,每个流程都有指标可以建立 。内容收集可以建立热点指数,看哪一篇内容比较火 。用户浏览用户点击则是标准的PV和UV统计,用户阅读是阅读时长 。
从流程的角度搭建指标框架,可以全面的囊括用户相关数据,无有遗漏 。
这套框架列举的指标,依旧要遵循指标原则:需要有核心驱动指标 。移除虚荣指标,适当的进行删减,不要为添加指标而添加指标 。
四、了解维度分析法
当你有了指标,可以着手进行分析,数据分析大体可以分三类:
利用维度分析数据
使用统计学知识如数据分布假设检验
使用机器学习
我们先了解一下维度分析法 。
维度是描述对象的参数,在具体分析中,我们可以把它认为是分析事物的角度 。销量是一种角度、活跃率是一种角度,时间也是一种角度,所以它们都能算维度 。
当我们有了维度后,就能够通过不同的维度组合,形成数据模型 。数据模型不是一个高深的概念,它就是一个数据立方体 。
上图就是三个维度组成的数据模型/数据立方体 。分别是产品类型、时间、地区 。我们既能获得电子产品在上海地区的2010二季度的销量,也能知道书籍在江苏地区的2010一季度销量 。
数据模型将复杂的数据以结构化的形式有序的组织起来 。我们之前谈到的指标,都可以作为维度使用 。下面是范例:
将用户类型、活跃度、时间三个维度组合,观察不同用户群体在产品上的使用情况,是否A群体使用的时长更明显?
将商品类型、订单金额、地区三个维度组合,观察不同地区的不同商品是否存在销量差异?
数据模型可以从不同的角度和层面来观察数据,这样提高了分析的灵活性,满足不同的分析需求、这个过程叫做OLAP(联机分析处理) 。当然它涉及到更复杂的数据建模和数据仓库等,我们不用详细知道 。
数据模型还有几种常见的技巧、叫做钻取、上卷、切片 。
选取就是将维度继续细分 。比如浙江省细分成杭州市、温州市、宁波市等,2010年一季度变成1月、2月、3月 。上卷则是钻取的相反概念,将维度聚合,比如浙江、上海、江苏聚合成浙江沪维度 。切片是选中特定的维度,比如只选上海维度、或者只选2010年一季度维度 。因为数据立方体是多维的,但我们观察和比较数据只能在二维、即表格中进行 。
上图的树状结构代表钻取(source和time的细分),然后通过对Route的air切片获得具体数据 。
聪明的你可能已经想到,我们常用的数据透视表就是一种维度分析,将需要分析的维度放到行列组合进行求和、计数、平均值等计算 。放一张曾经用到的案例图片:用城市维度和工作年限维度,计算平均工资 。
除了Excel、BI、R、Python都能用维度分析法 。BI是相对最简便的 。
谈到维度法,想要强调的是分析的核心思维之一:对比,不同维度的对比,这大概是对新人快速提高的最佳捷径之一 。比如过去和现在的时间趋势对比,比如不同地区维度的对比,比如产品类型的区别对比,比如不同用户的群体对比 。单一的数据没有分析意义,只有多个数据组合才能发挥出数据的最大价值 。

推荐阅读