什么是数据挖掘,如何进行数据挖掘( 二 )


举个例子来理解一下:比如一个分析师一直单身 , 想去找一个女朋友 , 他可以很迅速的知道这个女孩的身高、收入、学历等 , 但无法从这些数据中获知这个女孩是不是适合自己、她的性格如何 , 这时我们就需要从一些日常行为的数据进行推断 , 一种是主观的推断 , 我觉得、我估计、我认为 , 不可能在一起另一种是客观 主观的推断 , 比如整合微博数据(可以知道微博的内容、发送行为、关注的领域等) , 和自己的行为进行数据挖掘 , 来看看数据内在的匹配度有多高 , 这时候 , 你会说 , 我们在一起的概率有90% , 从而建立信心 , 开始行动.....当然统计学上讲 , 100%的概率都未必发生 , 0%的概率都未必不发生 , 这只是小概率事件 , 不要让这个成为你脱单的绊脚石 。
最后 , 思考的方式不同 , 一般来讲 , 数据分析是根据客观的数据进行不断的验证和假设 , 而数据挖掘是没有假设的 , 但你也要根据模型的输出给出你评判的标准 。我们经常做分析的时候 , 数据分析需要的思维性更强一些 , 更多是运用结构化、MECE的思考方式 , 类似程序中的IF else分析框架(假设) 客观问题(数据分析)=结论(主观判断)而数据挖掘大多数是大而全 , 多而精 , 数据越多模型越可能精确 , 变量越多 , 数据之间的关系越明确什么变量都要 , 先从模型的意义上选变量(大而全 , 多而精) , 之后根据变量的相关系程度、替代关系、重要性等几个方面去筛选 , 最后全扔到模型里面 , 最后从模型的参数和解读的意义来判断这种方式合不合理 。
以上就是我认为的三个区别 , 其实不论数据分析还是数据挖掘 , 能抓住老鼠的就是好猫 , 真的没必要纠结他们之前的区别 , 难道你给领导汇报时 , 第一部分是数据分析得出 , 第二部分是数据挖掘得出?他们只关注你分析的逻辑、呈现的方式 。下来说说我理解的大数据 , 常常有人问我 , 感觉现在的大数据分析培训和讲解 , 都是把之前的各类数据分析资料 , 前面加了了“大” , 然后变成了大数据分析培训....,其实想一想这位兄弟说的真TM对 。
大数据对我的感觉并不是数据量大 , 也不是数据复杂 , 这些都可以用工具和技术去处理 , 而是它可以做到千人千面 , 而且是实时判断规则例如定向广告的推送 , 就是大数据 , 它根据你以往的浏览行为 , 可以准确的给你推相关的信息 , 基本做到了你一个人就是一个数据库 , 而不是一条数据 。但我们所作的数据分析更多是针对群体的 , 而非针对每个个人 。
要做到千人前面 , 侵犯你隐私数据是避免不了的 , 或多或少都有知道一些 , 而做到千人千面的大数据不就是要更多的了解你 , 引导你、杀你、留住你吗?为了达到这类手段 , 就要不断的去完善自家数据 , 甚至要购买数据来360度的让你在数据下裸奔 , 从而解决数据孤岛的问题所以大数据时代也显露出了各类问题 , 数据的隐私、数据杀熟、数据孤岛等 , 这也许就是我们目前看到大数据分析更看重的是技术、手段的原因 , 它其实是一门纯技术 , 但有时候确实可能需要艺术 。

推荐阅读