如何系统地学习数据挖掘,数据挖掘教程( 三 )


可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力 。如Sig KDD  , Kaggle: Go from Big Data to Big Analytics等 。可以尝试为一些开源项目贡献自己的代码 , 比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目) 。
经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》 , 英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等 。
三、以下是个人对数据挖掘岗位的感受真正从数据挖掘项目实践的角度讲 , 沟通能力对挖掘的兴趣爱好是最重要的 , 有了爱好才可以愿意钻研 , 有了不错的沟通能力 , 才可以正确理解业务问题 , 才能正确把业务问题转化成挖掘问题 , 才可以在相关不同专业人才之间清楚表达你的意图和想法 , 取得他们的理解和支持 。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力 , 是很难学到的;而其他的相关专业知识谁都可以学 , 算不上个人发展的核心竞争力 。
说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了 , 对不起 , 我没有别的意思 , 你们的专业对于数据挖掘都很重要 , 大家本来就是一个整体的 , 但是作为单独一个个体的人来说 , 精力有限 , 时间有限 , 不可能这些领域都能掌握 , 在这种情况下 , 选择最重要的核心 , 我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子 , 我们可以看 ,  比如一个迷你型的挖掘项目 , 一个懂得市场营销和数据挖掘技能的人应该可以胜任 。
这其中他虽然不懂数据仓库 , 但是简单的Excel就足以胜任高达6万个样本的数据处理;他虽然不懂专业的展示展现技能 , 但是只要他自己看的懂就行了 , 这就无需什么展示展现;前面说过 , 统计技能是应该掌握的 , 这对个人的迷你项目很重要;他虽然不懂编程 , 但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中 , 一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了 , 甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路 , 试问就是这个迷你项目 , 单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家 , 都是无法胜任的) 。
这从另一个方面也说明了为什么沟通能力的重要 , 这些个完全不同的专业领域 , 想要有效有机地整合在一起进行数据挖掘项目实践 , 你说没有好的沟通能力行吗?数据挖掘能力只能在项目实践的熔炉中提升、升华 , 所以跟着项目学挖掘是最有效的捷径 。国外学习挖掘的人都是一开始跟着老板做项目 , 刚开始不懂不要紧 , 越不懂越知道应该学什么 , 才能学得越快越有效果 。
我不知道国内的数据挖掘学生是怎样学的 , 但是从网上的一些论坛看 , 很多都是纸上谈兵 , 这样很浪费时间 , 很没有效率 。另外现在国内关于数据挖掘的概念都很混乱 , 很多BI只是局限在报表的展示和简单的统计分析 , 却也号称是数据挖掘;另一方面 , 国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯) , 其他行业的应用就只能算是小规模的 , 比如很多大学都有些相关的挖掘课题、挖掘项目 , 但都比较分散 , 而且都是处于摸索阶段 , 但是我相信数据挖掘在中国一定是好的前景 , 因为这是历史发展的必然 。

推荐阅读