如何系统地学习数据挖掘,数据挖掘教程( 二 )


数据挖掘项目通常需要重复一些毫无技术含量的工作 。如果你阅读了以上内容觉得可以接受 , 那么继续往下看 。学习一门技术要和行业靠拢 , 没有行业背景的技术如空中楼阁 。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司) , 一般人没有这个精力和时间全方位的掌握所有技术细节 。但是技术在结合行业之后就能够独当一面了 , 一方面有利于抓住用户痛点和刚性需求 , 另一方面能够累计行业经验 , 使用互联网思维跨界让你更容易取得成功 。
不要在学习技术时想要面面俱到 , 这样会失去你的核心竞争力 。一、目前国内的数据挖掘人员工作领域大致可分为三类 。1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询 , 商务智能 , 出分析报告 。2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析 。3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用 。
二、说说各工作领域需要掌握的技能 。(1).数据分析师需要有深厚的数理统计基础 , 但是对程序开发能力不做要求 。需要熟练使用主流的数据挖掘(或统计分析)工具如SAS)、SPSS、EXCEL、BI工具等 。需要对与所在行业有关的一切核心数据有深入的理解 , 以及一定的数据敏感性培养 。经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等(2).数据挖掘工程师需要理解主流机器学习算法的原理和应用 。
需要熟悉至少一门编程语言如(Python、C、C、Java、Delphi等) 。需要理解数据库原理 , 能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等) , 能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好 。经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C》、《数据结构》等 。
(3).科学研究方向需要深入学习数据挖掘的理论基础 , 包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering) 。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点 。
相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing , 因为R软件是完全免费的 , 而且开放的社区环境提供多种附加工具包支持 , 更适合进行统计计算分析研究 。虽然目前在国内流行度不高 , 但是强烈推荐 。可以尝试改进一些主流算法使其更加快速高效 , 例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群 。
需要广而深的阅读世界著名会议论文跟踪热点技术 。如KDD , ICML , IJCAI , Association for the Advancement of Artificial Intelligence , ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data , IEEE Transactions on Knowledge and Data Engineering , Journal of Machine Learning Research Homepage , IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等 。

推荐阅读