4种数据挖掘方法对比及解析,数据挖掘算法( 二 )


数据挖掘工程师之中,也分很多不同的类型,比如做特征工程的、数据仓库的、数据平台支持的、算法工程师、数据科学家等,他们的工作职责各有不同,职业技能也各有侧重 。对于大多数数据挖掘工程师来说,编程技能是必不可少的,但是针对不同挖掘工程师的性质,需要掌握不同的编程技能 。一般来说,Python、Java、Scala是常用的大数据挖掘语言,有一些数据科学家喜欢用R;最常用的大数据平台是Hadoop平台和Spark平台,常用的结构化数据库是MySQL或其他关系型数据库,非结构化数据库中MongoDB较为常用 。
对于数据挖掘工程师来说,必要的Linux知识也必不可少 。因为数据挖掘工程师绝大多数的工作都是在远程的服务器上完成的,不能流畅地在命令行中操作各种Linux系统(常用的有CentOS、Ubuntu等),工作的效率会大大降低 。另外Shell在数据处理上也很强大,sed awk简直是数据处理的神器 。以上并不是非常系统的对比,但是是我在工作中最实际的体验,我并非码农出身,这个转型过程中遇到了很多挑战,但是他们之间并没有天堑一样的区别,很多地方是共通的,如果你编程基础较差,那么可以从数据分析师入手,之后在考虑转型数据挖掘;如果编程基础较好,可以考虑数据挖掘,但是数据挖掘工程师一般情况下不会接触太多的业务 。

推荐阅读