hortonworks,Hortonworks

为什么雅虎会失败?

hortonworks,Hortonworks


谢谢悟空问答的邀请!Altaba(俗称“阿里他爸爸”,即Yahoo,雅虎)日前宣布,公司将会清算和解散,并将持有的全部阿里巴巴股份对外转让 。这意味着,昔日超级互联网巨头雅虎继上一次解体后,终于要彻底地消失在世界互联网历史上 。雅虎成立比谷歌还要早接近10年,而且最辉煌的时候市值超过了1300亿美元 。雅虎曾是我上网的好些第一个,如第一个电邮、第一个门户网站、第一个搜索网站,杨致远是我第一个崇拜的互联网“英雄”……曾经好像雅虎就是互联网一般 。
得知雅虎终于烟消云散,虽然早就做好了心理准备,知道早晚会有这一天,不过,依然感慨万分!回到问题本身,为什么雅虎会失败?说来话长,可以写一本书,这儿篇幅有限,只能用不禁想起的作家柳青在《创业史》中的名言: “人生的道路虽然漫长,但要紧处常常只有几步,特别是当人年轻的时候……”来点到为止吧……你对这个问题有什么更好的意见吗?欢迎在下方留言讨论! 。
要学大数据,必须要会一种编程语言吗?为什么?
hortonworks,Hortonworks


大数据比较通用的平台都是基于Hadoop Saprk . 比较流行的平台是Hortonworks公司的HDP和Cloudera公司的CDH,不过目前这两家公司已经合并.上面是HDP的大数据平台,主要支持三种开发语言, Java,Python和Scala等.Scala最难入门,Python 比较容易上手,如果编程经验不多可以从Python 上手.Java 是目前最流行的编程语言,如果想就业面广一些,可以考虑Java 。
2019年,Hadoop还是数据处理的可选方案吗?
hortonworks,Hortonworks


2019年,对于大的互联网公司来说,已经渐渐开始不用Hadoop的MapReduce计算框架,不过对于一些小公司,还是会使用Hadoop作为数据处理的一种方案 。Hadoop自2006年开源以来,最初来源谷歌的两篇文章,GFS和MapReduce 。到现在还有很多互联网公司进行使用 。不过由于大的互联网公司强大的自己研发实力,已经慢慢开始弃用Hadoop,转而开始通过自研来解决公司的大数据计算场景 。
大公司为什么开始弃用Hadoop MapReduce?Hadoop整体包含三个模块:MapReduce、HDFS、Yarn 。MapReduce是Hadoop的分布式计算框架,在对大数据文件进行数据处理的,会先对文件进行分片,每一个都是一个人Map任务,所以一个大文件,会有多个Map任务同时处理,每个Map任务只处理部分数据:虽然Hadoop MapReduce计算框架分布式并行的处理数据,但是有一个问题就是,在进行数据Shuffle的时候,数据会临时存储在磁盘上,由于磁盘IO方面比较慢,有时候一个MapReduce任务可能运行好几个小时 。
Shuffle的含义就是数据从Map任务段到Reduce任务段的过程 。大型互联网公司,由于数据量非常巨大,同时业务场景有非常复杂,不可能接受一个任务跑几个小时的 。所以一些互联网公司开始使用Spark计算框架来代替Hadoop MapReduce,比如头条 。阿里的话,开始通过自研来解决这个问题,比如自研了MaxCompute框架、伏羲分布式调度、盘古分布式文件存储等 。
【hortonworks,Hortonworks】小公司为什么继续使用Hadoop作为数据处理方案?小型互联网公司有两个特点,一个是公司业务场景没有那么复杂,另一个是数据体量不大 。所以在技术选型时,不过要求特别复杂,只要能够满足业务场景即可 。所以很多小公司在大数据技术选型时,都会使用Hadoop来作为大数据计算框架 。使用Hadoop作为数据处理方案,还有一个好处就是,便于统一管理和运维,小公司人员比较少,一般都是一个人负责集群的搭建、运维、维护等 。

推荐阅读