数据湖对比分析,大数据平台( 四 )


小公司限于人力有限 , 数据流的响应时间有可能是天级或小时级;大公司对数据流的响应要求极高 , 有可能是分钟级、秒级甚至亚秒级 。很多朋友都发现 , 在今日头条刚刚搜索过某一个内容 , 下一分钟就能收到相似内容的推荐了 , 因为大数据开发工程师提供了这种秒级数据管道 。技能要求无论是大数据平台开发工程师还是大数据开发工程师都对从业人员的“编程开发”和“大数据”大数据要求比较高 , 而且数据量越大的公司 , 对技能要求越高 。
公司一般要求工程师在Java和Scala语言上 , 基于Hadoop生态系统 , 构建实时或批量的数据流 。但公司与公司的差异很大 , 整个技术栈和工作内容与公司架构高度相关 。某招聘APP上对大数据开发工程师的技能要求:Java、Scala、Linux、Hadoop、Kafka、Spark、Flink等 。面试时一般会重点考察候选人对Google大数据三大论文的理解 , 即MapReduce、GFS和BigTable , 分别对应了开源的Hadoop MapReduce、HDFS和HBase , 这三篇论文也被称为驱动大数据的三驾马车 。
大数据平台是什么?什么时候需要大数据平台?

数据湖对比分析,大数据平台


谢邀!最近我和我的团队一直在做一些大数据相关的工作 , 我来回答一下这个问题 。首先是第一个问题 , 大数据平台是什么?当我们说到一个平台的时候 , 我们的意识里面往往就知道 , 这里面肯定不止一样东西 , 它是很多东西的一个集合 , 大数据平台也是一样 , 首先如果用几个字来描述它的话就是“它是一个数据解决方案” , 进一步解析就是:大数据平台它是一个以分布式存储为基础 , 集成了数据获取 , 数据清洗 , 数据流转 , 数据分析 , 数据输出等工具集的一个数据解决方案 。
它的核心使命是提供数据存储和数据分析服务给目标客户 。那么它的核心组成部分是什么呢?实现的方法有多种 , 我就举一个最典型的大数据平台结构作为说明 。目前无论是国内或者国外 , 应用最广泛也是最典型的大数据平台是以Hadoop为核心进行功能延伸的生态系统 , 业内把它叫做Hadoop生态 , 它开源并且免费使用 , 它长什么样子?它的面目基本上是这样:从上图我们得知 , 它就是一套以Hadoop分布式文件系统为核心的数据处理工具集 , 目的是为了向用户提供数据分析服务的一个集成解决方案 。
什么时候需要大数据平台?简单的说就是当数据总量大到传统单机数据解决方面没办法存储 , 分析 , 计算时就要用到大数据平台 。举例说 , 家用电脑目前一般是配置2TB大小的硬盘(存储容量约等于于18个128G的iPhone) , 一般几万块钱的商用服务器容量大约在32TB容量 , 高端的单机存储器可以达到100TB以上 , 但是数据量如果再大比如上跳一个数量级1000TB,也就是1PB左右 , 单机系统就无能为力了 , 不单是存储容量无能为力 , 计算能力也无法应对了 , 因为我们知道 , 单台计算机的性能是有极限的 , 数据太多磁盘检索读取的速度就会变慢 , CPU和内存压力也会变大 , 这个时候需要完成一个数据分析任务就要耗时很长 , 那么这个时候大数据平台就派上用场了 , 大数据平台的一个特性就是多台计算机组成一个集群集体并行作战 , 并且理论上可以无限拓展 。

推荐阅读