分布式处理、分布式存储方面新的研究方向有哪些?
分布式存储这两年的研究趋势主要是效率、可扩展性和性能这三方面 。效率的兴起得利于云存储的大行其道,云存储的投入一般比较大,所以成本的控制就很重要了,不论是Amazon、七牛还是其他厂商,都希望存储的成本尽可能低,因此虚拟化存储、Erasure Code和Deduplication还有一些研究人员投入精力;可扩展性这个方向投入的人就比较多了,这点从FAST/OSDI/SOSP等会议就能看得出来,主要是规模的扩展和移动平台的扩展,大数据时代,数据人人有,存储需求变大,原来的解决方案在这种规模下比较吃力,因此有了Haystack这样的系统,移动平台就更有花样了,这点从苹果iOS/Android存储文件系统的迭代也可窥一斑;性能是个永恒的话题,总有需求不嫌性能高,曾经听过某金融机构希望存储能像内存一样快,当然这也是可能的,于是Flash存储相变存储也就流行起来了,这也是各大会议一大主题 。
抖音服务器带宽有多大,为什么能够供那么多人同时刷?
抖音,百度,阿里云,腾讯都是自建的数据中心,都是T级别出口带宽(总出口带宽),也就是达到1T=1024G/s的出口带宽,服务器总署基本都在20万台以上,甚至阿里云都超过了100万台 。字节跳动的数据中心总带宽,可能在10TB级别左右,预期突破15TB级别不远了 。一般情况下:总出口带宽1TB,实际机房出口带宽可能只有100G上下,这是采用双(多)链路设计,双出口实现动态流量分担,总的出口带宽可以达到T级别 。
大型数据中心想要同一时间有数亿人在线,TB级别带宽,CDN加速和多节点,负载均衡等等技术缺一不可 。(这个设计技术过于复杂,有相关专业朋友,可以评论简要概述)CDN加速字节跳动有多少台服务器?根据网络数据整理,2017年2-3万台服务器,这个时候主要是租用服务器为主 。2018年,字节跳动自己建设了数据中心,最大的数据中心在河北怀来官厅湖新媒体产业园,一期5万台服务器 。
二期9万台服务器 。2018年,租用 自建的服务器数量达到17万台服务器 。2020年,根据字节跳动招聘公告的数据,显示有42万台服务器 。比2018年增长了1.5倍 。(数据来自网络)一个机柜中10-20台服务器这部分服务器都是给中国区域使用,主要应用国内的抖音,西瓜视频,今日头条,飞书等产品 。在美国的TIKTOK是独立出来的运营,数据在美国当地存储和分发 。
2020年TIktok在美国也租用了近10万台服务器据Business Insider公布数据,2020年上半年,字节跳动在美国弗吉尼亚州北部租用了能耗达53兆瓦的数据中心 。可以容纳数十万台服务器,占地面积可达数十万平方英尺 。Tiktok在印度,新加坡都在投资建设数据中心 。聊完了服务器数量,那么咱们来点硬核的东西:字节跳动大型的数据中心出口带宽是多少?知识点:所谓的出口带宽,其实就是咱们普通人所说的下载带宽 。
就是服务器给每一个手机分发数据总速度 。一般情况下,小型的IDC公司自建机房,比如一些网站公司,租用联通,移动,电信的机房,可能总体出口带宽只有5G 。超过30G那都是具备一定规模的企业 。网络公司营收少说也是几千万的企业 。所以,经常能够看到,一些规模还不错的企业,基本上都不再自建机房,都是使用云主机 。例如阿里云的ECS,腾讯云,百度云,AWS(亚马逊) 。
一般一个企业网站(企业官网),20M带宽,4G内存,100G硬盘,一年价格也就4000-5000块钱就足够了,赶上做活动价格可能更便宜 。这里面就是带宽最贵,当然增加带宽,达到一定等级,例如访问量增大,必须要增加内存和硬盘 。相比来说,带宽增加的话,费用更贵一些 。【这里就跟你说明一下:带宽比较昂贵,属于稀缺资源】我们来看中国移动的一个机房:中国移动(河北石家庄)数据中心的数据:占地面积174亩,总建筑面积13万平方米,规划10栋单体建筑,全部建成后可提供约3万个机架的装机能力 。
推荐阅读
- 怎么理解分布式,分布式面试题
- 分钟搞懂分布式基础概念,分布式计算
- 漫谈分布式计算框架,分布式框架
- 汉能分布式发电怎么样,光伏发电家用分布式怎么样
- 荣耀分布式路由,荣耀cd15和cd20有什么区别
- 什么是分布式,分布式系统例子
- 别墅路由器哪个最好,分布式的子母路由器还是AC
- 分析工作中存在的问题有哪些问题吗,剖析分布式光伏安全设计中存在的问题
- 分布式能源系统形式有哪些 论文,中国正研究美国分布式杀伤战术
- asyn,Seata分布式事务