【听杨姐说】
7月12日下午,浪潮集团推出了新一代服务器——M5。这台服务器有很多特点,最突出的、给姐印象最深刻的就是里面有100块硬盘!
要知道,以前正常的服务器硬盘大多小于40块硬盘!艾玛,按照浪潮这么个玩法,服务器岂不是就变成了一个大硬盘排插?难道他们没考虑过共振的问题么?
要知道,浪潮是把这100个3.5大盘放在一个4U空间里的,这100个硬盘同时工作时,它们的转动会带来很大的共振,而共振会对硬盘的寿命和运行性能产生很大的影响——后果多严重啊!
从40到100
姐当然要问这个关键问题——浪潮的产品经理吴安的解释是,这个问题他们浪潮能够解决:因为磁盘的共振会降低磁盘的性能,甚至会让客户造成数据的丢失,因此浪潮也是不断反复尝试并导入了一些测试方案,最终选择了对整个服务器进行分区的设计。
再说细致点,首先是分成四个硬盘区,通过分仓的设计减少共振。此外,还对关键部件采用了不同层次的组合设计,并对关键组件采用了横向和纵向的优化设计,最终成功的解决了磁盘共振的问题。
困难显然并不止这些,但浪潮为什么要做这样的事呢——因为随着数据的爆炸式增长!
大家一起来看一个数字:在网络连接方面,今天的联网设备已经达到110亿台,到2020年将会达到300亿台,再过五年又需要增加3倍,还要能够实现实时的分析和洞察,促进传感器自动驾驶的普及、零售业以及包括体育这样行业的转型——这得产生多大的数据量?得有多大的计算需求?
再举个栗子:一个中等城市视频监控规模大概5000个摄像头,一个省应该会有10万个摄像头进行联网,分散采集,集中存储。如果咱们以视频为1080P这个格式进行采集,一个月它会产生100PB的数据量!
菜心们,100PB是什么概念——如果采用公用的数据服务器需要278台才能将它存的下来,如果用今天浪潮发布的NF5280M5却只需要100台就会将这些100T的数据完整无缺的存储下来。
因为——浪潮M5的计算性能峰值提升了125%,多路服务器计算密度提升100%,存储服务器的存储密度是上一代的2.78倍,相比上一代产品性能提升1.5倍!
当然,100块硬盘也只是物理上的表面,这个M5更加有趣的地方在于它是有“脑子”滴——就算是并联的排插,也绝不是一个简单的排插!
浪潮集团副总裁彭震告诉杨姐,现在所有的公司都在讲 “智能”,浪潮服务器的硬件基础其实就是为了能够让自己的服务器更加“智能”。原因有两点:第一,智慧平台对计算、设计等等方面带来的一些全新的改变。第二,在新一代的M5上,浪潮做到了通过灵活的平台化对应场景化,而且可以面向多样化的设计和适用。
没错,其实不用彭震说你仔细研究一下也会发现,这款M5其实是和英特尔的一个平台同期发布的,但M5并不是仅仅更换CPU那么简单——此前传统的服务器,更多还是定义在整个传统的IT的计算模式里,但这代产品更像面向智慧计算而设计的一代产品,浪潮内部也正是这么定义的。
也论场景
记得浪潮在渠道大会上早就宣布了,浪潮对于未来的计算描绘主要在智慧计算,这个智慧计算就是CBD,即云+大数据+深度学习,云计算就是浪潮的计算平台,大数据是一个认知方法,深度学习是一个高效的工具——浪潮对智慧计算的认知就是这三部分组成的,并且有“极致、弹性、开放、智能”四个设计原则。
传统的服务器,更多的是传统服务器架构的意义——即一个服务器面向各种场景,面向各种应用。服务器的数量比较少,采用中庸的设计,一台多能,干啥都行。但这种服务器往往是比较均衡的。
但据杨姐所知,实际上在智慧计算里面有三大应用场景:一个是云计算的场景,一个是大数据的场景,一个是深度学习的场景。
而云计算这个场景里就面临大量的分布式部署,分布式部署里面,有计算密集型、存储密集型,I/O密集型,实际上在整个云计算模式里面,不同类型的服务器往往只做一类事情,对服务器的要求就是怎样做的密度更高。
所以,浪潮的双子星,四子星,甚至2U的八子星,就是做的更加高密度。另一方面,就是存储——在M5里面放100个硬盘,浪潮实际上就是要把存储能力做到极致。
以前云计算公司采购没那么复杂,但以后你要仔细了,因为你会发现服务器的种类变多了,浪潮正在试图把每一种类型的服务器都做到相对极致。除了在4U里面放了100个硬盘,浪潮还在2U里面放8个GPU——这在全球来看都是最顶级的、最高密度的设计。
当然,服务器也必须要兼顾灵活性、兼容性……等等特性。
要知道,现在各种“组织”太多了,每个组织都有很多标准。因此,融合不同组织的标准,形成统一开放的计算生态就是一个非常必要的事。
还好,浪潮是中国ODCC开放数据中心委员会会员、OCP白金会员、Open19的首批会员,一方面可以不断推动各个组织标准的产业化,另一方面,可以针对三大开放计算标准推出很多兼容性产品。
是的,服务器必须开放——以前大家都是在自己的服务器上跑自己的应用,够可靠就可以,但现在不一样了,云计算平台里,一个客户可能有几千台、上万台、几万台、甚至百万台服务器,这些服务器来自于不同的厂商,来自于不同代的产品,要管理这些产品,包括怎么样让不同的厂商往一个架构里面去堆设备,而且还能够相互管理、相互兼容,开放极其重要。
浪潮的解决办法,就是在整个系统管理里采用了像Redfish、OpenBMC这样一些开源的标准,Redfish可以管理几千台,甚至几万台服务器。
但最重要的是,这些技术上的准备,都为“智能”服务。
服务器也智能
服务器的智能之处,体现于应对大面积“坏死”的时候。
在杨姐看来,此次浪潮强调的“智能”其实就是根据不同的情况来处理容错。举个栗子:服务器现在最容易出问题的地方之一是内存:现在的服务器内存越来越大,内存出错就变成了一个大概率事件,换内存也成了大概率事件。
智能接入防护技术,主要是用来提升系统可靠性的。大家都知道在系统内,内存数量占整个服务器部件的30%,并且内存其实是数据存储的重要部件之一,一旦内存出现问题,将导致系统宕机、业务停滞,影响非常巨大。
浪潮则在系统运行过程中实时对所有bit进行监控,当发现有问题时及时判断、介入、主动隔离,借此来提升运行可靠性。通过防护系统的引入,可以让因内存导致的故障降低99%——浪潮认为,这实际上也是一种智能的处理模式。
此外,浪潮还把很多智能技术放到了服务器里面,使它能够在数据中心里更加容易被定义,更加可靠,而且更加“自适应”。
比如说基于服务器自己的计算能力、能耗来调整周边的环境;比如把自己的故障作为一种大数据的方式往上层建,然后由上层的故障分析软件统一分析这些故障,统一进行这种故障的趋势的研判……等等。
杨姐点评:
这次采访浪潮,收货颇多——深度学习其实是一种返璞归真、化繁为简!
现在,人工智能非常火爆,人工智能里面主要用的还是深度学习这样一种技术。但深度学习这种技术和传统的CPU的计算模式完全不一样:在传统的计算模式里,精度越高越好,但是在深度学习这个场景里面,其实是在降维度的,就是在降精度——深度学习的精度要求很低,因为它是不断靠迭代来识别,分析一个数据,反到对数据的精确度要求不那么高。
这就像人脑一样,人脑在思考的时候,真的是一看到你就知道你身高有多少厘米,体重有多少,宽有多少吗?
没有,其实就是一个笼笼统统大概的估计,很抽象,很具体。再比如人们识别一只猫,并不是分析这只猫身上有多少根毛,眼睛有多大——其实并不是这样识别的,反倒有一些更抽象的。所以,在深度学习的计算模型里面,它的精度是降低的,而且要快。