服务器又崩了?揭秘如何打造一款真正高可靠的服务器

北京2021年8月20日/美通社/--人们经常会在热搜上看到某个网站崩了 , 某个APP服务器“走丢”了 , 这背后 , 都是对服务器安全及可靠性的担忧尤其是政府、金融、电网以及铁路等行业对IT基础设施的可靠性以及安全性要求极高的行业应用 , 一旦系统出现问题 , 对用户来说可能是上千万甚至是上亿的损失
可靠性从4个9到5个9 , 如何达到?
谈及服务器的可靠性 , 业内人士常常会用4个9或者5个9 , 也就是99.99%与99.999%看上去虽然4个9与5个9的差距仅有微乎其微的0.009% , 但是对于核心系统而言 , 恰恰是这不到0.01%的差距 , 决定了系统的可靠性完全不在一个层级
服务器又崩了?揭秘如何打造一款真正高可靠的服务器
文章图片
4个9与5个9的可用性 , 在一年的时间维度上 , 相差了47.304分钟 , 平均一个月相差仅4分钟 , 但是一家大型商业银行如停机超过半小时造成的业务损失与声誉等损失可达数亿元人民币 , 并且这种损失有逐年递增的趋势因此大型商业银行需要服务器的可靠性达到“5个9”级别(一年间业务中断时间不能超过5.256分钟)而比如在电网行业与铁路行业 , 服务器的可靠性直接关系到居民的用电安全以及乘车安全 , 因此电网与铁路行业对服务器的可靠性要求同样达到“5个9”的更高级别
其实 , 服务器的可靠性并不完全取决于硬件 , 而是由软件和硬件来共同决定的 , 想要一款高可靠的服务器 , 就必须从元器件的选择、硬件架构设计、生产组装、品质检测各个环节严格把控多年以来 , 浪潮在服务器领域积累的丰富的设计制造经验 , 并将这些经验不断总结提炼 , 形成了一套独有的方法论
精细考量不放过任何一个元器件
千里之堤毁于蚁穴 , 任何一点小小的瑕疵 , 都可能成为引起整个系统崩溃的元凶一台服务器拥有至少5000多个元器件 , 每一个元器件的选择都不能容许任何瑕疵 , 所以选择可靠的元器件是最基础 , 却也是最不容忽视的关键一步
浪潮服务器在选择元器件时 , 首先会对众多供应商的产品质量、技术水平、响应速度以及环保标准等方面进行综合考量 , 从中选出满足标准的供应商同时 , 浪潮服务器要求所有元器件满足高于国家通用规范的降额设计标准 , 即元器件在工作中承受的极限应力小于额定值 , 并留有足够的应对极限情况的余量 , 其实主要是电应力和温度应力 , 保障高可靠的电性能及较低热衰减 , 大大降低故障率 , 提升系统可靠性
服务器又崩了?揭秘如何打造一款真正高可靠的服务器
文章图片
此外 , 为了确保所有元器件并非“外强中干” , 浪潮还会采用诸多先进的元器件分析设备 , 如双束聚焦离子束显微镜、等离子刻蚀机等 , 对其进行剖析、验证、失效分析等 , 以确定器件的工艺水平、质量满足浪潮服务器生产要求
潜在故障预测分析将一切隐患扼杀在摇篮
虽然大部分企业业务系统都有故障预警应急机制 , 而大部分服务器等IT基础设施也都有故障快速定位功能 , 但是浪潮服务器追求的却是从产品设计阶段就把所有可能存在的潜在问题快速识别出来 , 从而预先采取防御措施 , 将一切隐患扼杀在摇篮里
在产品设计阶段 , 浪潮针对所有板间互联信号和关键器件的工作状态进行仿真分析 , 确保无故障遗漏 , 并对故障进行预测识别和优化处理同时要进行系统级故障监测、预警及隔离开发 , 对于所有风险 , 要求尽最大可能避免 , 对于需要处理的故障 , 要求能够快速监测定位
服务器又崩了?揭秘如何打造一款真正高可靠的服务器