服务器硬件扫盲

一、服务器介绍

目前国内服务器发展受到美国的制裁,在当下这个时间节点下国内的服务器厂商都在全面国产化的道路上奋斗,已经有了显著的成效,国产化服务器在各行各业投入使用,各类新型技术像云计算,大模型等也已经部署在国产服务器上,如今的数据中心国产化的服务器占有率也在不断上升,我们需要对服务器硬件有更加清晰的认识,正视技术之间的差距,不断提升自身的技术能力,没有什么是不能超越的。

服务器爆炸图

  1. 机箱上盖,拆解时需要使用十字螺丝刀解锁进行开箱
  2. OCP导风罩,辅助对OCP网卡进行散热
  3. PSU导风罩,挡住前端CPU散热的废气,PSU内部有自己的散热风扇
  4. 导风罩,扣住整个服务器主要发热部件CPU和内存,来进行风道的控制
  5. 散热器与CPU,对CPU进行散热,拆卸时使用T30的螺丝刀,需要特别
  6. 内存,都是采用双通道的设计
  7. 风扇,采用六风扇组,每个风扇内有前后两片扇叶
  8. PCIE卡,可以是网卡,raid卡,ib卡等一些扩展卡
  9. 电源,采用双PSU电源设计
  10. 2.5寸硬盘
  11. 3.5寸硬盘
  12. 3.5寸硬盘
  13. 机箱
  14. 3.5寸硬盘

服务器分类

想要了解更加详细的分类可以参看服务器厂商的官网,如:https://www.nettrix.com.cn/,https://www.inspur.com/lcjtww/2521494/zx-server-p/index.html;其中会对各种类型服务器有详细介绍

按照U位(高度)分类:2U服务器,4U服务器,6U服务器,8U服务器;

按照外形分类:机架式服务器,塔式服务器,刀片式服务器,高密度服务器;

按照功能分类:计算服务器,存储服务器,数据库服务器,负载均衡服务器等(这个可以参考云平台部署使用到的服务器);

按照架构分类:x86架构服务器,arm架构服务器,RISC架构服务器等(目前主流的服务器是x86,arm服务器比例也在不断上涨)

核心组成部件

Cpu:品牌有Intel,AMD,国产海光,龙芯,鲲鹏等,需要关注的参数有核心数量,主频,TDP功耗,PCH芯片,内存通道数,支持内存速度,UPI连接速度,PCIE I/O数量以支持多少lanes表示

详细CPU信息可以搜索对应官网文档进行查看

内存:品牌有三星,海力士,关注的参数有品牌,型号,类型,容量大小,速度,内存颗粒,内存结构

数据的临时仓库;计算机中所有的程序运行都在内存中进行,内存对计算机的性能影响非常大;内存的作用用于暂时存放CPU中的运算数据,以及硬盘,网卡等外部存储器交换数据,掉电即丢数据。

硬盘:希捷,西数,恺侠,三星,Intel等,使用上关心容量大小与读写类型,参考图片

NVMe协议是一个针对基于PCIE的固态硬盘高性能、可扩展的主机控制器接口;NVMe协议支持M.2、U.2、AIC接口,但不能说这些接口的SSD就是nvme硬盘

PSU:长城,冗余电源与单电源,冗余电源支持热插拔,主要参数是功率与类型(交流、直流,高压直流)

网卡:主要参数:速率(百兆、千兆、万兆),网络数量(2/4)、接口类型(电口、光口)(TODO:光模块)

二、 服务器外部设计

通用机架服务器

采用的是2U的设计,双路的双CPU主板结构,不错的CPU和内存配置,支持多种规格的硬盘盘位的形态(12盘位,24盘位),服务器后背支持多个不同pcie扩展,满足不同客户硬件配置要求

1–> 电源键;2–>ID按键(用于服务器定位与识别);3–>TypeC接口(用于厂商人员debug);4–>USB接口(用于连接键盘,鼠标,u盘等设备);5–>导轨锁扣(用于把服务器固定在机柜上)

1–>OCP(板载网卡);2–>VGA接口(用于连接显示器);3–>USB接口(同上);4–>管理网口(用于登录BMC通过远程web网页管理和监控服务器硬件状态);5–>电源;6–>后置扩展HDD(也可以换成其他PCIE卡);

各个厂商的服务器差异主要在于对于主板的设计能力,服务器里的可用空间已经很确定,一般不同家的PCIE扩展数量,以及支持硬盘数量可能存在差异,目前相对于服务器厂商更多的是考验研发能力,供货能力以及后期的技术维保能力。

由于现在大模型的火热,市场对于GPU服务器的需求量增大,GPU服务器相对于传统的2U服务器设计更加复杂,机器的交付和售后维修难度加大,推荐重点关注GPU服务器机型的发展变化。

三、服务器主板解析

这是Intel CPU服务器主板的架构图,双CPU通过UPI实现高速互联,每个CPU支持8通多,通过cpu内部集成的IMC内存控制器连接,南桥芯片PCH管理芯片,管理低速外设(USB、SATA、SPI等,BMC芯片也是挂载在下面),一级一些silmx接口连接pcie设备,大部分是直接挂载在CPU下的。

BMC芯片型号AST2600,负责带外管理(IPMI、KVM-over-IP),其中集成了存储(FLASH/EMMC)、网络(RTL8211以太控制器)等管理功能。

四、服务器扩展知识学习

想要深入了解服务器相关知识,可以从GPU服务器基础硬件开始,现在GPU服务器的硬件结构更加复杂,简单分成两层,一层是主板层可以参考2U服务器的设计实现,一层是GPU层相对没有主板层硬件设计复杂,在了解了服务器硬件的基本设计,需要学习linux系统将硬件与软件的关系对应起来,认识服务器在日常使用和维护中需要怎么通过各类手段来进行故障排查,以及问题分析

GPU服务器,由于CPU本身的PCIE通道数存在数量限制,而GPU在实际运算的过程中更多的是GPU与GPU之间沟通数据,英伟达设计使用了交换芯片来扩展服务器支持的PCIE设备数量,且能提高GPU与GPU之间的数据速率。目前GPU服务器的性能更多的是由于大量GPU集群之间数据交换的速率受限导致的,英伟达的核心

名词解释

  1. U位(unit的简称),在数据中心机柜内是一种表示服务器外部尺寸的单位,由美国电子工业协会(EIA)规定服务器的宽(48.26cm=19英寸)与高(4.445cm的倍数);由于宽为19英寸,所以有时也将满足这一规定的机架称为“19英寸机架”,厚度以4.445cm为基本单位;1U是4.445cm,2U则是1U的2倍(4.445*2=8.89cm),以此类推。

  2. X86架构是一种微处理器执行的计算机指令集,也是intel公司的一个通用计算机系列的标准编号缩写标识,它提供了一套通用的计算机指令集合,可以用来实现复杂的计算任务。ARM,RISC也类似主要是CPU设计的一种指令标准,详细可以进行搜索了解。

  3. OCP 网卡采用专用的 OCP 接口(Open Compute Project Mezzanine Card),常见形态为夹层卡(Mezzanine Card),可直接插入服务器主板的 OCP 插槽,相比传统 PCIe 网卡更节省空间,且支持热插拔。

  4. lane 在 PCIe(Peripheral Component Interconnect Express)总线中,Lane(通道)是最基本的物理传输单元,类似于高速公路上的独立车道。每个 Lane 负责双向串行数据传输,多个 Lane 可并联组成更高带宽的传输通道(如 x1、x4、x8、x16 等)。