服务器CPU知识手册
服务器CPU知识手册
📌 基本概念与功能
定义与作用
服务器CPU负责处理和执行系统指令,与普通CPU相比,服务器CPU需满足:高并发处理能力,高稳定性,长时间运行可靠性,更多核心与线程,更强扩展性;CPU包括运算逻辑部件,寄存器部件和控制器等
目前CPU内部已经整合了内存控制器DMI,pci链接通信QPI(Intel)
核心组成
- 控制单元:负责指令提取与解码
- 算术逻辑单元(ALU):执行各种运算操作
- 寄存器:临时存储数据的高速存储单元
- 各类寄存器类型:
- 累加寄存器
- 标志寄存器
- 程序计数器
- 基址寄存器
- 变址寄存器
- 通用寄存器
- 指令寄存器
- 栈寄存器
指令执行流程
- 取指:从内存中提取指令
- 解码:控制单元解析指令
- 执行:ALU执行运算
- 访存:必要时访问内存
- 写回:将结果写回寄存器或内存
关键性能参数
主频:CPU时钟频率,决定单核处理速度
- 计算公式:
主频 = 外频 × 倍频 - 3.0GHz主频,一秒钟可以产生30亿个脉冲信号
- 基频:CPU内存时钟频率
- 倍频:CPU通常就是在内部设计有一个锁相环频率发生器,对于输入的时钟信号进行分频处理,按照一定比例提高输入的外频频率,从而得到CPU的实际工作频率,这个比例就称之为倍频系数(简称倍频)
- 外频:除cpu外部的一些设备工作的频率,一般工作在较低的频率下
- 睿频:intel推出的自动提升处理器频率的技术,需要在BIOS下做一些性能相关的预制设置关掉节能相关项
- 计算公式:
核心数:物理核心数量,决定并行处理能力
线程数:通过超线程技术(如Intel的Hyper-Threading,AMD的SMT),单核可虚拟为多逻辑核
缓存:CPU缓存是芯片上的小型高速内存(基于SRAM),临时存储CPU需要快速【预取】的数据
- L1缓存:最快容量最小,范围128KB到2MB之间
- L2缓存:响应速度和容量居中,可以每个核心独有,也可以共享,范围256KB到32MB之间
- L3缓存:响应速度最慢容量最大,通常都是共享的,范围1MB到128MB之间
架构:Intel和AMD的x86架构的复杂指令集CISC,IBM是PowerPC架构和ARM公司的ARM架构的精简指令集RISC,目前还有 RISC-V开源免费的架构
- ARM架构:进阶精简指令集,国产的飞腾,鲲鹏
- x86_64架构:主要就是Intel,AMD,国产海光(amd授权架构)
- MIPS架构:精简指令集,07年中科院计算机研究所获得处理器IP的全部专利和总线,指令集授权,2021年信息技术应用创新主论坛发布龙芯自主指令系统架构(LoongArch),主要用于国防科技、交换机、路由器等,在性能上和ARM还有一定差距
- RISC-V架构:新兴的架构,开源免费,不需要授权费,近几年受关注,前景巨大?
制程工艺:指制造CPU的集成电路的精细度,14nm,10nm,7nm等
内存通道数:CPU能够同时与内存进行数据交互的独立通道的最大数量
功耗TDP:CPU满载处理器芯片散发出来的热量需要通过散热解决方案散发出来的平均功率值单位为瓦(W)
NUMA:Non-Uniform Memory Access非统一内存访问,是为了优化多处理器系统中内存访问性能的重要架构设计,将系统中的内存划分为多个本地内存区域,每个区域与特定的一组处理器核心相对应,形成一个个相对独立的NUMA节点,numa简介
SNC:Sub NUMA Clustering子非统一内存访问集群,一种与计算机系统内存架构和处理器性能优化技术,在NUMA架构下进一步优化CPU访问内存的性能
PCU:CPU内Power Control Unit功耗控制单元,PCU以1ms速度实时检测核心的温度、电流及功耗等参数
可扩展性:双路(一个主板装两个CPU),四路(一个主板装四个CPU)
虚拟化:intel的VT-x
PCIe总线:cpu支持的pcie速率和通道数
UPI,CXL2.0,CPU封装(LGA,PGA和BGA)和接口
CPU研发阶段样品
- Engineering Sample(ES) - 工程样品阶段
- Qualification Sample(QS) - 验证样品阶段
- Commercial Sample(CS) - 商业样品阶段
多核与多处理器技术
片内互联:
- Intel的Mesh架构:二维网格布局
- AMD的Infinity Fabric:优化多核间通信效率
片间互联:
- UPI (Ultra Path Interconnect)
- QPI (QuickPath Interconnect)
- 提升多处理器服务器扩展性
服务器CPU型号解析
Intel Xeon系列:
- 型号示例:Platinum 8260
- 首位数字代表代际(8为第二代可扩展处理器)
- 后缀标识特性(N为网络优化,T为功耗优化)
AMD EPYC系列:
- 采用Chiplet设计
- 通过高带宽互联整合多计算单元
业务选型考量因素
- 计算密集型:优先考虑高核心数、高主频
- 内存密集型:优先考虑内存通道数和内存容量
- I/O密集型:优先考虑PCIe通道数和带宽
- 虚拟化环境:考虑虚拟化扩展指令集支持
- 高性能计算:考虑向量计算能力和专用指令集
Intel和AMD服务器CPU命名规则
Intel的UPI和AMD的xGMI的CPU互联带宽
服务器CPU数量超过一颗时都需要采用互联技术实现多颗CPU之间的通信
Intel的CPU互联技术QPI或UPI
ADM的CPU互联技术xGMI
Intel CPU开机时序解析
系统会在不同的电源状态Power States间转换:
- G3 (机械关机/深度睡眠): 完全断电(除了RTC)。
- S5 (软关机): 系统关闭,但电源仍可由按钮或网络唤醒,主板有部分待机电压。
- S4 (休眠): 内存内容保存到硬盘,系统深度休眠。
- S3 (睡眠/挂起到内存): CPU停止工作,但内存保持供电以维持内容。
- S0 (工作状态): 系统完全运行。
- S0ix (现代待机低功耗空闲):
S0状态下的低功耗模式。 - C10: 处理器深度封装 C-state。
- Pseudo-G3 (pG3 - 伪G3): 平台特定的低功耗状态,可能只有
VCCRTC和最少的唤醒逻辑供电。
核心组件,处理器(Processor/CPU/Soc):核心计算单元,发出许多控制信号;平台逻辑(Platform Login)通常由嵌入式控制器(EC - Embedded Controller)管理,负责协调电源时序,服务器上CPLD;电压调节器(VR - Voltage Regulator)提供各种所需的电压轨。
信号类型
- 电源轨 (Power Rails): 提供电压,如
VCCRTC,VCCPRIM_*,VDD2,VCCCORE。 - 电源就绪信号 (Power Good Signals): 表明某个或某组电源轨已稳定,如
RSMRST_PWRGD,ALL_SYS_PWRGD,IMVP_VR_READY。 - 控制信号 (Control Signals): 启用/禁用 VR 或指示状态转换,如
SLP_S*,PRIM_VR_EN,PLT_PWROK,SYS_PWROK。 - 复位信号 (Reset Signals): 在电源稳定前将组件保持在复位状态,如
RTCRST#,RSMRST#,PLTRST#,ESPI_RESET#。 - 睡眠信号 (Sleep Signals - SLP_*): 处理器输出,指示期望的睡眠状态 (
SLP_S5#,SLP_S4#,SLP_S3#,SLP_A#,SLP_SO#)。平台使用这些信号控制电源平面。 - eSPI 虚拟线 (eSPI Virtual Wires): 许多传统的硬件信号(如
SLP_S*,PRIMPWRDNACK,PRIMACK#)可以通过 eSPI 总线在处理器和 EC 之间传输,这可能改变相对于硬连线信号的时序。
参考链接:服务器完整上电时序解读
📌 国产CPU
国产CPU主要包括以下几类:兆芯,海光,飞腾,鲲鹏,龙芯,申威
详细规格可参考:国产6大CPU最新规格概述
2018年10月,海光CPU正式获得微软公司WindowsServer2019的认证支持,2019年2月,海光CPU正式获得VMWare公司ESXI7.0的认证支持,2019年3月,海光CPU正式获得Redhat、SUSE等公司LinuxOS的认证支持,2021年8月,海光CPU完成了与阿里云的兼容性互认证。海光CPU产品得到了业界主流操作系统和云计算厂商的认证认可。
📌 性能测试方法
常见的CPU性能测试工具,speccpu最常使用,Cinebench,3DMark,PCMark,Sysbench,CPU-Z,AIDA64,SuperPI,Prime95(P95)
speccpu测试
SPEC CPU 是由 SPEC(Standard Performance Evaluation Corporation,标准性能评估公司)推出的一系列用于对 CPU 进行基准测试的工具集,用于精准评估 CPU 性能的权威测试工具,历经了多个版本的迭代更新speccpu2000,speccpu2006,speccpu2017
1 | # [下载speccpu2017的镜像文件](https://pan.baidu.com/s/1kMoMJ5Ufg5oZql4HjyacAg#list/path=%2F)提取码5thr |
原文链接:https://blog.csdn.net/qq_41897488/article/details/143367894
UnixBench测试(用于测量单核和多核性能):
1 | <em>#下载并安装</em> |
SuperPI计算(测试通过计算π值测试CPU计算能力):
1 | <em>#下载并编译</em> |
stress-ng压测cpu,内存
1 | # 下载附件 stress-ng.zip |
性能调优
BIOS性能项设置
打开performance模式,关闭虚拟化相关设置,开turbo,numa,关节能Cstate和mwait
OS配置
对于4k页表的操作系统,在跑int整型时建议配置大页内存
1 | # OS页表大小查询命令: |
升级gcc和glibc版本,系统自带的gcc版本一般较低
绑核设置
1 | # 在配置文件中修改copies和thread以及相应的绑核 |
编译参数优化
如下为SPECcpu2017 Rate FP的优化参数: OPTIMIZE = -Ofast -g -pipe -mcpu=cortex-a72+crypto+crc -march=armv8-a+crypto+crc -funroll-loops Int和fp的编译参数不一样,具体参考cfg附件内相关部分内容
透明大页
1 | # 进行SpeedFp的时候需要设置以下3个变量,关闭THP透传大页后再运行,以优化性能 |
国内外CPU技术发展趋势






