刀片服务器采用模块化设计,将多个独立的服务器刀片插入共享机箱,机箱统一提供电源、散热、网络和管理模块,实现高密度部署、集中供电散热、简化布线和管理,有效节省空间和能耗。
刀片服务器凭借其高密度、易管理、节能等优势,在现代数据中心和企业IT基础设施中扮演着越来越重要的角色,与传统的塔式或机架式服务器不同,刀片服务器的安装有其独特的流程和注意事项,本文将为您提供一份详细的刀片服务器安装指南,帮助您安全、高效地完成部署。
在开始安装前,理解刀片系统的基本架构至关重要:
- 刀片机箱 (Chassis): 这是整个系统的核心框架和基础平台,它提供电源、散热、网络交换、管理模块等共享资源,并为刀片服务器提供物理插槽。
- 刀片服务器 (Blade Server): 这是实际的“计算单元”,包含处理器、内存、存储控制器等核心组件,形态上是一个扁平的“刀片”,插入机箱的插槽中运行。
- 管理模块 (Management Module): 通常冗余配置,提供对整个机箱及内部所有刀片的集中管理、监控、远程控制(如KVM over IP)和固件更新功能,通过专用的管理网络接口进行访问。
- 网络交换模块 (Fabric/Network Switch Module): 安装在机箱后部,提供刀片服务器与外部网络(如LAN、SAN)的连接,根据需求可选择以太网、光纤通道(FC)、InfiniBand等不同类型的交换模块,通常也支持冗余。
- 电源模块 (Power Supply Unit – PSU): 为整个机箱及内部所有组件供电,刀片机箱通常配备N+N冗余的高效电源模块。
- 散热风扇模块 (Fan Module): 为机箱提供强制散热,确保刀片服务器在密集环境下稳定运行,通常也采用冗余设计。
刀片服务器安装详细步骤
安装前准备 (至关重要!)
-
环境评估与规划:
- 物理空间: 确认机柜有足够的U空间(高度)、深度和承重能力容纳刀片机箱,考虑前后门开合、线缆管理所需空间以及冷热通道气流。
- 电力供应: 计算机箱满载(所有刀片、模块、PSU)的峰值功耗,确保机柜PDU(电源分配单元)能提供充足、稳定且符合规格(电压、电流、相位)的电力,并预留冗余,确认电源线规格和长度合适。
- 散热条件: 确保数据中心或机房的制冷能力满足刀片机箱的高密度散热需求,检查机柜前后通风是否通畅无遮挡。
- 网络连接: 规划好机箱网络交换模块需要连接的上行交换机端口(包括管理网络、业务网络、存储网络等),准备好相应类型和长度的网线或光纤跳线。
- 机柜安装位置: 确定机箱在机柜中的具体位置(U位),考虑承重分布(通常机箱较重,建议放在机柜中下部)、线缆走线便利性以及与其他设备的兼容性(如避免阻挡散热)。
-
硬件开箱与检查:
- 开箱: 在干净、防静电的环境下开箱,保留所有包装材料以备运输或返修。
- 核对清单: 对照装箱清单,仔细检查所有组件是否齐全且无运输损伤:
- 刀片机箱本体
- 刀片服务器(数量)
- 管理模块(通常2个,用于冗余)
- 网络交换模块(根据订单配置的数量和类型)
- 电源模块(数量,注意冗余配置)
- 散热风扇模块(通常已预装或单独提供)
- 导轨套件(用于将机箱安装到机柜)
- 电源线
- 文档(快速安装指南、安全手册等)
- 螺丝、线缆管理附件等
- 记录序列号: 记录机箱、刀片服务器、管理模块、交换模块等关键组件的序列号,便于后续资产管理和保修。
-
工具与安全准备:
- 防静电措施: 这是绝对要求! 佩戴防静电腕带,并将其可靠地连接到机柜或机箱的接地点,在无静电工作台或防静电垫上操作,避免在干燥、易产生静电的环境下操作。
- 工具: 准备合适的螺丝刀(通常十字或内六角)、剪线钳/剥线钳(如需制作跳线)、网线测试仪、手电筒等。
- 人员安全: 至少两人协作搬运机箱(机箱非常重),使用正确的搬运姿势,避免腰部受伤,确保机柜稳固,必要时使用机柜固定脚轮或固定到地板。
- 断电操作: 在将机箱安装到机柜并连接电源线之前,确保所有电源开关处于关闭状态(O)。
安装刀片机箱到机柜
-
安装导轨:
- 根据机箱型号和机柜规格,将配套的导轨(通常左右各一)安装到机柜的目标U位上,仔细阅读导轨安装说明,确保前后导轨片安装牢固、水平且深度一致,导轨通常有可调节的卡扣以适应不同深度的机柜。
- 确认导轨安装后,其内轨(滑轨)可以顺畅地拉出和推回。
-
安装机箱:
- 搬运: 由两人平稳地将刀片机箱抬起,小心地将机箱两侧的安装点(通常是耳朵或滑槽)对准并卡入已安装在机柜上的导轨内轨。
- 推入: 缓慢、平稳地将机箱沿导轨完全推入机柜,直到听到“咔哒”声或感觉锁定到位,确保机箱前部与机柜前门框平齐或符合设计要求。
- 固定: 使用机箱随附的螺丝(通常在前部安装耳处)将机箱牢固地固定在机柜立柱上,防止其意外滑出。切勿省略此步骤!
-
初步线缆管理: 整理好机箱自带的电源线,将其暂时固定在机箱附近,避免散落。
安装机箱内部模块
- 注意: 此阶段操作需格外小心,避免触碰模块上的电子元件,始终佩戴防静电腕带。
-
安装管理模块 (Management Module):
- 找到机箱后部标有“Management”或类似标识的插槽(通常位于机箱后部上方或中间)。
- 取下对应插槽的假面板(如果有)。
- 握住管理模块两侧,将其平稳地对准插槽导轨。
- 轻轻用力将模块完全推入插槽,直到其连接器与机箱背板完全啮合,并且模块的固定卡扣或螺丝孔到位。
- 使用随附的小螺丝或通过模块上的卡扣/扳手将其牢固固定。通常需要安装两个管理模块以实现冗余。 确保两个模块都安装到位并固定好。
-
安装网络交换模块 (Fabric/Network Switch Module):
- 找到机箱后部标有“Fabric A”, “Fabric B”, “Ethernet”, “FC”等标识的插槽(具体位置和标识因厂商和型号而异)。
- 取下目标插槽的假面板。
- 握住交换模块两侧,对准插槽导轨。
- 平稳地将模块推入插槽,直到完全就位并固定(通常有卡扣或螺丝),根据您的网络设计规划,将模块安装到特定的插槽(如Fabric A/B用于冗余或不同网络平面)。
- 重复此步骤安装所有订购的交换模块(如以太网模块、FC SAN模块等)。
-
安装电源模块 (PSU):
- 找到机箱后部(有时在侧面或前部)的电源插槽。
- 取下目标插槽的假面板(如果有)。
- 握住电源模块的把手,将其对准插槽。
- 平稳地推入电源模块,直到其完全插入并与背板连接器啮合,通常会听到“咔哒”声或看到状态指示灯亮起。
- 安装所有电源模块。 为了实现电源冗余(N+N或N+1),必须安装所有订购的PSU,即使当前负载不高,也应装满PSU插槽以实现最佳散热和冗余。
-
安装散热风扇模块 (Fan Module):
- 刀片机箱通常预装了风扇模块,或在特定区域(如机箱中部或后部)有风扇插槽。
- 如果风扇模块是单独提供的,找到对应的插槽(通常有“Fan”标识),取下假面板,将风扇模块对准导轨推入到位并固定。
- 确保所有风扇插槽都安装了模块。 空置的插槽会破坏散热风道,导致散热不良。
安装刀片服务器
- 选择插槽: 根据您的规划(如资源分配、散热考虑、故障域隔离等),决定将刀片服务器安装到机箱的哪个具体插槽,通常建议从底部开始安装,或遵循厂商的最佳实践。
- 准备插槽: 取下目标插槽前端的空槽位填充面板(假刀片),保留这些面板,未使用的插槽必须安装填充面板以保证机箱内部气流正确流通和散热。
- 安装刀片:
- 双手握住刀片服务器的两侧(避免触碰板载元件和接口)。
- 将刀片底部的导轨(或定位销)对准机箱插槽内的导轨槽。
- 保持刀片水平,平稳地将其滑入插槽,可能需要轻微用力以确保连接器完全插入机箱背板。
- 当刀片完全插入时,您通常会感觉到阻力增加,然后听到“咔哒”一声,表明刀片已锁定到位,或者,刀片前端的锁定扳手/按钮会自动弹出或需要手动扣紧。务必确保刀片已牢固锁定。
- 重复安装: 按照规划,将其余刀片服务器安装到选定的插槽中。
- 填充空槽: 将所有未安装刀片的插槽用随附的空槽位填充面板(假刀片)封好。这是强制要求,对散热至关重要!
连接线缆
-
连接电源线:
- 将机箱随附的电源线一端牢固插入机箱后部每个电源模块(PSU)的输入接口。
- 将电源线的另一端连接到机柜PDU上。为了实现电源冗余:
- 将一半的PSU(如果总共4个PSU,则2个)连接到PDU A(或主路电源)。
- 将另一半的PSU连接到PDU B(或备路电源)。
- 确保PDU A和PDU B来自不同的上游电路或UPS,实现真正的电源冗余。
- 整理电源线,使用线缆管理臂或扎带将其整齐固定,避免阻挡气流和影响维护。
-
连接网络线缆:
- 管理网络: 将网线一端连接到机箱后部管理模块上的管理网络接口(通常标记为“MGMT”, “LOM”, “Dedicated”等),另一端连接到您规划好的管理网络交换机端口。强烈建议为两个管理模块都连接网线以实现管理网络冗余。
- 业务网络: 将网线/光纤一端连接到机箱后部网络交换模块的上行链路接口(通常标记为“Uplink”或特定端口号),另一端连接到对应的核心或汇聚交换机端口,根据交换模块的配置和您的网络设计,可能需要连接多个上行链路(如做链路聚合)。
- 存储网络 (如适用): 如果安装了FC交换模块,将光纤跳线一端连接到FC模块的上行链路端口,另一端连接到FC SAN交换机,同样考虑冗余连接。
- KVM/IP线缆 (如适用): 如果管理模块提供独立的KVM over IP接口,也需连接网线到专用网络或管理网络。
- 线缆整理: 使用机柜的线缆管理通道、理线器、扎带等工具,将所有网络线缆整齐布放、标识清晰(建议使用标签机标注两端信息),避免缠绕和拉扯。
初次上电与基本配置
- 最终检查: 再次确认:
- 所有模块(管理、交换、电源、风扇)已正确安装并固定。
- 所有刀片已正确安装并锁定,空槽位已安装填充面板。
- 所有电源线、网络线缆连接正确、牢固。
- 机箱已牢固固定在机柜上。
- 防静电措施已做好。
- 接通电源:
- 先确保机箱前部(如有)和所有电源模块(PSU)上的电源开关处于关闭(O)状态。
- 打开机柜PDU A和PDU B的电源开关。
- 逐个打开机箱上每个电源模块(PSU)的电源开关(通常位于PSU后端),观察PSU状态指示灯(通常绿色表示正常)。
- 打开机箱前部的主电源开关(如果存在)。
- 观察启动状态:
- 机箱和各个模块(管理模块、交换模块、风扇模块)的指示灯会开始亮起或闪烁,风扇会开始转动,这是正常的上电自检(POST)过程。
- 观察是否有异常告警灯(如红色或琥珀色)亮起,如有,记录指示灯状态并查阅手册。
- 访问管理界面:
- 管理模块启动完成后,会获得一个管理IP地址(可能是默认DHCP获取或默认静态IP,请查阅具体型号文档)。
- 使用一台连接到同一管理网络的电脑,打开浏览器,输入管理模块的IP地址(如
https://<管理模块IP>
)。 - 使用默认的管理员用户名和密码登录(首次登录后务必立即修改! 默认凭证在快速安装指南或厂商官网可查)。
- 基本配置:
- 设置管理网络: 根据您的网络规划,配置管理模块的静态IP地址、子网掩码、网关、DNS等,配置冗余管理模块的IP和故障转移设置。
- 发现刀片: 在管理界面中,应该能看到机箱内安装的所有刀片服务器,检查它们的状态是否正常(如“健康”、“已发现”)。
- 配置交换模块: 根据网络设计,登录到各个网络交换模块的管理界面(通常可以通过机箱管理界面跳转或使用交换模块自身的IP),进行VLAN划分、端口配置、上行链路聚合(如LACP)、固件检查等基本网络设置。
- 固件更新 (强烈建议): 检查机箱管理模块、交换模块以及刀片服务器本身的固件(Firmware)版本。强烈建议在正式部署业务前,将整个刀片系统的固件更新到厂商推荐的最新兼容版本,以获得最佳稳定性、安全性和功能支持,使用管理界面提供的固件更新工具进行操作,并严格遵循厂商的更新指南和顺序(通常先更新管理模块,再更新交换模块,最后更新刀片)。
- 重命名与分组: 为机箱、刀片服务器、管理模块等设置有意义的主机名和描述信息,便于后续管理,可以将刀片分组管理。
安装操作系统与驱动
- 选择安装方式: 刀片服务器安装操作系统的方式非常灵活:
- 通过管理模块KVM: 使用管理界面提供的虚拟KVM控制台(集成或独立的KVM over IP),像操作本地服务器一样,挂载ISO镜像(从本地或网络共享)进行安装,这是最常用和便捷的方式。
- 远程管理卡 (iLO/iDRAC/等): 如果刀片本身集成了带外管理控制器(如HPE iLO, Dell iDRAC),也可以通过其独立的网络接口和IP地址,使用其KVM功能安装OS。
- 网络引导 (PXE): 在数据中心环境中,大规模部署通常通过PXE(预启动执行环境)从网络启动并自动安装操作系统(需配置好PXE服务器和部署模板)。
- 物理介质 (较少用): 通过刀片前端的USB接口连接USB光驱或U盘安装(需确保管理模块KVM支持重定向USB设备)。
- 执行安装: 使用选定的方法启动刀片服务器,进入操作系统安装程序,安装过程与普通服务器类似:
- 选择或创建磁盘分区(注意识别刀片本地存储或通过HBA连接的外部存储)。
- 安装操作系统。
- 设置主机名、网络配置(业务网络IP)、管理员账户等。
- 安装驱动程序: 操作系统安装完成后,必须安装由刀片服务器或机箱厂商提供的最新驱动程序包(通常称为“System Software”, “Intelligent Provisioning Pack”, “Support Pack”等),特别是针对:
- 芯片组驱动
- 网卡驱动(板载网卡、CNA卡)
- HBA/RAID卡驱动
- 管理代理(用于与机箱管理模块通信,提供健康信息)
- 电源/散热管理驱动
- 这些驱动包通常可以从厂商官网下载,并通过管理界面推送、U盘或操作系统内安装程序进行安装,安装驱动确保硬件功能正常、性能优化且能被管理模块正确监控。
验证与监控
- 功能测试:
- 确认操作系统能正常启动。
- 测试业务网络连通性(Ping网关、访问内部资源等)。
- 测试存储访问(如挂载SAN LUN)。
- 测试管理功能(通过管理界面重启刀片、查看传感器状态等)。
- 监控系统状态:
- 登录机箱管理界面,全面检查所有组件状态:机箱、刀片、管理模块、交换模块、电源、风扇、温度等,确保所有状态为“OK”或“正常”(绿色)。
- 配置告警通知(邮件、SNMP Trap等),将关键事件(如故障、温度过高、电源失效
原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/10131.html