IBM高性能計算機系統一次重大故障分析
時(shi)間(jian):2022-07-15 05:17:00
導語(yu):IBM高性能計算機系統一次(ci)重大故(gu)障分析一文來源于(yu)網友上傳,不代表本站觀點(dian),若(ruo)需要原創(chuang)文章可咨詢客服(fu)老師,歡迎(ying)參考。
摘要ibm高性能計算機系統承擔著中(zhong)國氣象(xiang)(xiang)局(ju)主(zhu)要(yao)氣象(xiang)(xiang)氣候業(ye)務(wu)科研模式運行(xing),整個系統的(de)(de)(de)(de)數據交換網絡是通(tong)過(guo)HPS(HighPerformanceswitch)來實現的(de)(de)(de)(de)。2006年9月(yue)21日,IBM高性(xing)能計算(suan)機系統的(de)(de)(de)(de)HPS網絡發生(sheng)故障(zhang),導致了(le)(le)科研分(fen)區不(bu)能使用,但(dan)沒有(you)影(ying)響業(ye)務(wu)模式系統。文章主(zhu)要(yao)介紹了(le)(le)這次故障(zhang)現象(xiang)(xiang)和解決(jue)辦法,分(fen)析了(le)(le)故障(zhang)發生(sheng)的(de)(de)(de)(de)原因,并通(tong)過(guo)對故障(zhang)的(de)(de)(de)(de)分(fen)析總結,探討了(le)(le)目前存在的(de)(de)(de)(de)問(wen)題,以(yi)及(ji)以(yi)后(hou)的(de)(de)(de)(de)一(yi)些工(gong)作(zuo)計劃和建議。
關鍵詞故(gu)障解決HPSIBM高性能計算機
引言
IBM高性(xing)能計算機系(xi)統(tong)承擔(dan)中國氣(qi)(qi)象局主要的(de)天(tian)氣(qi)(qi)氣(qi)(qi)候業務(wu)科(ke)(ke)研(yan)(yan)模式(shi)運行(xing),系(xi)統(tong)在(zai)(zai)2004年(nian)末(mo)安(an)裝以(yi)(yi)來,運行(xing)一直比較平穩。在(zai)(zai)整個(ge)系(xi)統(tong)中,數據交換(huan)是通過IBMHPS(HighPerformanceSwitch)網(wang)(wang)絡(luo)實現(xian)的(de),通過SWITCH網(wang)(wang)絡(luo)為用(yong)戶(hu)的(de)并行(xing)作業提(ti)供通信。如(ru)果SWITCH網(wang)(wang)絡(luo)出(chu)現(xian)問題,就會影響(xiang)模式(shi)的(de)運行(xing)效(xiao)率(lv),甚至(zhi)可以(yi)(yi)導(dao)致(zhi)整個(ge)系(xi)統(tong)不能使用(yong)。在(zai)(zai)2006年(nian)9月21日,科(ke)(ke)研(yan)(yan)分(fen)區(qu)的(de)SWITCH網(wang)(wang)絡(luo)故障(zhang),導(dao)致(zhi)了整個(ge)科(ke)(ke)研(yan)(yan)分(fen)區(qu)的(de)癱瘓(huan),9月24日故障(zhang)恢(hui)復;此次故障(zhang)對數值預報系(xi)統(tong)和動(dong)力氣(qi)(qi)候模式(shi)預測系(xi)統(tong)的(de)業務(wu)模式(shi)沒有影響(xiang),只是涉及了科(ke)(ke)研(yan)(yan)分(fen)區(qu)的(de)用(yong)戶(hu)和作業。
1故障基本情況
1.1故障現象
2006年9月21日,科研分(fen)區的系統性能下降,用(yong)(yong)戶(hu)作業(ye)的運算速度比較慢,檢(jian)查發現HPS(HighPerformanceSwitch)[1]網絡的通(tong)信狀態大(da)面(mian)積出現異常,影響(xiang)了(le)GPFS(GeneralParallelFileSystem)[2]數據(ju)文件系統和作業(ye)管理(li)軟件LDLEVEL的正(zheng)(zheng)常運行,導(dao)致(zhi)用(yong)(yong)戶(hu)無法(fa)使用(yong)(yong)數據(ju)空(kong)間和正(zheng)(zheng)常提(ti)交用(yong)(yong)戶(hu)作業(ye),最終導(dao)致(zhi)了(le)用(yong)(yong)戶(hu)無法(fa)使用(yong)(yong)科研分(fen)區;在SWITCH網絡通(tong)信正(zheng)(zheng)常后,GPFS文件系統中的有些(xie)文件不能正(zheng)(zheng)常訪(fang)問。
1.2處理過程
在故障發生后(hou),為了確(que)保(bao)不影(ying)響(xiang)業(ye)務(wu),論文(wen)對系(xi)(xi)(xi)統(tong)(tong)上(shang)運(yun)(yun)行的業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)分析并做應急處理。系(xi)(xi)(xi)統(tong)(tong)承擔(dan)的業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)包括數值預(yu)報(bao)業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)系(xi)(xi)(xi)統(tong)(tong)和(he)動(dong)力氣候模(mo)(mo)(mo)式(shi)(shi)系(xi)(xi)(xi)統(tong)(tong),這些(xie)業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)都運(yun)(yun)行在業(ye)務(wu)分區(qu),但是動(dong)力氣候模(mo)(mo)(mo)式(shi)(shi)系(xi)(xi)(xi)統(tong)(tong)的用戶空間掛(gua)接(jie)(jie)在科研分區(qu)的服務(wu)節(jie)點(dian)上(shang),為了避免維(wei)護科研分區(qu)時(shi)影(ying)響(xiang)業(ye)務(wu),緊急切換(huan)HACMP(HighAvailableClusterMulti—Processing),使文(wen)件系(xi)(xi)(xi)統(tong)(tong)掛(gua)接(jie)(jie)在業(ye)務(wu)分區(qu)。
在確保業務(wu)可以穩定運行(xing)后(hou),由于當時用(yong)戶(hu)已無法使(shi)用(yong)科研分區,因此首先申請對科研分區進行(xing)停機維護,然后(hou)分析并解(jie)決故障,處(chu)理過(guo)程如(ru)下。
(1)分析HPS網絡通(tong)信數據,發(fa)現F45一(yi)(yi)S11和F46一(yi)(yi)S07的兩(liang)塊主板上(shang)的芯片內(nei)部通(tong)信不正常,決定更換(huan)這(zhe)兩(liang)塊主板;但由于備件新損的原(yuan)因,只有一(yi)(yi)塊主板可(ke)用,只更換(huan)了F46一(yi)(yi)S07SWITCH的主板。
(2)在(zai)重新加電(dian)啟(qi)動完畢后,仍有大(da)量的HPS網(wang)絡(luo)不能(neng)(neng)通信,導(dao)致GPFS不能(neng)(neng)穩定(ding)工作(zuo)(zuo),用戶無法正常(chang)提(ti)交(jiao)作(zuo)(zuo)業。
(3)用(yong)SWITCH管理界面檢查SWITCH狀(zhuang)態時,顯示大(da)量節點存在光(guang)纖(xian)(xian)卡故障(zhang)的報錯,但(dan)光(guang)纖(xian)(xian)卡的狀(zhuang)態指示燈顯示正常,更換了5塊光(guang)纖(xian)(xian)卡進(jin)行檢測,沒有(you)作用(yong),故排(pai)除了大(da)批量光(guang)纖(xian)(xian)卡故障(zhang)的可能(neng)。
(4)收集(ji)SWITCH的(de)SNAP數據傳(chuan)給美國實驗室,對(dui)數據進(jin)行(xing)分(fen)析;經過(guo)數據的(de)多次收集(ji)傳(chuan)遞,美國實驗室SWITCH產品(pin)專家對(dui)底層數據進(jin)行(xing)分(fen)析后,建議對(dui)F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50機柜進(jin)行(xing)電(dian)源(yuan)微碼刷新,刷新為統一的(de)26A6版本后,SWITCH網絡恢復正常。
(5)系(xi)統啟動后(hou),對科(ke)研(yan)分(fen)區進行檢查(cha),發現(xian)不(bu)能正(zheng)常(chang)訪問GPFS文件系(xi)統,3個文件系(xi)統均(jun)報I/O讀的錯(cuo)誤,但(dan)可(ke)以正(zheng)常(chang)寫入數據;fsl可(ke)以用mmfsck命令進行修復,但(dan)fs2和fs3均(jun)各有一個NsD(Net—workSharedDisk)的狀態為“down”狀態,然后(hou)手工啟動GPFS文件系(xi)統,整(zheng)個系(xi)統恢復正(zheng)常(chang)。
2故障原因分析
2.1控制信(xin)號(hao)傳(chuan)輸過(guo)程(cheng)
從圖1可見,IBM高(gao)性(xing)能計算機(ji)系統(tong)是通過(guo)(guo)硬件控制終端HMC(HardwareManagementConsole)對(dui)主機(ji)和SWITCH的(de)(de)硬件進行控制,通過(guo)(guo)HMC上(shang)(shang)的(de)(de)SNM(SWITCHNetworkManager)軟(ruan)件管理HPS,在HMC上(shang)(shang)啟動FNMD(FederationNetworkManagerDaemon)進程,實現對(dui)HPS網絡的(de)(de)配置、初(chu)始化、監視、控制、恢復、分析和診(zhen)斷(duan)。此(ci)功能與(yu)節點是否安(an)裝操作系統(tong)無關(guan),因為這些(xie)指(zhi)令直接由HMC發(fa)起,控制指(zhi)令都是通過(guo)(guo)電(dian)源傳輸(shu)的(de)(de),只要電(dian)源正常(chang),就會響應執行,SWITCH的(de)(de)拓撲(pu)結構是在電(dian)源啟動的(de)(de)過(guo)(guo)程中通過(guo)(guo)自檢(jian)獲得的(de)(de)。
每個(ge)(ge)HMC系(xi)統(tong)有一個(ge)(ge)RS232串(chuan)口(kou)連接CSP(CommonServiceProcessor)[2],畢業論(lun)文實現(xian)對(dui)主機(ji)(ji)的(de)控制和管理,如開機(ji)(ji)、關機(ji)(ji)、關閉系(xi)統(tong)、重新啟動等;有兩(liang)個(ge)(ge)RS422串(chuan)口(kou)分別連接節點和SWITCH機(ji)(ji)柜的(de)兩(liang)個(ge)(ge)BPA(BulkPowerAssembly)電源(yuan),實現(xian)對(dui)BPA的(de)監(jian)視和firmware管理。所有的(de)HPS都是通(tong)過(guo)BPA提供電源(yuan),對(dui)于(yu)每一個(ge)(ge)SWITCH,通(tong)過(guo)HMC將信(xin)號發送給(gei)BPA,再通(tong)過(guo)BPA將控制信(xin)息通(tong)過(guo)SWITCH的(de)DCA(DistributedConverterAssembly)電源(yuan)傳送給(gei)SWITCH,來實現(xian)對(dui)SWITCH的(de)管理。
2.2SWITCH初始化實(shi)現的功能
在啟動SWITCH之(zhi)前,首(shou)先要確保HMC已(yi)經(jing)正(zheng)常啟動;在SWITCH機(ji)柜加電后,由SSP(SWITCHServiceProcessor)控制SWITCH的加電過程(cheng),在每一個SWITCH芯片(pian)的寄存器中記(ji)錄本地以及相鄰芯片(pian)的機(ji)柜號、端口號等信息。
在節點(dian)機柜加電后(hou),每個SNI芯片寄存器中(zhong)保存自己的(de)機柜號和(he)GX-BUS信(xin)息(xi),并將這些信(xin)息(xi)傳輸給相鄰的(de)SNI芯片寄存器。
由HMC節點啟動(dong)FNM進程,對(dui)所有(you)的硬件(jian)控制器初始化,配置(zhi)FNM網(wang)絡(luo);網(wang)絡(luo)配置(zhi)好以(yi)后(hou)對(dui)FNM初始化,FNM將與每個激(ji)活的SWITCH和SNI網(wang)絡(luo)部件(jian)通信;將FRAME、CHIP、PORT、ROUTE、SWITCH等信息都保(bao)(bao)存(cun)在寄存(cun)器中(zhong),節點轉入LPAR狀態(tai)后(hou)將信息保(bao)(bao)存(cun)在內存(cun)中(zhong),SWITCH初始化完畢。
2.3故障原因分析
在2006年6月到9月期問,科研分區(qu)共更換了7塊(kuai)BPA機柜電(dian)源、8塊(kuai)SWITCHDCA電(dian)源、8塊(kuai)p655DCA節點電(dian)源。
由于IBM高性能計算機系統的有些電源模塊被更換,并且有些備件號發生了變化,雖然新備件可以實現對原備件的替代功能,但是新舊電源備件的微碼版本部分存在不一致;而SWITCH的控制信息是通過HMC—BPA—DCA進行傳送,電源相關部件微碼版本的不一致影響了信息的正常傳送,進而影響SWITCH的網絡初始化,不能得到正確的網絡拓撲結構,導致不能建立正常的SwITCH通路;而通過刷新一次機柜電源BPA同版本微(wei)碼,使電源模塊上的(de)通信(xin)進程狀(zhuang)態重新(xin)初始化(hua)(歸零(ling)操作(zuo)),清(qing)除了電源模塊上的(de)錯(cuo)誤通信(xin)信(xin)息記(ji)錄,可以將控制信(xin)息正(zheng)確(que)傳(chuan)送,重新(xin)建立(li)了正(zheng)確(que)的(de)網(wang)絡通路。
GPFS文(wen)(wen)(wen)件系(xi)統(tong)不(bu)能正常讀寫主要是由于SWITCH網(wang)絡通信不(bu)穩定(ding),GPFS的(de)通信頻(pin)繁(fan)發生中斷,所以GPFS的(de)文(wen)(wen)(wen)件系(xi)統(tong)也(ye)會頻(pin)繁(fan)異(yi)常上線或離線(mount或umount狀(zhuang)態(tai)),使GPFS文(wen)(wen)(wen)件系(xi)統(tong)控制(zhi)的(de)有些硬盤(pan)上的(de)NSD(NetworkSharedDisk)控制(zhi)信息不(bu)一致,GPFS為了(le)保證(zheng)數據的(de)安全性,系(xi)統(tong)自動對此NSD進(jin)行了(le)隔離操作。
3故(gu)障(zhang)事件的(de)分析和啟發
從(cong)這(zhe)次發(fa)生的(de)故障情況(kuang)來看,由(you)于(yu)在系(xi)統(tong)本身(shen)設計和(he)日常(chang)(chang)維護的(de)過程(cheng)中考慮了(le)高可靠(kao)性(xing)和(he)對(dui)于(yu)用(yong)戶數(shu)據的(de)一致性(xing)管理,因此在科(ke)研分區出(chu)現(xian)問題(ti)的(de)情況(kuang)下,并沒有(you)影(ying)響業務作業的(de)正常(chang)(chang)運(yun)行,這(zhe)是對(dui)系(xi)統(tong)高可靠(kao)性(xing)的(de)一次檢(jian)驗;但同時通過這(zhe)次故障事件,也(ye)發(fa)現(xian)了(le)我們(men)的(de)許多(duo)不足,并且也(ye)為日常(chang)(chang)維護提(ti)供了(le)一個經驗和(he)教訓。
3.1系(xi)統可靠性驗(yan)證
由(you)于在系統設(she)計上(shang)考慮了(le)用戶(hu)(hu)文件系統高(gao)可用性(xing)的設(she)計以及(ji)全局的用戶(hu)(hu)環境一致性(xing),職(zhi)稱論文同時在日(ri)常維護工作中(zhong)對(dui)用戶(hu)(hu)文件系統都做了(le)備(bei)份,因此對(dui)業務用戶(hu)(hu)沒有(you)造成影響。
3.2系統(tong)本身的問題
SWITCH設(she)備故(gu)(gu)(gu)障(zhang)率比(bi)較高(gao)(gao):從系(xi)統投入運行以來,SWITCH設(she)備的故(gu)(gu)(gu)障(zhang)率就(jiu)比(bi)較高(gao)(gao)。2006年5月1日到10月31日期問(wen),科研(yan)分(fen)區就(jiu)出現(xian)了39次(ci)SWITCH硬件故(gu)(gu)(gu)障(zhang),其中光纖卡故(gu)(gu)(gu)障(zhang)22次(ci),銅卡故(gu)(gu)(gu)障(zhang)6次(ci),主板故(gu)(gu)(gu)障(zhang)1次(ci)、電(dian)源故(gu)(gu)(gu)障(zhang)10次(ci);業務分(fen)區有17次(ci)SWITCH硬件故(gu)(gu)(gu)障(zhang),其中光纖卡故(gu)(gu)(gu)障(zhang)8次(ci),電(dian)源故(gu)(gu)(gu)障(zhang)9次(ci)。
故(gu)障(zhang)診斷(duan)定(ding)(ding)位(wei)難:在對(dui)SWITCH設備維護時(shi),光纖卡(ka)和(he)銅(tong)卡(ka)的故(gu)障(zhang)診斷(duan)相對(dui)容易,故(gu)障(zhang)現(xian)象明顯,有冗余連接,一(yi)般不(bu)影響系統和(he)用戶的正常(chang)使用;而SWITCH背板(ban)故(gu)障(zhang)及電源微碼不(bu)一(yi)致等故(gu)障(zhang),則不(bu)容易定(ding)(ding)位(wei)具(ju)體的故(gu)障(zhang)點,對(dui)系統的影響也(ye)比(bi)較大。
3.3日(ri)常維護(hu)及管(guan)理問題
日(ri)常(chang)維(wei)護不(bu)夠深入:在(zai)日(ri)常(chang)的維(wei)護過程中(zhong),主要(yao)還是停留在(zai)處(chu)理(li)(li)現象明顯的軟硬件(jian)故(gu)障(zhang)(zhang),并沒有對(dui)(dui)系統的一些潛在(zai)故(gu)障(zhang)(zhang)進行分析研究,而且對(dui)(dui)系統了解(jie)不(bu)夠深入,在(zai)出(chu)現大的故(gu)障(zhang)(zhang)時不(bu)知如何判斷(duan)處(chu)理(li)(li)。
管理流程不完善:從本次故障來看,備件不能滿足在重大情況下的處理(li)要(yao)求;廠家(jia)技術支(zhi)持(chi)不暢通,響(xiang)應(ying)速度慢,這都直接延(yan)長了故障恢復時問(wen)。
4后續工作和建議
此次故障(zhang)發生后,陸續完成和制定了(le)一些工作(zuo)計劃(hua)。
(1)完(wan)成了業務分區(qu)電源(yuan)微碼(ma)的檢查。察看了業務分區(qu)SWITCH的微碼(ma)版本,發現也存(cun)在需要(yao)重(zhong)新安(an)裝的警告(gao)提(ti)示,但是由于(yu)報錯的機柜比(bi)較少,并(bing)沒有對(dui)系統造成影響,目前已經完(wan)成對(dui)業務分區(qu)電源(yuan)微碼(ma)的統一刷新。
(2)制定了(le)IBM高性能計算機系統業務應急備(bei)份方案。當(dang)遇到緊急情況時,能夠快速評估當(dang)前狀(zhuang)況并進行處(chu)理。
(3)完(wan)成(cheng)了(le)(le)(le)系統存儲(chu)資源(yuan)的擴充。擴大了(le)(le)(le)目前用戶的存儲(chu)資源(yuan),并滿足了(le)(le)(le)業務(wu)應(ying)用系統備份(fen)的資源(yuan)需(xu)求。
(4)完成了HPGS系統的微(wei)碼升級。2007年4月已(yi)經將整個(ge)系統HPS的ServicePack版本級別升級到21。
(5)加強管理。督促廠(chang)家人員(yuan)完(wan)善技術(shu)緊急支持的響應速(su)度和流程,保(bao)證技術(shu)支持的暢通;同時要(yao)確保(bao)備件的充足可(ke)用。
(6)加(jia)強維護(hu)手段和(he)交流。在(zai)日常(chang)維護(hu)中,工作(zuo)總結不僅是滿足于簡單的(de)(de)問題(ti)解(jie)決(jue),需要深入(ru)分析診斷(duan),找到問題(ti)的(de)(de)真(zhen)正原因,避免(mian)潛在(zai)的(de)(de)隱患故(gu)障;同時(shi)要多(duo)通過學習以(yi)及技術交流,加(jia)深對全系(xi)統的(de)(de)了解(jie),不斷(duan)提高維護(hu)水(shui)平(ping),提高自己的(de)(de)故(gu)障解(jie)決(jue)能力。
5結束語
此(ci)次(ci)故障雖(sui)然沒有對我(wo)們(men)的業務造成影(ying)響,但是通過此(ci)次(ci)故障情況,我(wo)們(men)看(kan)到了我(wo)們(men)還存在的許多(duo)不(bu)足,需要我(wo)們(men)在以后的工作(zuo)中(zhong)加以改進。通過不(bu)斷地(di)分(fen)析和總(zong)結(jie),維護(hu)好我(wo)們(men)的系統,保持(chi)系統高效穩定的運(yun)行。
參考文獻
[1]IBM,Inc.AnIntroductiontotheNewIBMF.serverpS~''''ie8HighPerformanceSWITCH[EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1.
[2]IBM,Inc.GeneralParallelFileSystemAdministrationandPro.grammingReference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm.clus—ter.gpfs.doc/gpfsbooks.htm1.