IBM高性能计算机系统一次重大故障分析

導語(yu)：IBM高性能計算機系統一次(ci)重大故(gu)障分析一文來源于(yu)網友上傳，不代表本站觀點(dian)，若(ruo)需要原創(chuang)文章可咨詢客服(fu)老師，歡迎(ying)參考。

摘要ibm 高性能計算機系統承擔著中(zhong)國氣象(xiang)(xiang)局(ju)主(zhu)要(yao)氣象(xiang)(xiang)氣候業(ye)務(wu)科研模式運行(xing)，整個系統的(de)(de)(de)(de)數據交換網絡是通(tong)過(guo)HPS(HighPerformanceswitch)來實現的(de)(de)(de)(de)。2006年9月(yue)21日，IBM高性(xing)能計算(suan)機系統的(de)(de)(de)(de)HPS網絡發生(sheng)故障(zhang)，導致了(le)(le)科研分(fen)區不(bu)能使用，但(dan)沒有(you)影(ying)響業(ye)務(wu)模式系統。文章主(zhu)要(yao)介紹了(le)(le)這次故障(zhang)現象(xiang)(xiang)和解決(jue)辦法，分(fen)析了(le)(le)故障(zhang)發生(sheng)的(de)(de)(de)(de)原因，并通(tong)過(guo)對故障(zhang)的(de)(de)(de)(de)分(fen)析總結，探討了(le)(le)目前存在的(de)(de)(de)(de)問(wen)題，以(yi)及(ji)以(yi)后(hou)的(de)(de)(de)(de)一(yi)些工(gong)作(zuo)計劃和建議。

關鍵詞故(gu)障解決HPSIBM高性能計算機

引言

IBM高性(xing)能計算機系(xi)統(tong)承擔(dan)中國氣(qi)(qi)象局主要的(de)天(tian)氣(qi)(qi)氣(qi)(qi)候業務(wu)科(ke)(ke)研(yan)(yan)模式(shi)運行(xing)，系(xi)統(tong)在(zai)(zai)2004年(nian)末(mo)安(an)裝以(yi)(yi)來，運行(xing)一直比較平穩。在(zai)(zai)整個(ge)系(xi)統(tong)中，數據交換(huan)是通過IBMHPS(HighPerformanceSwitch)網(wang)(wang)絡(luo)實現(xian)的(de)，通過SWITCH網(wang)(wang)絡(luo)為用(yong)戶(hu)的(de)并行(xing)作業提(ti)供通信。如(ru)果SWITCH網(wang)(wang)絡(luo)出(chu)現(xian)問題，就會影響(xiang)模式(shi)的(de)運行(xing)效(xiao)率(lv)，甚至(zhi)可以(yi)(yi)導(dao)致(zhi)整個(ge)系(xi)統(tong)不能使用(yong)。在(zai)(zai)2006年(nian)9月21日，科(ke)(ke)研(yan)(yan)分(fen)區(qu)的(de)SWITCH網(wang)(wang)絡(luo)故障(zhang)，導(dao)致(zhi)了整個(ge)科(ke)(ke)研(yan)(yan)分(fen)區(qu)的(de)癱瘓(huan)，9月24日故障(zhang)恢(hui)復；此次故障(zhang)對數值預報系(xi)統(tong)和動(dong)力氣(qi)(qi)候模式(shi)預測系(xi)統(tong)的(de)業務(wu)模式(shi)沒有影響(xiang)，只是涉及了科(ke)(ke)研(yan)(yan)分(fen)區(qu)的(de)用(yong)戶(hu)和作業。

1故障基本情況

1．1故障現象

2006年9月21日，科研分(fen)區的系統性能下降，用(yong)(yong)戶(hu)作業(ye)的運算速度比較慢，檢(jian)查發現HPS(HighPerformanceSwitch)[1]網絡的通(tong)信狀態大(da)面(mian)積出現異常，影響(xiang)了(le)GPFS(GeneralParallelFileSystem)[2]數據(ju)文件系統和作業(ye)管理(li)軟件LDLEVEL的正(zheng)(zheng)常運行，導(dao)致(zhi)用(yong)(yong)戶(hu)無法(fa)使用(yong)(yong)數據(ju)空(kong)間和正(zheng)(zheng)常提(ti)交用(yong)(yong)戶(hu)作業(ye)，最終導(dao)致(zhi)了(le)用(yong)(yong)戶(hu)無法(fa)使用(yong)(yong)科研分(fen)區；在SWITCH網絡通(tong)信正(zheng)(zheng)常后，GPFS文件系統中的有些(xie)文件不能正(zheng)(zheng)常訪(fang)問。

1．2處理過程

在故障發生后(hou)，為了確(que)保(bao)不影(ying)響(xiang)業(ye)務(wu)，論文(wen)對系(xi)(xi)(xi)統(tong)(tong)上(shang)運(yun)(yun)行的業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)分析并做應急處理。系(xi)(xi)(xi)統(tong)(tong)承擔(dan)的業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)包括數值預(yu)報(bao)業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)系(xi)(xi)(xi)統(tong)(tong)和(he)動(dong)力氣候模(mo)(mo)(mo)式(shi)(shi)系(xi)(xi)(xi)統(tong)(tong)，這些(xie)業(ye)務(wu)模(mo)(mo)(mo)式(shi)(shi)都運(yun)(yun)行在業(ye)務(wu)分區(qu)，但是動(dong)力氣候模(mo)(mo)(mo)式(shi)(shi)系(xi)(xi)(xi)統(tong)(tong)的用戶空間掛(gua)接(jie)(jie)在科研分區(qu)的服務(wu)節(jie)點(dian)上(shang)，為了避免維(wei)護科研分區(qu)時(shi)影(ying)響(xiang)業(ye)務(wu)，緊急切換(huan)HACMP(HighAvailableClusterMulti—Processing)，使文(wen)件系(xi)(xi)(xi)統(tong)(tong)掛(gua)接(jie)(jie)在業(ye)務(wu)分區(qu)。

在確保業務(wu)可以穩定運行(xing)后(hou)，由于當時用(yong)戶(hu)已無法使(shi)用(yong)科研分區，因此首先申請對科研分區進行(xing)停機維護，然后(hou)分析并解(jie)決故障，處(chu)理過(guo)程如(ru)下。

(1)分析HPS網絡通(tong)信數據，發(fa)現F45一(yi)(yi)S11和F46一(yi)(yi)S07的兩(liang)塊主板上(shang)的芯片內(nei)部通(tong)信不正常，決定更換(huan)這(zhe)兩(liang)塊主板；但由于備件新損的原(yuan)因，只有一(yi)(yi)塊主板可(ke)用，只更換(huan)了F46一(yi)(yi)S07SWITCH的主板。

(2)在(zai)重新加電(dian)啟(qi)動完畢后，仍有大(da)量的HPS網(wang)絡(luo)不能(neng)(neng)通信，導(dao)致GPFS不能(neng)(neng)穩定(ding)工作(zuo)(zuo)，用戶無法正常(chang)提(ti)交(jiao)作(zuo)(zuo)業。

(3)用(yong)SWITCH管理界面檢查SWITCH狀(zhuang)態時，顯示大(da)量節點存在光(guang)纖(xian)(xian)卡故障(zhang)的報錯，但(dan)光(guang)纖(xian)(xian)卡的狀(zhuang)態指示燈顯示正常，更換了5塊光(guang)纖(xian)(xian)卡進(jin)行檢測，沒有(you)作用(yong)，故排(pai)除了大(da)批量光(guang)纖(xian)(xian)卡故障(zhang)的可能(neng)。

(4)收集(ji)SWITCH的(de)SNAP數據傳(chuan)給美國實驗室，對(dui)數據進(jin)行(xing)分(fen)析；經過(guo)數據的(de)多次收集(ji)傳(chuan)遞，美國實驗室SWITCH產品(pin)專家對(dui)底層數據進(jin)行(xing)分(fen)析后，建議對(dui)F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50機柜進(jin)行(xing)電(dian)源(yuan)微碼刷新，刷新為統一的(de)26A6版本后，SWITCH網絡恢復正常。

(5)系(xi)統啟動后(hou)，對科(ke)研(yan)分(fen)區進行檢查(cha)，發現(xian)不(bu)能正(zheng)常(chang)訪問GPFS文件系(xi)統，3個文件系(xi)統均(jun)報I／O讀的錯(cuo)誤，但(dan)可(ke)以正(zheng)常(chang)寫入數據；fsl可(ke)以用mmfsck命令進行修復，但(dan)fs2和fs3均(jun)各有一個NsD(Net—workSharedDisk)的狀態為“down”狀態，然后(hou)手工啟動GPFS文件系(xi)統，整(zheng)個系(xi)統恢復正(zheng)常(chang)。

2故障原因分析

2．1控制信(xin)號(hao)傳(chuan)輸過(guo)程(cheng)

從圖1可見，IBM高(gao)性(xing)能計算機(ji)系統(tong)是通過(guo)(guo)硬件控制終端HMC(HardwareManagementConsole)對(dui)主機(ji)和SWITCH的(de)(de)硬件進行控制，通過(guo)(guo)HMC上(shang)(shang)的(de)(de)SNM(SWITCHNetworkManager)軟(ruan)件管理HPS，在HMC上(shang)(shang)啟動FNMD(FederationNetworkManagerDaemon)進程，實現對(dui)HPS網絡的(de)(de)配置、初(chu)始化、監視、控制、恢復、分析和診(zhen)斷(duan)。此(ci)功能與(yu)節點是否安(an)裝操作系統(tong)無關(guan)，因為這些(xie)指(zhi)令直接由HMC發(fa)起，控制指(zhi)令都是通過(guo)(guo)電(dian)源傳輸(shu)的(de)(de)，只要電(dian)源正常(chang)，就會響應執行，SWITCH的(de)(de)拓撲(pu)結構是在電(dian)源啟動的(de)(de)過(guo)(guo)程中通過(guo)(guo)自檢(jian)獲得的(de)(de)。

每個(ge)(ge)HMC系(xi)統(tong)有一個(ge)(ge)RS232串(chuan)口(kou)連接CSP(CommonServiceProcessor)[2]，畢業論(lun)文實現(xian)對(dui)主機(ji)(ji)的(de)控制和管理，如開機(ji)(ji)、關機(ji)(ji)、關閉系(xi)統(tong)、重新啟動等；有兩(liang)個(ge)(ge)RS422串(chuan)口(kou)分別連接節點和SWITCH機(ji)(ji)柜的(de)兩(liang)個(ge)(ge)BPA(BulkPowerAssembly)電源(yuan)，實現(xian)對(dui)BPA的(de)監(jian)視和firmware管理。所有的(de)HPS都是通(tong)過(guo)BPA提供電源(yuan)，對(dui)于(yu)每一個(ge)(ge)SWITCH，通(tong)過(guo)HMC將信(xin)號發送給(gei)BPA，再通(tong)過(guo)BPA將控制信(xin)息通(tong)過(guo)SWITCH的(de)DCA(DistributedConverterAssembly)電源(yuan)傳送給(gei)SWITCH，來實現(xian)對(dui)SWITCH的(de)管理。

2．2SWITCH初始化實(shi)現的功能

在啟動SWITCH之(zhi)前，首(shou)先要確保HMC已(yi)經(jing)正(zheng)常啟動；在SWITCH機(ji)柜加電后，由SSP(SWITCHServiceProcessor)控制SWITCH的加電過程(cheng)，在每一個SWITCH芯片(pian)的寄存器中記(ji)錄本地以及相鄰芯片(pian)的機(ji)柜號、端口號等信息。

在節點(dian)機柜加電后(hou)，每個SNI芯片寄存器中(zhong)保存自己的(de)機柜號和(he)GX-BUS信(xin)息(xi)，并將這些信(xin)息(xi)傳輸給相鄰的(de)SNI芯片寄存器。

由HMC節點啟動(dong)FNM進程，對(dui)所有(you)的硬件(jian)控制器初始化，配置(zhi)FNM網(wang)絡(luo)；網(wang)絡(luo)配置(zhi)好以(yi)后(hou)對(dui)FNM初始化，FNM將與每個激(ji)活的SWITCH和SNI網(wang)絡(luo)部件(jian)通信；將FRAME、CHIP、PORT、ROUTE、SWITCH等信息都保(bao)(bao)存(cun)在寄存(cun)器中(zhong)，節點轉入LPAR狀態(tai)后(hou)將信息保(bao)(bao)存(cun)在內存(cun)中(zhong)，SWITCH初始化完畢。

2．3故障原因分析

在2006年6月到9月期問，科研分區(qu)共更換了7塊(kuai)BPA機柜電(dian)源、8塊(kuai)SWITCHDCA電(dian)源、8塊(kuai)p655DCA節點電(dian)源。

由于IBM高性能計算機系統的有些電源模塊被更換，并且有些備件號發生了變化，雖然新備件可以實現對原備件的替代功能，但是新舊電源備件的微碼版本部分存在不一致；而SWITCH的控制信息是通過HMC—BPA—DCA進行傳送，電源相關部件微碼版本的不一致影響了信息的正常傳送，進而影響SWITCH的網絡初始化，不能得到正確的網絡拓撲結構，導致不能建立正常的SwITCH通路；而通過刷新一次機柜電源BPA同版本微(wei)碼，使電源模塊上的(de)通信(xin)進程狀(zhuang)態重新(xin)初始化(hua)(歸零(ling)操作(zuo))，清(qing)除了電源模塊上的(de)錯(cuo)誤通信(xin)信(xin)息記(ji)錄，可以將控制信(xin)息正(zheng)確(que)傳(chuan)送，重新(xin)建立(li)了正(zheng)確(que)的(de)網(wang)絡通路。

GPFS文(wen)(wen)(wen)件系(xi)統(tong)不(bu)能正常讀寫主要是由于SWITCH網(wang)絡通信不(bu)穩定(ding)，GPFS的(de)通信頻(pin)繁(fan)發生中斷，所以GPFS的(de)文(wen)(wen)(wen)件系(xi)統(tong)也(ye)會頻(pin)繁(fan)異(yi)常上線或離線(mount或umount狀(zhuang)態(tai))，使GPFS文(wen)(wen)(wen)件系(xi)統(tong)控制(zhi)的(de)有些硬盤(pan)上的(de)NSD(NetworkSharedDisk)控制(zhi)信息不(bu)一致，GPFS為了(le)保證(zheng)數據的(de)安全性，系(xi)統(tong)自動對此NSD進(jin)行了(le)隔離操作。

3故(gu)障(zhang)事件的(de)分析和啟發

從(cong)這(zhe)次發(fa)生的(de)故障情況(kuang)來看，由(you)于(yu)在系(xi)統(tong)本身(shen)設計和(he)日常(chang)(chang)維護的(de)過程(cheng)中考慮了(le)高可靠(kao)性(xing)和(he)對(dui)于(yu)用(yong)戶數(shu)據的(de)一致性(xing)管理，因此在科(ke)研分區出(chu)現(xian)問題(ti)的(de)情況(kuang)下，并沒有(you)影(ying)響業務作業的(de)正常(chang)(chang)運(yun)行，這(zhe)是對(dui)系(xi)統(tong)高可靠(kao)性(xing)的(de)一次檢(jian)驗；但同時通過這(zhe)次故障事件，也(ye)發(fa)現(xian)了(le)我們(men)的(de)許多(duo)不足，并且也(ye)為日常(chang)(chang)維護提(ti)供了(le)一個經驗和(he)教訓。

3．1系(xi)統可靠性驗(yan)證

由(you)于在系統設(she)計上(shang)考慮了(le)用戶(hu)(hu)文件系統高(gao)可用性(xing)的設(she)計以及(ji)全局的用戶(hu)(hu)環境一致性(xing)，職(zhi)稱論文同時在日(ri)常維護工作中(zhong)對(dui)用戶(hu)(hu)文件系統都做了(le)備(bei)份，因此對(dui)業務用戶(hu)(hu)沒有(you)造成影響。

3．2系統(tong)本身的問題

SWITCH設(she)備故(gu)(gu)(gu)障(zhang)率比(bi)較高(gao)(gao)：從系(xi)統投入運行以來，SWITCH設(she)備的故(gu)(gu)(gu)障(zhang)率就(jiu)比(bi)較高(gao)(gao)。2006年5月1日到10月31日期問(wen)，科研(yan)分(fen)區就(jiu)出現(xian)了39次(ci)SWITCH硬件故(gu)(gu)(gu)障(zhang)，其中光纖卡故(gu)(gu)(gu)障(zhang)22次(ci)，銅卡故(gu)(gu)(gu)障(zhang)6次(ci)，主板故(gu)(gu)(gu)障(zhang)1次(ci)、電(dian)源故(gu)(gu)(gu)障(zhang)10次(ci)；業務分(fen)區有17次(ci)SWITCH硬件故(gu)(gu)(gu)障(zhang)，其中光纖卡故(gu)(gu)(gu)障(zhang)8次(ci)，電(dian)源故(gu)(gu)(gu)障(zhang)9次(ci)。

故(gu)障(zhang)診斷(duan)定(ding)(ding)位(wei)難：在對(dui)SWITCH設備維護時(shi)，光纖卡(ka)和(he)銅(tong)卡(ka)的故(gu)障(zhang)診斷(duan)相對(dui)容易，故(gu)障(zhang)現(xian)象明顯，有冗余連接，一(yi)般不(bu)影響系統和(he)用戶的正常(chang)使用；而SWITCH背板(ban)故(gu)障(zhang)及電源微碼不(bu)一(yi)致等故(gu)障(zhang)，則不(bu)容易定(ding)(ding)位(wei)具(ju)體的故(gu)障(zhang)點，對(dui)系統的影響也(ye)比(bi)較大。

3．3日(ri)常維護(hu)及管(guan)理問題

日(ri)常(chang)維(wei)護不(bu)夠深入：在(zai)日(ri)常(chang)的維(wei)護過程中(zhong)，主要(yao)還是停留在(zai)處(chu)理(li)(li)現象明顯的軟硬件(jian)故(gu)障(zhang)(zhang)，并沒有對(dui)(dui)系統的一些潛在(zai)故(gu)障(zhang)(zhang)進行分析研究，而且對(dui)(dui)系統了解(jie)不(bu)夠深入，在(zai)出(chu)現大的故(gu)障(zhang)(zhang)時不(bu)知如何判斷(duan)處(chu)理(li)(li)。

管理流程不完善：從本次故障來看，備件不能滿足在重大情況下的處理(li)要(yao)求；廠家(jia)技術支(zhi)持(chi)不暢通，響(xiang)應(ying)速度慢，這都直接延(yan)長了故障恢復時問(wen)。

4后續工作和建議

此次故障(zhang)發生后，陸續完成和制定了(le)一些工作(zuo)計劃(hua)。

(1)完(wan)成了業務分區(qu)電源(yuan)微碼(ma)的檢查。察看了業務分區(qu)SWITCH的微碼(ma)版本，發現也存(cun)在需要(yao)重(zhong)新安(an)裝的警告(gao)提(ti)示，但是由于(yu)報錯的機柜比(bi)較少，并(bing)沒有對(dui)系統造成影響，目前已經完(wan)成對(dui)業務分區(qu)電源(yuan)微碼(ma)的統一刷新。

(2)制定了(le)IBM高性能計算機系統業務應急備(bei)份方案。當(dang)遇到緊急情況時，能夠快速評估當(dang)前狀(zhuang)況并進行處(chu)理。

(3)完(wan)成(cheng)了(le)(le)(le)系統存儲(chu)資源(yuan)的擴充。擴大了(le)(le)(le)目前用戶的存儲(chu)資源(yuan)，并滿足了(le)(le)(le)業務(wu)應(ying)用系統備份(fen)的資源(yuan)需(xu)求。

(4)完成了HPGS系統的微(wei)碼升級。2007年4月已(yi)經將整個(ge)系統HPS的ServicePack版本級別升級到21。

(5)加強管理。督促廠(chang)家人員(yuan)完(wan)善技術(shu)緊急支持的響應速(su)度和流程，保(bao)證技術(shu)支持的暢通；同時要(yao)確保(bao)備件的充足可(ke)用。

(6)加(jia)強維護(hu)手段和(he)交流。在(zai)日常(chang)維護(hu)中，工作(zuo)總結不僅是滿足于簡單的(de)(de)問題(ti)解(jie)決(jue)，需要深入(ru)分析診斷(duan)，找到問題(ti)的(de)(de)真(zhen)正原因，避免(mian)潛在(zai)的(de)(de)隱患故(gu)障；同時(shi)要多(duo)通過學習以(yi)及技術交流，加(jia)深對全系(xi)統的(de)(de)了解(jie)，不斷(duan)提高維護(hu)水(shui)平(ping)，提高自己的(de)(de)故(gu)障解(jie)決(jue)能力。

5結束語

此(ci)次(ci)故障雖(sui)然沒有對我(wo)們(men)的業務造成影(ying)響，但是通過此(ci)次(ci)故障情況，我(wo)們(men)看(kan)到了我(wo)們(men)還存在的許多(duo)不(bu)足，需要我(wo)們(men)在以后的工作(zuo)中(zhong)加以改進。通過不(bu)斷地(di)分(fen)析和總(zong)結(jie)，維護(hu)好我(wo)們(men)的系統，保持(chi)系統高效穩定的運(yun)行。

參考文獻

[1]IBM，Inc．AnIntroductiontotheNewIBMF．serverpS~''''ie8HighPerformanceSWITCH[EB／OL]．http：//www．redbooks．ibm．com／Redbooks．nsf／RedbookAbstracts／SG246978．htm1．

[2]IBM，Inc．GeneralParallelFileSystemAdministrationandPro．grammingReference[EB／OL]．http：//publib．boulder．ibm．comAnfocenter／dresetr／vxrxAndex．jsp?topic=／corn．ibm．clus—ter．gpfs．doc／gpfsbooks．htm1．

韩国做爰无遮A片床戏,第一财经电视直播,女人18毛片水真多,老头猛吸女大学奶头A片,借种灭门案完整观看国语

IBM高性能計算機系統一次重大故障分析

熱門標簽