近日,首鋼礦業(yè)計控檢驗中心成功搭建了網(wǎng)絡設備監(jiān)控平臺,實現(xiàn)了對首鋼礦區(qū)網(wǎng)絡設備運行狀態(tài)的實時監(jiān)控,推動公司計算機網(wǎng)絡運維管理由人工運維向智能運維轉變。
首鋼礦業(yè)中心機房肩負著百里礦區(qū)的網(wǎng)絡通信責任,現(xiàn)有核心交換機、云平臺、網(wǎng)絡安全設備、ERP(企業(yè)資源計劃)服務器等網(wǎng)絡設備160余套。其中,云平臺云服務器包含云服務器操作信息、運行情況等日志信息,每天信息增長量高達500MB(兆字節(jié)),相當于500多萬行數(shù)據(jù)信息,數(shù)量大、種類多、運維難度非常高。
傳統(tǒng)運維方式中,運維人員無法做到全面巡檢,多數(shù)情況只能出現(xiàn)故障了再處理。處理故障時,必須現(xiàn)場檢查設備運行狀態(tài),逐一分析CPU(中央處理器)、內(nèi)存、端口等數(shù)據(jù)指標,憑借經(jīng)驗進行故障原因判斷,不僅工作效率低,而且由于無法對潛在故障進行預警,一旦發(fā)生重大故障,將影響公司整體網(wǎng)絡與運營,甚至導致系統(tǒng)癱瘓。
“花錢購買”比拼“開源技術”
近幾年,隨著首鋼礦業(yè)智能化發(fā)展,網(wǎng)絡設備數(shù)量不斷增多,信息系統(tǒng)變得越來越復雜,系統(tǒng)的日志數(shù)據(jù)翻倍增加,運維難度持續(xù)增加。傳統(tǒng)的人工運維已不能滿足管理需求,急需通過技術手段對網(wǎng)絡設備進行7×24小時智能監(jiān)控。
經(jīng)考察調研,社會市場層面有很多成熟的監(jiān)控解決方案,能快速部署實施,但價格昂貴、靈活性低,而且后期增加網(wǎng)絡設備時,需要廠家配合,可拓展性差。本著“一切費用皆可降”的理念,首鋼礦業(yè)計控檢驗中心信息安全創(chuàng)新工作室(下稱工作室)結合公司實際情況,決定自主研究搭建網(wǎng)絡設備運行狀態(tài)實時監(jiān)控平臺,嘗試采用開源技術,實現(xiàn)對網(wǎng)絡設備運行狀態(tài)的統(tǒng)計監(jiān)控及實時分析。
綜合考評多項技術選最佳
行業(yè)內(nèi)常用的開源技術有Nagios、Centreon、Cacti、Ganglia、Zabbix等。考慮到每項技術的適用場景不同,為了選定符合礦山需求的技術,工作室成員李同同對每一項開源技術的部署方案、關鍵技術、模擬測試等進行試驗。其中,模擬測試環(huán)節(jié)最耗時間和精力,從搭建虛擬場景開始,需要技術版本選型下載、環(huán)境匹配、安裝部署、連通設備、創(chuàng)建模板、功能配置、模擬監(jiān)控等16個大步驟,每一步都需要設定不同參數(shù),任何參數(shù)設定不合適都無法進行下一步測試,更別說完成整體試驗。
經(jīng)過反復測試并深入對比,李同同發(fā)現(xiàn),Nagios功能單一、需要額外安裝大量插件,Centreon不易更改配置、可定制性差,Cacti只適合特定場景,Ganglia無告警機制,這些開源技術雖然應用簡單,但無法滿足公司管理需要。考慮到首鋼礦業(yè)的長遠發(fā)展,工作室決定采用具有圖形化監(jiān)控和報警功能的Zabbix技術。該技術功能強大,但是部署起來較為復雜,需要進一步研究和攻關。
著眼長遠攻關不怕難
目前,首鋼礦業(yè)網(wǎng)絡設備不僅數(shù)量多,而且種類和品牌多樣化,所以在監(jiān)控平臺搭建過程中必須綜合考慮各種影響因素,比如不同類型的操作系統(tǒng)、Web服務、編程語言、數(shù)據(jù)庫等。
對于常規(guī)的Windows操作系統(tǒng),建立監(jiān)控平臺與被監(jiān)控端的連接,只需打開自帶的SNMP(簡單網(wǎng)絡管理協(xié)議)服務即可。但是公司服務器還有一部分Linux操作系統(tǒng),沒有該服務選項,因而只能通過執(zhí)行程序命令的方式來實現(xiàn),這對李同同而言是一項新的技術突破。他從查閱各類資料入手,在測試機開展性能測試,設置參數(shù)、分析報錯、修改程序,通過百余次的重復操作,終于實現(xiàn)了平臺與被監(jiān)控端的穩(wěn)定連接。但這只是平臺部署最初步的技術驗證,為了更好地梳理160余臺網(wǎng)絡設備信息,李同同將其分為交換機、服務器、數(shù)據(jù)庫、應用等幾大類,并有針對性地創(chuàng)建適合的監(jiān)控模板,因品牌、連通方式等差異,單交換機監(jiān)控模板就多達25項,這意味著所有的部署工作都要重復25次。李同同說:“不怕重復,但任何一個參數(shù)的不適合,都會導致‘從頭再來’?!泵鎸碗s的部署環(huán)境,李同同一項項地測試,最終成功搭建了監(jiān)控平臺,實現(xiàn)了對網(wǎng)絡設備CPU溫度和占用率、內(nèi)存使用率、風扇狀況、端口狀態(tài)、訪問流量、響應時間等信息的實時展示,并通過對以上大數(shù)據(jù)的分析,提高了對網(wǎng)絡設備運行風險的識別能力,達到了對潛在故障智能預警和及時定位故障的目的。
網(wǎng)絡設備實時監(jiān)控平臺上線以來,運行穩(wěn)定、精準度高、預警性強,實現(xiàn)了對網(wǎng)絡設備的可視化監(jiān)控和管理。下一步,該工作室將繼續(xù)拓展Zabbix技術應用的廣度和深度,為網(wǎng)絡、信息系統(tǒng)安全穩(wěn)定運行保駕護航,努力推動首鋼礦業(yè)計算機網(wǎng)絡運維邁進智能化時代。
