為確保神戶制鋼加古川煉鋼廠第二初軋廠的穩(wěn)定運行,應用了一套數(shù)據(jù)采集裝置,并開發(fā)了檢測設備異常的系統(tǒng)。在作業(yè)條件和模式多樣的第二初軋廠,為了準確檢測出異常,選擇從適合評估的區(qū)間提取數(shù)據(jù)進行學習和分析,從而提高模型通用性的方法,并開發(fā)了一個從數(shù)據(jù)預處理到建模均無需編程的系統(tǒng)【ModeOrientedNovelAnomalyDetector:面向模式的新型異常檢測器(MONAD)】。通過從建模到利用MONAD的維護工作的流程進行標準化,建立了一個即使是沒有掌握機器學習專業(yè)知識的運維技術人員,也能夠運用的體系,并在生產(chǎn)車間加以利用的同時努力提高其精度。
前言
神戶制鋼加古川煉鋼廠第二初軋廠(以下簡稱第二初軋廠)于1970年投產(chǎn),主要生產(chǎn)用于棒鋼產(chǎn)品軋制工廠的鋼坯。2017年,由于上游工序的整合,開展了大規(guī)模升級改造工程,僅初軋廠的產(chǎn)能就達到了每月30萬噸。棒鋼產(chǎn)品所采用的鋼坯幾乎全部通過第二初軋廠供應,因此第二初軋廠穩(wěn)定運行體系的建立是關系到整個棒鋼產(chǎn)品穩(wěn)定供應的重要環(huán)節(jié)。
傳統(tǒng)的設備維護主要通過日常檢查確定設備狀態(tài),并根據(jù)以往經(jīng)驗制定維護標準的TBM(Time-BasedMaintenance,定期檢修)和CBM(Condition-BasedMaintenance,狀態(tài)檢修)為主。然而,在2017年升級改造后應用的設備中,有些地方不可避免地要將TBM和CBM定為臨時維護標準,因此需要引入一種能夠更確切有效地遏制設備突發(fā)故障的方法。在此背景下,一直在開發(fā)能夠對第二初軋廠各類設備進行持續(xù)狀態(tài)監(jiān)控和異常檢測的信息基礎設施和系統(tǒng),本文將對其進行詳細介紹。
已關注關注重播分享贊關閉觀看更多更多退出全屏切換到豎屏全屏退出全屏世界金屬導報已關注分享視頻,時長01:150/0
00:00/01:15切換到橫屏模式繼續(xù)播放進度條,百分之0播放00:00/01:1501:15全屏倍速播放中0.5倍0.75倍1.0倍1.5倍2.0倍流暢您的瀏覽器不支持video標簽繼續(xù)觀看
神戶制鋼初軋廠設備狀態(tài)監(jiān)測與異常檢測系統(tǒng)的構建
觀看更多轉載,神戶制鋼初軋廠設備狀態(tài)監(jiān)測與異常檢測系統(tǒng)的構建世界金屬導報已關注分享點贊在看已同步到看一看寫下你的評論視頻詳情▲以上是廣告,視頻中所有數(shù)據(jù)來源于斯普瑞噴霧系統(tǒng)。
01
異常檢測系統(tǒng)的開發(fā)計劃
1.1該系統(tǒng)的理念
在利用機器學習檢測異常時,通常假定數(shù)據(jù)中存在規(guī)律性,然后學習并檢測出偏離規(guī)律的“與平時不同的”狀態(tài),即異常。特別是在持續(xù)運行的工廠等地,已有很多報告提到以工廠為單位批量進行多變量數(shù)據(jù)分析并檢測“與平時不同的”行為的異常檢測實例,由于它能夠根據(jù)數(shù)據(jù)間意外存在的關聯(lián)性發(fā)現(xiàn)人們在查看數(shù)據(jù)時往往不會注意到的異常,因此備受關注。
然而,在第二初軋廠中,不同設備的操作方法和設備驅動電機的負載會根據(jù)鋼材種類和尺寸等生產(chǎn)條件而產(chǎn)生變化,此外,在某些情況下,現(xiàn)場作業(yè)人員可能會手動操作設備,從而導致操作條件和操作模式的變化多樣。因此,不能保證所有運行數(shù)據(jù)都像持續(xù)運行的工廠那樣具有規(guī)律性,機器學習最終捕捉到的“與平時不同的”狀態(tài)不一定是真正要捕捉的異常,有可能出現(xiàn)了誤報。
作為對策,可以針對每種操作條件和操作模式構建并學習模型,但所需模型數(shù)量龐大,因此并不現(xiàn)實。此外,這也會成為模型應用于新的操作條件與模式時的一個障礙。因此,本研究選擇一種不依賴操作條件和操作模式,從適合評估的運動區(qū)間(如載荷恒定的區(qū)間)中提取數(shù)據(jù)并將其作為學習對象,從而提高模型通用性的方法。在確定數(shù)據(jù)提取條件時,除了要考慮作業(yè)條件和作業(yè)模式外,還必須考慮設備結構和自動化控制條件,運維技術人員的知識也不可或缺。此外,即使按照上述方法進行數(shù)據(jù)提取,也會有誤報的特殊情況,因此很難在報告異常時無需人工干預直接采取關閉設備等統(tǒng)一的措施,最終必須由人工判斷應當采取何種措施。
鑒于上述情況,為使沒有掌握機器學習專業(yè)知識的運維技術人員和作業(yè)人員也能夠牽頭建模與運行,決定按照以下計劃開發(fā)該系統(tǒng):
1)以設備為單位構建優(yōu)化模型,而不是對整個工廠的多變量數(shù)據(jù)進行批量分析;
2)應配備無需編程即可進行數(shù)據(jù)預處理以及模型構建的工具;
3)為直觀地了解模型的行為以及數(shù)據(jù)與實際現(xiàn)象之間的對應關系,所采用的特征值應限制在兩個變量以內(nèi)。
1.2監(jiān)測目標設備的確定
第二初軋廠的設備總數(shù)達數(shù)千臺,因此要為所有設備建立異常檢測模型并不現(xiàn)實。因此,本項目的目的為第二初軋廠的穩(wěn)定運行,從這一角度出發(fā),決定將重點放在預計會因故障使生產(chǎn)線突發(fā)停機24小時以上的設備上,并收集持續(xù)狀態(tài)監(jiān)控所需數(shù)據(jù),建立異常檢測模型。
用于設備持續(xù)狀態(tài)監(jiān)控的數(shù)據(jù)包括由傳統(tǒng)控制網(wǎng)絡采集的電機轉速、電流值、控制信號等數(shù)據(jù),通常利用這些數(shù)據(jù)生成用于異常檢測的模型。
02
數(shù)據(jù)采集裝置的應用
2.1對數(shù)據(jù)采集裝置的要求
由于工廠擴建以及控制系統(tǒng)的多次局部更新,第二初軋廠的裝置均來自不同制造商,因此控制系統(tǒng)非常復雜。各制造商的數(shù)據(jù)采集裝置也有所不同,有些信號本來就無法采集,所以一直無法同步并統(tǒng)一采集所有數(shù)據(jù)。然而,異常檢測要監(jiān)測各種數(shù)據(jù)的相關性,以判斷“與平常不同的”數(shù)據(jù),因此數(shù)據(jù)的同步與統(tǒng)一采集必不可少。
在此基礎上,為開發(fā)并構建一個異常檢測系統(tǒng),為數(shù)據(jù)收集裝置設定了以下五項要求。
1)為便于橫向推廣到公司的其他工廠,該系統(tǒng)應能夠與國內(nèi)主要PLC(ProgrammableLogicController,控制裝置)制造商的控制網(wǎng)絡連接;
2)在1)中,應能夠實現(xiàn)數(shù)據(jù)同步與統(tǒng)一采集;
3)為實現(xiàn)通用數(shù)據(jù)輸出,數(shù)據(jù)應能夠以文本文件形式傳遞;
4)收集到的數(shù)據(jù)應能夠通過公司網(wǎng)絡在任意終端查看,便于利用;
5)考慮到發(fā)展?jié)摿翱蓴U展性,該裝置應易于擴展規(guī)模與增加功能。
為滿足這些要求,選用ibaAG公司(以下簡稱iba公司)的數(shù)據(jù)采集裝置(ibaPDA)。
2.2iba公司的數(shù)據(jù)采集裝置特征
iba的數(shù)據(jù)采集裝置可與大部分PLC制造商的網(wǎng)絡進行連接(要求1)),并能夠實現(xiàn)數(shù)據(jù)同步與統(tǒng)一采集(要求2))。此外,與上層系統(tǒng)的數(shù)據(jù)連接方法多樣,同時數(shù)據(jù)可以成套,因此能夠以文本文件形式傳遞(要求3))。如果安裝了分析軟件,則可通過公司網(wǎng)絡從任意終端查看并利用所采集的數(shù)據(jù)(要求4))。能夠輕松添加振動分析和圖像處理等功能,可擴展性高(要求5))。本項目的優(yōu)點是可利用該分析軟件對各種信號進行處理,并使關聯(lián)關系可視化(圖1),便于建模的初步研究。
2.3iba公司的數(shù)據(jù)采集裝置應用方法
引進該系統(tǒng)時,由于無法保證與日本制造商的網(wǎng)絡處于連接狀態(tài),因此進行了小規(guī)模的實際驗證試驗,以確認數(shù)據(jù)統(tǒng)一收集的穩(wěn)定性。
此外,為了便于將收集到的數(shù)據(jù)與本公司其他系統(tǒng)互聯(lián)并加以利用,每臺設備都采用了統(tǒng)一的ID作為通用密鑰,并進行了標記。針對重要數(shù)據(jù)還添加了變量名和工程單位,便于數(shù)據(jù)利用。
此外,為使今后在其他工廠部署該系統(tǒng)時也能夠維持相同的設計質(zhì)量,還根據(jù)第二初軋廠的應用實例,對設計規(guī)范進行了標準化改進。
03
建模方法的確定
3.1異常檢測建模流程
在該行動中,由于運維技術人員將根據(jù)上述理念牽頭制作每個設備的優(yōu)化模型,因此確定了能夠避免不同模型在質(zhì)量和開發(fā)效率方面差異的標準作業(yè)流程。
由于設備的異常檢測往往很少或完全沒有能夠用作機器學習訓練數(shù)據(jù)的異常數(shù)據(jù),因此有必要制作允許一定程度誤報的模型,并在實裝后通過試錯將誤報發(fā)生率改良至可接受的水平。因此,參照“混合型標準學習生命周期流程概念圖”,創(chuàng)建了圖2所示的作業(yè)流程。在這一流程中,建模過程分為預處理階段和實裝階段,并采用在每個階段都進行數(shù)據(jù)檢查循環(huán)的敏捷開發(fā)(一種在開發(fā)過程中預先假定更改和補充的開發(fā)方法)概念。其中,預處理階段涉及特征選擇和數(shù)據(jù)提取,是提高模型精度的重要流程,下文將利用實例進行詳細說明。
3.2利用實例解釋建模步驟
下文將以圖3所示傳送設備作為實例解釋建模步驟。該設備采用與偏心輪相連的活動框架提升鋼坯并向前移動的結構。接下來將以該設備可能出現(xiàn)的故障之一,即偏心輪旋轉故障為例進行建模。
1)檢測對象的特征研究
首先,根據(jù)開發(fā)理念最多可選擇兩個特征量作為首道流程來檢測“旋轉故障”。由于偏心輪旋轉不良會導致電機輸出扭矩增加,第一個特征量可設置為電機電流值。由于需要反復驅動和停止設備,在運行過程中電流值會隨著加速和減速而不斷變化,因此將電機轉速設為第二個特征值。如果傳送設備無負載,則假設這兩個特征量保持恒定關系,但在提升鋼坯時,由于電機電流值會隨鋼坯總重量等因素而改變,因此這兩個特征量之間的關系也會發(fā)生變化。由于鋼坯總重量等作業(yè)條件引起的變化可能會導致誤報,因此應事先研究設備圖紙和控制計劃后再針對僅提取空載狀態(tài)下數(shù)據(jù)區(qū)間的條件展開探討。通過圖3可以假定在本設備中“偏心輪角度在0°至90°或270°至360°區(qū)間”時為空載。
2)利用分析軟件進行特性研究
下一步需基于1)的研究內(nèi)容,利用分析軟件確定實際數(shù)據(jù)分布,并檢查兩個特征值之間是否存在相關性。顯示出兩個選定的特征量和作為數(shù)據(jù)提取條件的偏心輪角度的時間序列數(shù)據(jù),從而掌握數(shù)據(jù)的特征(圖4(a))。在這種情況下,除了假定的“負載”區(qū)間外,在開始驅動后和停止前會出現(xiàn)可重復性較低的尖峰,因此除了“負載”角度條件外,這些尖峰出現(xiàn)的角度范圍也被排除在數(shù)據(jù)提取范圍之外。利用分析軟件中的功能,可以顯示出在偏心輪角度條件下提取的兩個特征的散點圖(圖4(b))。如果數(shù)據(jù)密集,由于能夠提取可重復性較高的數(shù)據(jù),則可以建模;如果數(shù)據(jù)零散,則數(shù)據(jù)可重復性較低,無法建模,在后一種情況下,要重新審查數(shù)據(jù)提取區(qū)間。上述一系列流程是建模時最重要的過程,必須系統(tǒng)地保存這一思路和試驗結果。
3)模型設計書的制作
數(shù)據(jù)驗證結束后,迄今為止的研究內(nèi)容將以模型設計書的形式記錄下來。因此,即使不是建模者,也可以驗證相關模型的設計理念和合理性,并有助于應用于長期模型管理和維護活動。
模型設計書采用Airtable(FormagridInc.的商標)這一網(wǎng)絡服務。該服務能夠將模型信息(設計信息、設備構成、運行計劃、信號信息、相關性研究結果、模型評估結果等)以文本和圖像的形式進行存儲,還可以存儲注釋并修訂歷史,便于記錄建模過程和修改歷史。
04
異常檢測系統(tǒng)的開發(fā)
根據(jù)“3建模方法的確定”中標準化的設計步驟,開發(fā)了在圖2所示的Modeldeployment中無需編程即可簡易建模并實裝的“MONAD(ModeOrientedNovelAnomalyDetector:面向模式的新型異常檢測器)”系統(tǒng)(圖5)。
MONAD的特點包括:1)通過將異常檢測所需的特征控制至最多兩個變量,即使是沒有掌握機器學習的運維工程師也能通過觀察散點圖和趨勢圖了解模型行為,并利用設備知識設計出實用的異常檢測邏輯;2)配有豐富的預處理選項列表,可輕松地按照用戶意圖對兩個選定變量進行數(shù)據(jù)處理。下文將介紹MONAD的模式提取和異常檢測邏輯構建功能。
4.1模式提取功能
在MONAD中,根據(jù)作業(yè)條件和作業(yè)模式而變化的數(shù)據(jù)規(guī)律性被稱為“模式”。要從數(shù)據(jù)中提取所需的模式,首先要選擇作為異常檢測對象的數(shù)據(jù)項(最多2個變量)以及用于模式提取的ON/OFF信號和指令值等輔助信號。除了通過指定輔助信號的取值范圍作為模式提取方法之外,該功能還提供基于時間序列數(shù)據(jù)變化規(guī)律進行分割的方法以及直接在散點圖上指定提取范圍的方法。結合這些功能,用戶可以根據(jù)設備知識提取恒定負載運行等各種時刻想要評估的數(shù)據(jù)(圖6)。
4.2異常檢測邏輯構建功能
MONAD可對模式提取后的數(shù)據(jù)進行LOF(LocalOutlierFactor:局部異常因子)等異常檢測模型訓練,另外可使用訓練后的模型計算評估期間的異常得分并作圖。通過在散點圖上繪制異常分數(shù)等高線圖,可以檢查模型是否符合用戶預期。
實際的異常判斷是在部署(將開發(fā)的軟件或應用程序應用于實際運行環(huán)境)后,通過批處理(一種根據(jù)預定的數(shù)據(jù)量進行分批處理的方法)進行的,如果異常得分的閾值頻率超過容許頻率,就會報告異常。
除LOF外,系統(tǒng)的異常檢測邏輯還包括通過評估時間序列趨勢的單調(diào)遞增或遞減趨勢以及數(shù)據(jù)分布和波形的變化從而檢測異常的功能。上述異常檢測邏輯可由用戶選擇,并將根據(jù)用戶要求以及對新異常實例的分析進行適當擴展。
05
在維護行動中的應用
為利用在MONAD中實裝的各設備模型,并將其作為檢測異常(預測性維護)的工具應用于維護活動,有必要將其部署到生產(chǎn)現(xiàn)場的運行中,并努力提高模型精度。
為了推進生產(chǎn)現(xiàn)場的應用,在發(fā)布了有關異常檢測的信息后,首先研究了數(shù)據(jù)確認和實物確認的最佳工作流程(圖7)。然后,為在每個步驟中向維護作業(yè)人員提供必要的信息,利用MONAD設計了必要的系統(tǒng)畫面。
如果MONAD判定設備為異常狀態(tài),則會自動以郵件方式通知維護作業(yè)人員。維護作業(yè)人員通過數(shù)據(jù)確認異常評分的趨勢以及發(fā)生異常時的狀態(tài),然后對該設備進行外觀檢查(包括檢查異常振動和噪音)。如果在外觀檢查中出現(xiàn)疑似異常的情況,則決定停止設備并進行詳細檢查。此外,檢查結果和處理內(nèi)容等信息由維護作業(yè)人員輸入至監(jiān)控畫面,以便與包括模型設計人員在內(nèi)的相關人員共享信息。
建立上述運行機制后,系統(tǒng)于2023年在生產(chǎn)現(xiàn)場投入運行。在按照流程運行該系統(tǒng)的同時,也在努力驗證和提高各模型的精度,然而目前已經(jīng)出現(xiàn)了檢測出鋼坯傳送設備軸承潤滑故障初期癥狀的實例,因此該系統(tǒng)有望在未來有效發(fā)揮作用。另一方面,對于減速機等由大量傳動部件構成的裝置,有必要在繼續(xù)驗證模型精度的同時根據(jù)每臺設備的特點探索合理的狀態(tài)監(jiān)測方法。
結語
本文介紹了在第二初軋廠收集設備數(shù)據(jù)并將其應用至異常檢測系統(tǒng)的方法。本文介紹的MONAD開發(fā)理念和建模步驟的特點在于,即使是沒有掌握機器學習專業(yè)知識的運維技術人員也能針對每臺設備敏捷地建模,為具有不同作業(yè)條件和作業(yè)模式的工廠提供了一種新的異常檢測方法。此外,如果MONAD本身能夠恰當選擇監(jiān)測設施的數(shù)據(jù),就可以成為一個在其他工廠也能便捷部署的通用系統(tǒng),除在第二初軋廠驗證該系統(tǒng)的有效性之外,預計未來將系統(tǒng)推廣到公司的其他工廠。
