預測性維護是通過監(jiān)控設備的運行狀況和使用情況來實施智能、動態(tài)和可擴展的策略。這導致越來越多的機構投資資源,以實現其當前維護策略的現代化。資產密集型鋼鐵行業(yè)也一直在采用預測性維護策略,作為現代化和關鍵競爭優(yōu)勢的一部分。有必要構建能夠從操作數據中學習并主動指導維護團隊的自動化系統(tǒng)。本文將分享在鋼鐵廠內建立和部署這種系統(tǒng)所面臨的關鍵挑戰(zhàn),該系統(tǒng)目前正在多個關鍵設備上實時運行。
在智能制造環(huán)境中,監(jiān)測和預測關鍵設備的運行狀況是預測性維護策略的重要組成部分。隨著邊緣和云計算信息處理的快速發(fā)展,它能夠在接近真實操作時間交付結果。機器學習和深度學習的最新發(fā)展表明,設備運行狀況預測的成功算法越來越多。與人工編碼的規(guī)則不同,這些算法通過學習機器狀態(tài)的演變來生成預測。
本文介紹的研究工作結合了無監(jiān)督和有監(jiān)督的機器學習算法。提供給這些算法的時間序列數據由傳感器特征(自變量)和目標標簽(因變量)組成。自變量集可以擴展,以包括其他相關的工藝信息。無監(jiān)督算法只對自變量集進行操作,通??梢宰R別由這些變量的子集所跨越的有意義區(qū)域。這些區(qū)域由它們與過程狀態(tài)的關系決定,以確??山忉屝?。另一方面,有監(jiān)督的算法在這種情況下需要一個目標標簽,比如故障事件的時間標識。本文的目標是從自變量所跨越的空間中預測目標標簽或目標標簽的某個功能。需要強調的是,在無監(jiān)督算法和有監(jiān)督算法之間的正確選擇通常是由故障動力學的復雜性以及一些關鍵建模挑戰(zhàn)決定。
預測性維護的建模挑戰(zhàn)
為維護團隊設計和運作一個有效的維護方案需要考慮幾方面因素。在構建一個數據驅動的方法時,從建模的角度來看,會面臨以下挑戰(zhàn):1)需要幾乎實時地分析來自多個傳感器的流數據。2)生產環(huán)境下的傳感器數據是有噪聲的,并且會在不同的操作制度下發(fā)生變化。3)以足夠的分辨率描述組件的故障模式是至關重要的。4)提前預測故障事件是重要的,以便維修團隊采取行動。5)有限數量的故障標簽或停機事件在選擇正確的建模方法和確定模型的總體性能方面發(fā)揮著作用。6)利益相關者需要洞察導致故障的關鍵傳感器的行為。
多流傳感器——對于任何組件,都要監(jiān)控多個傳感器,因為相關的故障機制(模式)通常表現為多變量模式。這意味著模型應考慮傳感器之間的相關性,而不是獨立對待它們。當考慮到以極高頻率對傳感器值進行采樣這一事實時,這些相關性具有挑戰(zhàn)性。例如所用的傳感器數據以高頻率(如10ms)進行采樣。由于模型是跨多種故障模式構建的,這就強調了需要一個可擴展的系統(tǒng)來訓練和部署這些模型。
生產過程中的傳感器行為——鋼廠的生產過程需要每天多批次生產。因此,傳感器的時間序列讀數基本上是不穩(wěn)定的,在運行期間可能會有很大變化。因此,操作環(huán)境,包括但不限于設定值、熱/產品特性和其他操作變量,需要與傳感器數據一起編碼。
故障模式表征——組件可能通過多種機制或故障模式發(fā)生故障。對組件的運行至關重要的故障模式進行優(yōu)先級劃分是很重要的。如前所述,通過理解如何根據傳感器數據描述故障的發(fā)生,有助于實現這一點。這確保了一個組件和跨組件的故障模式標記的一致性。
故障事件和故障數量——組件歷史故障記錄了發(fā)生故障時操作員采取的措施。這些動作序列有助于識別相關的故障模式和理解故障事件發(fā)生的時間。這與故障模式表征相結合,在實踐中具有重要意義,因為它會影響故障標簽的準確性,因為跨組件的故障事件數量相對較少。在事件發(fā)生之前(幾小時/幾天而不是幾分鐘之前)充分地預測這些事件是至關重要的,這樣維護團隊就可以根據預測主動采取行動。
模型可解釋性——在模型訓練階段,系統(tǒng)從導致過去故障事件的傳感器行為中學習。在近乎實時的推斷階段(實時運行)中,它預測是否有任何異常模式發(fā)生,以及故障事件發(fā)生的預期時間。為了讓維護團隊對這些早期警告采取行動,識別并與他們共享與預測故障事件相關的關鍵傳感器是很重要的。這有助于他們更好地理解系統(tǒng)輸出并建立信任。
智能設備運行狀況應用程序
考慮到上一節(jié)中描述的挑戰(zhàn),并考慮到需要監(jiān)控的大量設備,本文采用了一種系統(tǒng)化的方法來構建和部署模型。將模型構建過程分解為數據預處理、特征生成、模型開發(fā)等幾個步驟,如圖1所示。系統(tǒng)架構中每個步驟都可以進行設備配置,并將這些步驟整合到一個流水線中,用于訓練和部署模型。數據預處理步驟從傳感器等級、噪聲、異常值和物理過程相對應的特殊情況等方面考慮輸入數據的質量。特征生成步驟考慮特征構造和特征選擇。數據預處理步驟和特征生成步驟都可以處理來自“生產運行期間傳感器行為”的挑戰(zhàn)。模型構建步驟包括兩個階段:第一個階段涉及到Noodle.ai的異常檢測模型(FlowOps Sentinel),它能捕獲針對設備故障模式的異常產生;第二階段包括Noodle.ai的可能發(fā)生故障的時間預測模型(FlowOps Precog)。該模型可以捕獲不同傳感器之間以及每個傳感器在不同時間分辨率下的多變量交互。此外,預測模型還可以使用異常檢測模型的輸出。流水線構造還允許選擇能提供最佳性能的模型超級參數。
建模結果案例
第一個案例是關于萬向軸(解耦)故障的。在連鑄機內部有26個這樣的組件,每個組件有20多個信號。利用異常檢測流水線,發(fā)現扭矩信號相對于正常運行表現出非常高的方差,根據警示信號的捕捉以及突出顯示異常行為的時間序列,維修團隊采取了積極行動,在事先計劃的檢測停止之前,松開變速箱并移走輥子,避免了組件故障。在某些情況下,在計劃停機前一周出現警告,提前通知維修團隊隨時準備更換部件。
第二個案例是關于冷卻回路堵塞,可能導致模板熔化并在生產線上造成災難性故障。連鑄機結晶器有8個冷卻回路,每個回路超過24個信號。冷卻回路內松動的金屬部件可能導致閥門堵塞。根據它們的位置,這些松動的金屬部件可能會鎖定在閥桿上,阻止閥門關閉。這嚴重影響了結晶器的冷卻能力,導致嚴重的故障。利用異常檢測流水線 ,可以發(fā)現閥門位置和流量信號與正常運行的相關性偏離。根據捕捉警告的時間序列,可知這些警告可以進一步以狀態(tài)(以不同深淺的顏色編碼)來表征,其中每個狀態(tài)捕獲不同的傳感器之間的關系。維修團隊停機后檢查冷卻回路,沖洗回路,發(fā)現大量的松散顆粒。通過主動維護,他們避免了災難性的事故,能夠快速恢復作業(yè)。
除了產生異常外,還提供了額外的診斷來證明異常。包括突出顯示導致異常模式的相關傳感器以及捕捉這些傳感器間關系的狀態(tài)。同樣,一個關鍵因素被指定為維護優(yōu)先級。
一旦系統(tǒng)識別出異常,它還會提供組件可能出現故障的預期持續(xù)時間。這種預測是傳感器模式和異常特征(狀態(tài)、臨界狀態(tài)、持續(xù)時間等)結合生成的?;诓僮餍枨?,度量標準(在線和事件后)用于度量這些預測對維護團隊的有用性和可操作性。在線度量是度量后續(xù)預測與先前預測的總體偏差,而事件后度量是度量預測是否與預測視錐一致。萬向軸解耦案例中的預測周期為一小時(可按用戶指定的周期性配置)。
記錄故障標簽中要面臨的是噪音問題。為了解這種噪音的影響,在NASA公開的引擎故障數據集中,模擬了故障標簽的延時記錄。隨機選擇了一個數據集,并將其分為訓練組、驗證組和測試組。訓練和驗證數據的規(guī)模被更改,以適應只有相關故障數據子集可用的情況。對于訓練和驗證數據,加入了不同數量的擾動,而保持事件和事件的值,以解釋未能準確捕獲故障時間的原因。為此選擇了兩種設置:小型和大型,分別為7個周期和25個周期的擾動。訓練數據和驗證數據分別用于模型訓練和超級參數調整。對測試數據(20臺發(fā)動機)的預測值和實際值之間的平均絕對百分比誤差進行了計算,它不受這里描述的場景的影響。表1顯示了試驗結果。觀察到,對于有限數量的故障標簽數據,記錄故障時噪聲的增加導致了更高的預測誤差。為獲得可接受的誤差范圍,需要解決這個問題。
機器學習可以指導鋼鐵制造過程中多種故障模式下的維修操作。由于多流傳感器、噪聲數據和多種操作模式,為現場生產運行構建可擴展的系統(tǒng)具有挑戰(zhàn)性。本文介紹了一個解決這些挑戰(zhàn)的系統(tǒng),通過在無監(jiān)督的方式下學習多變量傳感器中的相關性,以產生早期預警。系統(tǒng)學習與時間有關的降級模式,以預測下一次故障的可能發(fā)生時間。與故障模型相關的模式通過計算傳感器所起的作用來實現。本文還討論了在鋼廠實際實施的結果,以及如何通過主動指導來協助執(zhí)行維護計劃。應該再次強調的是,故障標簽的質量對這些模型是極其重要的。一個關鍵的焦點是圍繞捕獲、記錄和將故障事件歸因到各自的組件來改進當前的流程。