信息和通信技術以及人工智能(AI)技術的進步對于提高企業(yè)在現代商業(yè)環(huán)境中的競爭力至關重要。特別是運營數據和產品數據的利用在新產品開發(fā)、產品改進、市場戰(zhàn)略規(guī)劃和改善客戶體驗等諸多領域,對企業(yè)的發(fā)展都起著至關重要的作用。
神戶制鋼構建了數據分析平臺(DataLab?),該平臺提供從數據存儲到預處理和分析的功能,為數據和技術訣竅的統籌管理以及在全公司范圍內推進有組織的數據利用奠定了基礎。
構建DataLab?的目的是為整個公司提供一個可處理尚未被結構化的大數據的平臺,其中包括在過去很難得到有效利用的研發(fā)數據和來自運行設備的時間序列數據。為此,我們構建了一個可以快速收集和存儲龐大數據,并根據需要靈活添加和輕松訪問資源的環(huán)境。還采用先進的數據分析工具和人工智能算法,有效地從數據中提取信息,加快創(chuàng)造新的價值。
1Datalab?的概要
構建數據分析基礎平臺的重要方面包括數據的整合與管理、允許對計算資源靈活變更的基礎架構、先進的分析工具和技術、數據的安全保護與操作的簡便性。
特別是數據整合和管理對于確保數據的準確性、完整性和可靠性,并使其成為有效的分析信息至關重要。從業(yè)務系統和設施等各種數據源收集的數據可能格式不一致或不完整,因此需要通過進行數據清洗(糾正格式和不完整的數據)、數據轉換(將數據轉換為通用或標準格式)和數據存儲(存儲數據以適應后續(xù)業(yè)務邏輯或分析)來提高數據的質量。
其次,構建可擴展的基礎平臺,靈活應對數據量和計算處理量的增加。利用云服務對實現這種可擴展性非常有效。
此外,通過引入先進的分析工具和技術,可以應用特定目的的分析方法,如統計分析、機器學習和深度學習,從而有效地從數據中提取信息。還可以通過嚴格控制數據訪問和引入加密技術來解決數據的安全防護問題。
最后,通過融入通用數據可視化工具,讓更多人更容易進行分析,讓決策者能快速、直觀地理解信息情報分析結果并付諸行動。
DataLab?是一個具備數據分析所需功能的平臺,主要分為用于存儲數據的數據庫層和用于數據分析和解決方案開發(fā)的解決方案層(圖1)。
1.1數據庫層
原始數據分散存儲在個人終端、設備內部計算機和共享文件服務器等不同位置是數據管理的主要問題。此外,由于數據之間不存在關聯規(guī)則,這意味著需要大量人工將數據轉換為適合分析的格式,并將不同人就同一主題創(chuàng)建的數據關聯起來。另外,存儲在設備內部控制計算機中的數據受到計算機數據容量的限制,可能在幾個月內就會丟失,會產生需要的數據不存在或不可用的問題。
為了進行有效的分析,還必須將收集到的原始數據轉換成與分析課題相匹配的格式,并將其存儲到符合分析目的的數據庫中。
DataLab?的數據庫層允許將各種格式的原始數據集中存儲在同一數據收集區(qū)域。
另外,通過將從數據收集到數據庫層存儲的過程實施標準化,數據的收集和存儲不僅變得更加方便,同時還提供了數據關聯功能,大大減少了數據分析預處理過程所需的時間和精力。這樣,原始數據就可以在未經處理的狀態(tài)下存儲,并可進行后續(xù)追加,以滿足未來更多的分析需求。這些數據存儲在云中,可以無限量存儲。
經過以上處理完成格式轉換并存儲在數據庫層的數據可被下述解決方案層創(chuàng)建的模型或工具參考引用。
1.2解決方案層
解決方案層的目的是以存儲的數據為基礎開發(fā)具體的業(yè)務解決方案。解決方案層利用公司開發(fā)的分析工具、市售分析軟件、BI(商業(yè)智能)工具和其他可視化工具進行應用程序的開發(fā)和分析。
公司獨立開發(fā)的分析工具中融入了由數據專家根據不同類型的分析課題進行機器學習和調整的模型,從而能夠對數據庫中存儲的數據進行高水平的分析。
可視化工具還通過訪問上述數據庫獲取所需的數據并將其可視化,為用戶的決策發(fā)揮輔助作用。
在確保安全的前提下,還可以與外部數據分析服務進行數據鏈接,這樣就可以方便地利用其他公司制作的數據分析模型。因此,即使沒有開發(fā)人員或人工智能方面的專業(yè)知識,也可輕松進行數據分析和預測。
2應用案例
在數據分析中,單一系統很難滿足所有的分析需求,因此需要為材料開發(fā)或設備診斷等各種大型課題設計和應用優(yōu)化的配置。例如,材料開發(fā)過程中處理的數據大多是非常規(guī)的、數量較少的數據,而設備診斷過程中處理的則是大量的常規(guī)數據,因此數據整理順序和最佳數據結構也不相同。
2.1材料開發(fā)
在材料開發(fā)過程中,通常會產生與新材料開發(fā)和現有材料改進相關的各種實驗數據。其中包括物理性質、化學反應、耐久性測試等數據,每種數據都以不同的格式記錄。通常情況下,數據由不同的負責人管理,數據整理方式大多沒有根據負責人、實驗時間和內容進行標準化。因此,即使條目名稱相同,與該條目相關的數據也可能因負責人的不同而不同,反之,即使數據含義相同,條目名稱也可能不同,需要花費大量的時間和精力將數據整理成可供分析的形式。
為了便于整理,將收集到的數據進行自動分析,對相關數據進行分類,并將其系統地存儲到用于分析的數據庫中。
在材料開發(fā)過程中,根據特定規(guī)則描述的csv文件等實驗數據被保存在數據匯總區(qū)。對數據進行分類,創(chuàng)建新的表格,并根據關鍵項提取表格之間的相關性,將其結構化為反向星形模式。然后,數據被存儲在關系數據庫中,所需的數據表可以自由組合,從而獲得分析數據。
在分析數據時,需要使用的數據會根據目的以表格的形式進行分組,并采用市售的電子表格軟件、BI可視化工具以及神戶制鋼獨立開發(fā)的工具(該工具融入了由數據專家通過機器學習和調整制作的各種模型)進行分析。利用該工具,分析人員可以選擇對應目的的模型,輸入變量和條件,并執(zhí)行計算以預測材料特性和搜索目標材料的設計。此外,高級計算可在云中進行,從而實現獨立于本地終端規(guī)格的快速計算。
2.2設備診斷
在設備診斷領域,為了提高工廠設備的開工率并確保安全運行,需要實時收集來自各種傳感器的數據。這些數據包括設備運行狀態(tài)、溫度、壓力、振動等級等信息,可用于監(jiān)測設備健康狀況和性能,以及預防性維護和故障預測。
傳感器數量非常多,采集周期極短,這意味著需要處理的數據量非常大。另一方面,需要采集的數據都是標準化數據,因此一旦構建了數據采集機制,就可以很容易地擴展到其他設備中使用。此外,市面上有許多用于設備診斷的開發(fā)工具,通過將市面上的工具與公司獨立開發(fā)的軟件相結合,可以開發(fā)出高效的分析系統。
在數據收集方面,采用配置了DataLab?數據傳輸軟件的網關設備。該設備預裝了向DataLab?傳輸數據的功能和存儲位置,只要將其連接到數據源的控制裝置(DCS或PLC)即可將數據傳輸到DataLab?。傳輸的數據以規(guī)定格式作為原始數據存儲在數據匯總區(qū)。數據經過處理后以標準格式數據的形式存儲,便于在后續(xù)分析模型和分析解決方案中進行分析。
在設備診斷的情況下,會從連接到每臺設備上的各種傳感器中收集各種數據,從而導致數據結構中的數據類型數量龐大,而對于實際異常檢測模型的有效數據僅限于需要監(jiān)測的每個異常。在本研究中,作為用于設備診斷的分析數據庫,時間序列數據按預定的時間間隔劃分,并存儲在指向列的數據庫中,以兼顧分析的便利性和性能。
作為分析解決方案,安裝了帶有市售工具和預先準備的算法的異常監(jiān)測模型,并具有能夠基于正常運行數據實施異常預警的監(jiān)測功能,也可以利用Python或其他統計分析程序構建和安裝個性化的分析軟件。系統還配置了數據可視化工具,用于設備監(jiān)控。
3未來展望
DataLab?將擴展到其他事業(yè)部,并增加一些新的功能,包括對檢查提供支撐和材料開發(fā)過程中經常需要調用的圖像數據。
在工廠設備和個人電腦等不同地方存有大量的數據,這些數據在未來都有可能創(chuàng)造價值,通過數據匯總可以實現部門之間的數據鏈接。
此外,由于每個人的手頭都積累了一定數量的數據,存在進行簡單的數據分析的需求,因此期待能夠利用DataLab?推進數據可視化支持,技術訣竅的積累和共享,使更多的人都能輕松地進行數據分析。
4結語
本文介紹了可促進企業(yè)內部數據充分利用的DataLab?概念,包括其設備開發(fā)、應用診斷等應用案例。數據利用對于提高制造能力至關重要。因此,將通過利用DataLab?來促進各工廠車間和設備以及實驗數據的積累與分析,由此提高企業(yè)的制造能力。
