信息和通信技術(shù)以及人工智能(AI)技術(shù)的進步對于提高企業(yè)在現(xiàn)代商業(yè)環(huán)境中的競爭力至關(guān)重要。特別是運營數(shù)據(jù)和產(chǎn)品數(shù)據(jù)的利用在新產(chǎn)品開發(fā)、產(chǎn)品改進、市場戰(zhàn)略規(guī)劃和改善客戶體驗等諸多領(lǐng)域,對企業(yè)的發(fā)展都起著至關(guān)重要的作用。
神戶制鋼構(gòu)建了數(shù)據(jù)分析平臺(DataLab?),該平臺提供從數(shù)據(jù)存儲到預(yù)處理和分析的功能,為數(shù)據(jù)和技術(shù)訣竅的統(tǒng)籌管理以及在全公司范圍內(nèi)推進有組織的數(shù)據(jù)利用奠定了基礎(chǔ)。
構(gòu)建DataLab?的目的是為整個公司提供一個可處理尚未被結(jié)構(gòu)化的大數(shù)據(jù)的平臺,其中包括在過去很難得到有效利用的研發(fā)數(shù)據(jù)和來自運行設(shè)備的時間序列數(shù)據(jù)。為此,我們構(gòu)建了一個可以快速收集和存儲龐大數(shù)據(jù),并根據(jù)需要靈活添加和輕松訪問資源的環(huán)境。還采用先進的數(shù)據(jù)分析工具和人工智能算法,有效地從數(shù)據(jù)中提取信息,加快創(chuàng)造新的價值。
1Datalab?的概要
構(gòu)建數(shù)據(jù)分析基礎(chǔ)平臺的重要方面包括數(shù)據(jù)的整合與管理、允許對計算資源靈活變更的基礎(chǔ)架構(gòu)、先進的分析工具和技術(shù)、數(shù)據(jù)的安全保護與操作的簡便性。
特別是數(shù)據(jù)整合和管理對于確保數(shù)據(jù)的準確性、完整性和可靠性,并使其成為有效的分析信息至關(guān)重要。從業(yè)務(wù)系統(tǒng)和設(shè)施等各種數(shù)據(jù)源收集的數(shù)據(jù)可能格式不一致或不完整,因此需要通過進行數(shù)據(jù)清洗(糾正格式和不完整的數(shù)據(jù))、數(shù)據(jù)轉(zhuǎn)換(將數(shù)據(jù)轉(zhuǎn)換為通用或標準格式)和數(shù)據(jù)存儲(存儲數(shù)據(jù)以適應(yīng)后續(xù)業(yè)務(wù)邏輯或分析)來提高數(shù)據(jù)的質(zhì)量。
其次,構(gòu)建可擴展的基礎(chǔ)平臺,靈活應(yīng)對數(shù)據(jù)量和計算處理量的增加。利用云服務(wù)對實現(xiàn)這種可擴展性非常有效。
此外,通過引入先進的分析工具和技術(shù),可以應(yīng)用特定目的的分析方法,如統(tǒng)計分析、機器學(xué)習(xí)和深度學(xué)習(xí),從而有效地從數(shù)據(jù)中提取信息。還可以通過嚴格控制數(shù)據(jù)訪問和引入加密技術(shù)來解決數(shù)據(jù)的安全防護問題。
最后,通過融入通用數(shù)據(jù)可視化工具,讓更多人更容易進行分析,讓決策者能快速、直觀地理解信息情報分析結(jié)果并付諸行動。
DataLab?是一個具備數(shù)據(jù)分析所需功能的平臺,主要分為用于存儲數(shù)據(jù)的數(shù)據(jù)庫層和用于數(shù)據(jù)分析和解決方案開發(fā)的解決方案層(圖1)。
1.1數(shù)據(jù)庫層
原始數(shù)據(jù)分散存儲在個人終端、設(shè)備內(nèi)部計算機和共享文件服務(wù)器等不同位置是數(shù)據(jù)管理的主要問題。此外,由于數(shù)據(jù)之間不存在關(guān)聯(lián)規(guī)則,這意味著需要大量人工將數(shù)據(jù)轉(zhuǎn)換為適合分析的格式,并將不同人就同一主題創(chuàng)建的數(shù)據(jù)關(guān)聯(lián)起來。另外,存儲在設(shè)備內(nèi)部控制計算機中的數(shù)據(jù)受到計算機數(shù)據(jù)容量的限制,可能在幾個月內(nèi)就會丟失,會產(chǎn)生需要的數(shù)據(jù)不存在或不可用的問題。
為了進行有效的分析,還必須將收集到的原始數(shù)據(jù)轉(zhuǎn)換成與分析課題相匹配的格式,并將其存儲到符合分析目的的數(shù)據(jù)庫中。
DataLab?的數(shù)據(jù)庫層允許將各種格式的原始數(shù)據(jù)集中存儲在同一數(shù)據(jù)收集區(qū)域。
另外,通過將從數(shù)據(jù)收集到數(shù)據(jù)庫層存儲的過程實施標準化,數(shù)據(jù)的收集和存儲不僅變得更加方便,同時還提供了數(shù)據(jù)關(guān)聯(lián)功能,大大減少了數(shù)據(jù)分析預(yù)處理過程所需的時間和精力。這樣,原始數(shù)據(jù)就可以在未經(jīng)處理的狀態(tài)下存儲,并可進行后續(xù)追加,以滿足未來更多的分析需求。這些數(shù)據(jù)存儲在云中,可以無限量存儲。
經(jīng)過以上處理完成格式轉(zhuǎn)換并存儲在數(shù)據(jù)庫層的數(shù)據(jù)可被下述解決方案層創(chuàng)建的模型或工具參考引用。
1.2解決方案層
解決方案層的目的是以存儲的數(shù)據(jù)為基礎(chǔ)開發(fā)具體的業(yè)務(wù)解決方案。解決方案層利用公司開發(fā)的分析工具、市售分析軟件、BI(商業(yè)智能)工具和其他可視化工具進行應(yīng)用程序的開發(fā)和分析。
公司獨立開發(fā)的分析工具中融入了由數(shù)據(jù)專家根據(jù)不同類型的分析課題進行機器學(xué)習(xí)和調(diào)整的模型,從而能夠?qū)?shù)據(jù)庫中存儲的數(shù)據(jù)進行高水平的分析。
可視化工具還通過訪問上述數(shù)據(jù)庫獲取所需的數(shù)據(jù)并將其可視化,為用戶的決策發(fā)揮輔助作用。
在確保安全的前提下,還可以與外部數(shù)據(jù)分析服務(wù)進行數(shù)據(jù)鏈接,這樣就可以方便地利用其他公司制作的數(shù)據(jù)分析模型。因此,即使沒有開發(fā)人員或人工智能方面的專業(yè)知識,也可輕松進行數(shù)據(jù)分析和預(yù)測。
2應(yīng)用案例
在數(shù)據(jù)分析中,單一系統(tǒng)很難滿足所有的分析需求,因此需要為材料開發(fā)或設(shè)備診斷等各種大型課題設(shè)計和應(yīng)用優(yōu)化的配置。例如,材料開發(fā)過程中處理的數(shù)據(jù)大多是非常規(guī)的、數(shù)量較少的數(shù)據(jù),而設(shè)備診斷過程中處理的則是大量的常規(guī)數(shù)據(jù),因此數(shù)據(jù)整理順序和最佳數(shù)據(jù)結(jié)構(gòu)也不相同。
2.1材料開發(fā)
在材料開發(fā)過程中,通常會產(chǎn)生與新材料開發(fā)和現(xiàn)有材料改進相關(guān)的各種實驗數(shù)據(jù)。其中包括物理性質(zhì)、化學(xué)反應(yīng)、耐久性測試等數(shù)據(jù),每種數(shù)據(jù)都以不同的格式記錄。通常情況下,數(shù)據(jù)由不同的負責人管理,數(shù)據(jù)整理方式大多沒有根據(jù)負責人、實驗時間和內(nèi)容進行標準化。因此,即使條目名稱相同,與該條目相關(guān)的數(shù)據(jù)也可能因負責人的不同而不同,反之,即使數(shù)據(jù)含義相同,條目名稱也可能不同,需要花費大量的時間和精力將數(shù)據(jù)整理成可供分析的形式。
為了便于整理,將收集到的數(shù)據(jù)進行自動分析,對相關(guān)數(shù)據(jù)進行分類,并將其系統(tǒng)地存儲到用于分析的數(shù)據(jù)庫中。
在材料開發(fā)過程中,根據(jù)特定規(guī)則描述的csv文件等實驗數(shù)據(jù)被保存在數(shù)據(jù)匯總區(qū)。對數(shù)據(jù)進行分類,創(chuàng)建新的表格,并根據(jù)關(guān)鍵項提取表格之間的相關(guān)性,將其結(jié)構(gòu)化為反向星形模式。然后,數(shù)據(jù)被存儲在關(guān)系數(shù)據(jù)庫中,所需的數(shù)據(jù)表可以自由組合,從而獲得分析數(shù)據(jù)。
在分析數(shù)據(jù)時,需要使用的數(shù)據(jù)會根據(jù)目的以表格的形式進行分組,并采用市售的電子表格軟件、BI可視化工具以及神戶制鋼獨立開發(fā)的工具(該工具融入了由數(shù)據(jù)專家通過機器學(xué)習(xí)和調(diào)整制作的各種模型)進行分析。利用該工具,分析人員可以選擇對應(yīng)目的的模型,輸入變量和條件,并執(zhí)行計算以預(yù)測材料特性和搜索目標材料的設(shè)計。此外,高級計算可在云中進行,從而實現(xiàn)獨立于本地終端規(guī)格的快速計算。
2.2設(shè)備診斷
在設(shè)備診斷領(lǐng)域,為了提高工廠設(shè)備的開工率并確保安全運行,需要實時收集來自各種傳感器的數(shù)據(jù)。這些數(shù)據(jù)包括設(shè)備運行狀態(tài)、溫度、壓力、振動等級等信息,可用于監(jiān)測設(shè)備健康狀況和性能,以及預(yù)防性維護和故障預(yù)測。
傳感器數(shù)量非常多,采集周期極短,這意味著需要處理的數(shù)據(jù)量非常大。另一方面,需要采集的數(shù)據(jù)都是標準化數(shù)據(jù),因此一旦構(gòu)建了數(shù)據(jù)采集機制,就可以很容易地擴展到其他設(shè)備中使用。此外,市面上有許多用于設(shè)備診斷的開發(fā)工具,通過將市面上的工具與公司獨立開發(fā)的軟件相結(jié)合,可以開發(fā)出高效的分析系統(tǒng)。
在數(shù)據(jù)收集方面,采用配置了DataLab?數(shù)據(jù)傳輸軟件的網(wǎng)關(guān)設(shè)備。該設(shè)備預(yù)裝了向DataLab?傳輸數(shù)據(jù)的功能和存儲位置,只要將其連接到數(shù)據(jù)源的控制裝置(DCS或PLC)即可將數(shù)據(jù)傳輸?shù)紻ataLab?。傳輸?shù)臄?shù)據(jù)以規(guī)定格式作為原始數(shù)據(jù)存儲在數(shù)據(jù)匯總區(qū)。數(shù)據(jù)經(jīng)過處理后以標準格式數(shù)據(jù)的形式存儲,便于在后續(xù)分析模型和分析解決方案中進行分析。
在設(shè)備診斷的情況下,會從連接到每臺設(shè)備上的各種傳感器中收集各種數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)類型數(shù)量龐大,而對于實際異常檢測模型的有效數(shù)據(jù)僅限于需要監(jiān)測的每個異常。在本研究中,作為用于設(shè)備診斷的分析數(shù)據(jù)庫,時間序列數(shù)據(jù)按預(yù)定的時間間隔劃分,并存儲在指向列的數(shù)據(jù)庫中,以兼顧分析的便利性和性能。
作為分析解決方案,安裝了帶有市售工具和預(yù)先準備的算法的異常監(jiān)測模型,并具有能夠基于正常運行數(shù)據(jù)實施異常預(yù)警的監(jiān)測功能,也可以利用Python或其他統(tǒng)計分析程序構(gòu)建和安裝個性化的分析軟件。系統(tǒng)還配置了數(shù)據(jù)可視化工具,用于設(shè)備監(jiān)控。
3未來展望
DataLab?將擴展到其他事業(yè)部,并增加一些新的功能,包括對檢查提供支撐和材料開發(fā)過程中經(jīng)常需要調(diào)用的圖像數(shù)據(jù)。
在工廠設(shè)備和個人電腦等不同地方存有大量的數(shù)據(jù),這些數(shù)據(jù)在未來都有可能創(chuàng)造價值,通過數(shù)據(jù)匯總可以實現(xiàn)部門之間的數(shù)據(jù)鏈接。
此外,由于每個人的手頭都積累了一定數(shù)量的數(shù)據(jù),存在進行簡單的數(shù)據(jù)分析的需求,因此期待能夠利用DataLab?推進數(shù)據(jù)可視化支持,技術(shù)訣竅的積累和共享,使更多的人都能輕松地進行數(shù)據(jù)分析。
4結(jié)語
本文介紹了可促進企業(yè)內(nèi)部數(shù)據(jù)充分利用的DataLab?概念,包括其設(shè)備開發(fā)、應(yīng)用診斷等應(yīng)用案例。數(shù)據(jù)利用對于提高制造能力至關(guān)重要。因此,將通過利用DataLab?來促進各工廠車間和設(shè)備以及實驗數(shù)據(jù)的積累與分析,由此提高企業(yè)的制造能力。
