“
伴隨著工業(yè)企業(yè)對(duì)數(shù)字化應(yīng)用需求的日益高漲,基于工業(yè)大數(shù)據(jù)建模,已成為行業(yè)內(nèi)的熱議話題。然而在這一過(guò)程中,人們常常過(guò)度強(qiáng)調(diào)數(shù)據(jù)算法,卻忽視業(yè)務(wù)相關(guān)的知識(shí),這給工業(yè)模型的實(shí)用性和可靠性帶來(lái)了重重挑戰(zhàn)。
”
為什么工業(yè)大數(shù)據(jù)的數(shù)據(jù)建模如此重要?在建模過(guò)程中,企業(yè)首要考慮的因素有哪些?又該如何搭建一個(gè)符合自身實(shí)際需求的模型呢?
請(qǐng)看原寶鋼首席研究員、工業(yè)大數(shù)據(jù)資深專家郭朝輝博士,在2022(第十一屆)全球自動(dòng)化和制造主題峰會(huì)上的演講。
郭朝暉演講內(nèi)容梗概
工業(yè)大數(shù)據(jù)建模:兩個(gè)靈魂拷問(wèn)
Q1
為什么有了理論模型,還要數(shù)據(jù)建模?
任何一個(gè)理論模型都需要參數(shù),牛頓定律也不例外,更何況對(duì)于復(fù)雜的工業(yè)系統(tǒng),若干個(gè)子系統(tǒng)都需要各自的參數(shù)。但這些參數(shù)往往是吃不準(zhǔn),或者有很大誤差,或者沒(méi)法測(cè)量,在這個(gè)情況下,機(jī)理模型不是沒(méi)有,而是沒(méi)有用的條件。
工業(yè)中有大量知識(shí),這些知識(shí)的特點(diǎn)是都可以用物理學(xué)原理推導(dǎo)出來(lái)。即使算不出來(lái)也沒(méi)關(guān)系,把它記錄下來(lái)下次就會(huì)有標(biāo)準(zhǔn)和依據(jù)。它也不是理論推導(dǎo)不出來(lái),而是不方便推導(dǎo),在應(yīng)用過(guò)程中,直接用實(shí)際的結(jié)果來(lái)算就完事了。
Q2
很多工業(yè)關(guān)鍵知識(shí)都實(shí)現(xiàn)了標(biāo)準(zhǔn)化,
為什么還要建模?
標(biāo)準(zhǔn)往往都是固定的,所以應(yīng)對(duì)不穩(wěn)定的生產(chǎn)過(guò)程,標(biāo)準(zhǔn)是需要修改的。靜態(tài)的標(biāo)準(zhǔn)往往不成,我們需要用動(dòng)態(tài)標(biāo)準(zhǔn)來(lái)以變應(yīng)變,這就需要用模型來(lái)幫助我們制定標(biāo)準(zhǔn),所以模型其實(shí)也是有用的。
解決完這兩個(gè)問(wèn)題,我們要知道標(biāo)準(zhǔn)從何而來(lái)。在工業(yè)大數(shù)據(jù)時(shí)代,有一種很好的辦法——?dú)v史上這樣發(fā)生過(guò),下次再出現(xiàn)問(wèn)題,就讓計(jì)算機(jī)“跟著學(xué)”(NN、KNN、CBR)。我們不用把它想的太復(fù)雜,比如深度學(xué)習(xí)、神經(jīng)元等,在多數(shù)情況下都沒(méi)那么復(fù)雜。
然而,在數(shù)據(jù)不多的時(shí)候,能跟著誰(shuí)去學(xué)呢?過(guò)去,對(duì)一臺(tái)設(shè)備的故障進(jìn)行診斷,數(shù)據(jù)記住后,故障如果十年發(fā)生一次,再過(guò)10年設(shè)備就報(bào)廢了,有了數(shù)據(jù)也沒(méi)機(jī)會(huì)學(xué)。而工業(yè)互聯(lián)網(wǎng),可以把成千上萬(wàn)臺(tái)類似的設(shè)備放在一起,發(fā)生一次故障就可以作為一個(gè)知識(shí)記下來(lái),這也是工業(yè)大數(shù)據(jù)真正的意義所在。
常見(jiàn)的模型:基準(zhǔn)選擇+矯正
至于如何提高模型精度,由于生產(chǎn)過(guò)程參數(shù)在不斷變化,“一竿進(jìn)洞”往往很難達(dá)到,這就需要我們分步走,即首先跟著成功案例,選擇一個(gè)基準(zhǔn)來(lái)學(xué)習(xí),再根據(jù)差別進(jìn)行補(bǔ)缺和調(diào)整,以獲得更高的精度。當(dāng)然,現(xiàn)實(shí)中調(diào)整是需要數(shù)據(jù)來(lái)提供支持的。
比如說(shuō)X測(cè)不到,但你知道變量Z,就可以根據(jù)它的變動(dòng)來(lái)做調(diào)整。在工業(yè)大數(shù)據(jù)的背景下,數(shù)據(jù)條件也會(huì)越來(lái)越好,跟X接近的變量會(huì)越來(lái)越多,模型也會(huì)越來(lái)越好。然而,這個(gè)過(guò)程中也會(huì)產(chǎn)生新的問(wèn)題。過(guò)去是Y=f(X,C),用了Z后真正的數(shù)據(jù)模型就是Y=H(Z,C),選不同的Z,H就會(huì)不一樣。所以工業(yè)過(guò)程由于缺少數(shù)據(jù),由于變量不同,數(shù)據(jù)模型的結(jié)果可能也完全不一樣。
現(xiàn)實(shí)數(shù)據(jù)模型和理論模型不一樣
那么,工業(yè)建模在數(shù)據(jù)不完整的情況下,如何選擇變量?我們需要明確一點(diǎn),精度并不代表一切,應(yīng)用價(jià)值好才是最終目的。這看似不能接受,但哪怕是微積分在內(nèi)也是這樣。數(shù)據(jù)建模和機(jī)理模型往往是不一樣的,但是在一定的范圍內(nèi)有用就行了。
正確認(rèn)識(shí)現(xiàn)實(shí)的模型:對(duì)錯(cuò)與實(shí)用是兩碼事
當(dāng)然,在工業(yè)大數(shù)據(jù)的基礎(chǔ)上,我們有機(jī)會(huì)在保障精度的同時(shí)追求真實(shí)性,這就是所謂的“第四范式”。但這個(gè)事情非常難,可能需要一二十年的功夫,因此多數(shù)企業(yè)在做選擇時(shí)要慎重。精度、正確性和它的應(yīng)用范圍,有可能是存在矛盾的,要根據(jù)實(shí)際的需求來(lái)決定。
理解實(shí)用的模型:精度與可靠性
實(shí)用模型的關(guān)鍵有三點(diǎn):精度、應(yīng)用范圍,以及二者是否是可知和穩(wěn)定。眾所周知,工業(yè)領(lǐng)域?qū)τ诜€(wěn)定性的要求非常高,模型正確的時(shí)候能帶來(lái)好處,但錯(cuò)誤的時(shí)候同樣會(huì)帶來(lái)壞處。人們常說(shuō)的平均精度高,就是需要在過(guò)程穩(wěn)定的時(shí)候高,而穩(wěn)定可能占了99%的情況,但人們往往是在過(guò)程不穩(wěn)定的時(shí)候需要模型。
傳統(tǒng)模型往往只適合特殊情況,因此,如果精度不能持續(xù),精度再高都沒(méi)用。工業(yè)大數(shù)據(jù)之所以能適合于各種各樣的場(chǎng)景,是因?yàn)樗苣玫綄?duì)象方方面面的屬性,且提供了更多角度來(lái)識(shí)別場(chǎng)景,以便在具體場(chǎng)景下,也能做識(shí)別和精度調(diào)整。
此外,很多人對(duì)機(jī)器學(xué)習(xí)也有理解偏差。首先,機(jī)器學(xué)習(xí)并不意味著要做多么復(fù)雜的模型;另外,智能化時(shí)代的模型往往針對(duì)大系統(tǒng),而大系統(tǒng)的參數(shù)本身是不斷漂移的,如果沒(méi)有跟著漂移的機(jī)制,模型用幾天就慢慢不能用了,所以針對(duì)生產(chǎn)過(guò)程的模型,機(jī)器學(xué)習(xí)就是來(lái)應(yīng)對(duì)模型參數(shù)漂移的。
此外,只要是基于數(shù)據(jù)的定量模型,幾乎都會(huì)有誤差,當(dāng)然有的邏輯模型可能沒(méi)有誤差,或者有的能知道有多大誤差等。因此,我們就要考慮誤差和應(yīng)用場(chǎng)景需求的匹配,這非常重要。
實(shí)用模型的背后:數(shù)據(jù)質(zhì)量是關(guān)鍵
模型使用的根本是高質(zhì)量的數(shù)據(jù)。當(dāng)建立數(shù)學(xué)模型的時(shí)候,人們總希望它的穩(wěn)定度高,而現(xiàn)實(shí)中不穩(wěn)定是一種常態(tài),對(duì)同一對(duì)象,這個(gè)月和下個(gè)月建出的模型,它的數(shù)據(jù)參數(shù)會(huì)相差很遠(yuǎn)。
有一個(gè)重要的原因是,我們建??倳?huì)在一個(gè)工作點(diǎn),或者特定的場(chǎng)景附近,這樣做測(cè)量的時(shí)候,它的波動(dòng)相當(dāng)大的一部分,不是對(duì)象參數(shù)的波動(dòng),而是由于測(cè)量過(guò)程的干擾。測(cè)量精度決定了控制精度,測(cè)量誤差和實(shí)際波動(dòng),往往是處在一個(gè)數(shù)量級(jí)上的。
此外,在建模的時(shí)候,輸入誤差不可忽略,這就會(huì)導(dǎo)致“有偏估計(jì)”,即誤差最小的模型往往是錯(cuò)的,因?yàn)檩斎胧清e(cuò)的,誤差小是“錯(cuò)錯(cuò)得對(duì)”引發(fā)的。任何一種方程或是建模方法,只要你追求的是誤差最小,其實(shí)它都會(huì)偏離真實(shí)的問(wèn)題。
因此,在模型精度不高時(shí),首先應(yīng)該關(guān)注的不是算法,而是數(shù)據(jù)質(zhì)量。寶鋼信息技術(shù)的奠基人何麟生先生曾提過(guò)“數(shù)據(jù)不落地”,即為了保證數(shù)據(jù)的真實(shí)性,數(shù)據(jù)的產(chǎn)生和存儲(chǔ)過(guò)程不經(jīng)過(guò)人。因?yàn)楹芏鄶?shù)據(jù),不是為了建模而產(chǎn)生的,它的質(zhì)量往往不能達(dá)到要求。這涉及到了數(shù)據(jù)采集過(guò)程的標(biāo)準(zhǔn)化,只有解決數(shù)據(jù)的質(zhì)量問(wèn)題,才能把數(shù)據(jù)建模做好。
工業(yè)大數(shù)據(jù)的意義在于促進(jìn)智能化
除此之外,數(shù)據(jù)建模的基本條件,是要讓數(shù)據(jù)的因果關(guān)系能對(duì)應(yīng)得上。這聽(tīng)起來(lái)簡(jiǎn)單,但做起來(lái)難。數(shù)據(jù)質(zhì)量不僅是數(shù)據(jù)精度的問(wèn)題,更重要的是數(shù)據(jù)對(duì)應(yīng)關(guān)系,這與采樣頻度等因素息息相關(guān)。我們要知道,工業(yè)大數(shù)據(jù)并不等同于互聯(lián)網(wǎng)大數(shù)據(jù)。工業(yè)大數(shù)據(jù)數(shù)據(jù)“大”,并不能保證做的好,但是數(shù)據(jù)“大”能為提高數(shù)據(jù)質(zhì)量創(chuàng)造條件,并為后期數(shù)據(jù)建模、根因分析鋪平道路。
軟件角度看模型:關(guān)鍵還是可靠
現(xiàn)代工業(yè),尤其是自動(dòng)化程度很高的行業(yè),執(zhí)行工藝都會(huì)讓計(jì)算機(jī)執(zhí)行,所以現(xiàn)代化工業(yè)知識(shí)和訣竅,也都寫(xiě)在計(jì)算機(jī)里面。因此如果不懂計(jì)算機(jī)軟件,是把握不住工藝的細(xì)節(jié)的,學(xué)習(xí)知識(shí)就會(huì)面對(duì)“天花板”。
從工業(yè)軟件的角度認(rèn)識(shí)“模型”
早在20多年前,當(dāng)時(shí)本人建議寶鋼公司重視數(shù)學(xué)模型,領(lǐng)導(dǎo)也給予了充分重視。通過(guò)知識(shí)和數(shù)學(xué)模型計(jì)算的融合,寶鋼經(jīng)過(guò)10多年的努力,全部掌握了引進(jìn)技術(shù),徹底解決了這類問(wèn)題,中國(guó)鋼鐵行業(yè)再也不會(huì)被卡脖子了。
那么,工藝的數(shù)學(xué)模型是什么?舉個(gè)例子,工業(yè)生產(chǎn)的過(guò)程中,在各種事件和場(chǎng)景變化下,我們想要控制某個(gè)參數(shù),比如一個(gè)鋼胚的表面溫度,這和傳統(tǒng)控制的固定工作點(diǎn)做自動(dòng)控制是不一樣的,需要計(jì)算和數(shù)學(xué)模型兩者間進(jìn)行融合。
有一種計(jì)算機(jī)概念叫“自動(dòng)機(jī)”,而工業(yè)界所說(shuō)的數(shù)學(xué)模型,其實(shí)就是一種工業(yè)APP。要在工業(yè)場(chǎng)景不斷變化的過(guò)程中執(zhí)行任務(wù),完成控制靠自動(dòng)化能力,而感知場(chǎng)景的不斷變化,則需要通過(guò)信息系統(tǒng),因此,信息系統(tǒng)和控制系統(tǒng)的集成至關(guān)重要。
現(xiàn)如今,模型開(kāi)發(fā)80%的時(shí)間都會(huì)花在保障可靠性上,這也是難點(diǎn)所在。比如要考慮模型運(yùn)行是否會(huì)出現(xiàn)意外、歧義和異常,處理異常的方法是否完備等,為了穩(wěn)定可靠性,模型的編程方式也會(huì)不一樣。
軟件開(kāi)發(fā)追求的重點(diǎn)不是效率、新穎,而是穩(wěn)定
結(jié)語(yǔ)
我個(gè)人認(rèn)為,軟件編程開(kāi)發(fā)適合“有罪推定”原則,即如果你不能證明你的代碼是正確的,你就要拿回去重寫(xiě)。因?yàn)楝F(xiàn)場(chǎng)無(wú)小事,無(wú)論是軟件開(kāi)發(fā)還是建模的過(guò)程,開(kāi)發(fā)效率高、模型精度高都是次要的,安全穩(wěn)定性才是最重要的,只有這個(gè)問(wèn)題解決了,模型的實(shí)用性才能得到保障。
審核編輯 :李倩
-
建模
+關(guān)注
關(guān)注
1文章
299瀏覽量
60715 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8558瀏覽量
61588 -
工業(yè)大數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
72瀏覽量
7821
原文標(biāo)題:郭朝暉:回答工業(yè)大數(shù)據(jù)建模的兩個(gè)靈魂拷問(wèn)
文章出處:【微信號(hào):控制工程中文版,微信公眾號(hào):控制工程中文版】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論