0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

企業(yè)如何實(shí)現(xiàn)對(duì)工業(yè)大數(shù)據(jù)的預(yù)處理?

格創(chuàng)東智 ? 2018-12-05 09:36 ? 次閱讀

數(shù)據(jù)分析,包括大數(shù)據(jù)分析,在企業(yè)的業(yè)務(wù)中,特別是在傳統(tǒng)的商務(wù)行業(yè),已有多年的應(yīng)用實(shí)踐,在消費(fèi)者市場的營銷中已成了必不可缺的技術(shù)。隨著工業(yè)互聯(lián)網(wǎng)和智能制造的興起和發(fā)展,工業(yè)大數(shù)據(jù)技術(shù)也越來越受到各方關(guān)注。在“中國制造2025”的技術(shù)路線圖中,工業(yè)大數(shù)據(jù)是作為重要突破點(diǎn)來規(guī)劃的,而在未來的十年,以數(shù)據(jù)為核心構(gòu)建的智能化體系會(huì)成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動(dòng)力。

對(duì)制造企業(yè)而言,不論是新實(shí)施的系統(tǒng)還是老舊系統(tǒng),要實(shí)施大數(shù)據(jù)分析平臺(tái),就需要先弄明白自己到底需要采集哪些數(shù)據(jù)。因?yàn)榭紤]到數(shù)據(jù)的采集難度和成本,大數(shù)據(jù)分析平臺(tái)并不是對(duì)企業(yè)所有的數(shù)據(jù)都進(jìn)行采集,而是相關(guān)的、有直接或者間接聯(lián)系的數(shù)據(jù),企業(yè)要知道哪些數(shù)據(jù)是對(duì)于戰(zhàn)略性的決策或者一些細(xì)節(jié)決策有幫助的,分析出來的數(shù)據(jù)結(jié)果是有價(jià)值的。

比如企業(yè)只是想了解產(chǎn)線設(shè)備的運(yùn)行狀態(tài),這時(shí)候就只需要對(duì)影響產(chǎn)線設(shè)備性能的關(guān)鍵參數(shù)進(jìn)行采集。

再比如,在產(chǎn)品售后服務(wù)環(huán)節(jié),企業(yè)需要了解產(chǎn)品使用狀態(tài)、購買群體等信息,這些數(shù)據(jù)對(duì)支撐新產(chǎn)品的研發(fā)和市場的預(yù)測都有著非常重要的價(jià)值。

因此,建議企業(yè)在進(jìn)行大數(shù)據(jù)分析規(guī)劃的時(shí)候針對(duì)一個(gè)項(xiàng)目的目標(biāo)進(jìn)行精確的分析,比較容易滿足業(yè)務(wù)的目標(biāo)。明確目標(biāo)以后,就要著手開始搜集數(shù)據(jù)并進(jìn)行預(yù)處理了。本期格物匯將跟大家介紹,企業(yè)如何實(shí)現(xiàn)對(duì)工業(yè)大數(shù)據(jù)的預(yù)處理。

數(shù)據(jù)采集

首先我們看看數(shù)據(jù)是如何獲取的,在現(xiàn)實(shí)生活中,我們所面對(duì)的問題,往往都是抽象復(fù)雜的。我們來看如下兩個(gè)例子:

如何提升產(chǎn)品的良率

可能這是制造業(yè)最為普遍的一個(gè)問題,如果我們要分析解決這個(gè)問題,常常就會(huì)問到:什么產(chǎn)品?有多少條產(chǎn)線在生成?經(jīng)過了哪些機(jī)臺(tái)?影響產(chǎn)品良率的因素有哪些?我們可能會(huì)提出很多很多這樣的問題,解決這些問題需要對(duì)相關(guān)業(yè)務(wù)知識(shí)非常了解,盡可能多的找出與問題有關(guān)的數(shù)據(jù)。

如何進(jìn)行人臉識(shí)別

這問題更加復(fù)雜一些,雖然我們每個(gè)人的大腦每天都在做人臉識(shí)別,但是大腦如何工作的卻異常難懂。我們可能需要做很多科研工作,去挖掘到底哪些數(shù)據(jù)會(huì)影響到人臉識(shí)別的正確率。如果這些數(shù)據(jù)本身沒有,很可能還需要進(jìn)行測量采集,比如兩眼之間的距離,嘴的寬度和長度等等。當(dāng)然,我們還會(huì)評(píng)估采集的成本,并對(duì)這些數(shù)據(jù)有效性進(jìn)行評(píng)估,驗(yàn)證我們的成本是否值得去花費(fèi)精力測量。

數(shù)據(jù)預(yù)處理簡介

數(shù)據(jù)采集以后,數(shù)據(jù)往往存放在數(shù)據(jù)庫或文件系統(tǒng)中,我們需要把他們導(dǎo)入到算法模型中進(jìn)行訓(xùn)練,得到我們想要的模型。但是我們的數(shù)據(jù)往往雜亂無章,總的來說,數(shù)據(jù)一般存在如下幾類問題:


數(shù)據(jù)類型多種多樣

我們的數(shù)據(jù)中常常出現(xiàn)字符型,時(shí)間型,數(shù)字型等多種數(shù)據(jù)類型。其中:字符型是無法代入模型計(jì)算的,所以我們根據(jù)需要,可以對(duì)字符型數(shù)據(jù)進(jìn)行編碼轉(zhuǎn)換。常用的編碼方法有:

數(shù)字編碼:對(duì)于有大小比較的字符型數(shù)據(jù),可以直接轉(zhuǎn)換成數(shù)字編碼。比如:

Onehot編碼:對(duì)于沒有大小比較的字符型數(shù)據(jù),可以使用Onehot獨(dú)熱編碼。比如:

時(shí)間類型往往是一類特殊的數(shù)據(jù),把時(shí)間簡單看成一個(gè)實(shí)數(shù)的話,往往不符合邏輯。對(duì)于帶時(shí)間的數(shù)據(jù),我們通常使用時(shí)間序列的分析方法進(jìn)行分析。有時(shí)候我們更加關(guān)注的是兩列時(shí)間的差值,這時(shí)我們可以構(gòu)建時(shí)間差值列作為新的變量加入模型之中。

數(shù)字型往往是導(dǎo)入模型進(jìn)行訓(xùn)練的主要部分,數(shù)字型又可以細(xì)分為離散型和連續(xù)型,因?yàn)殡x散與連續(xù)的數(shù)據(jù)分布顯著不同,我們可以對(duì)其進(jìn)行分開處理。數(shù)字型之間各個(gè)列常存在量綱差異,有的數(shù)據(jù)可能很大,有的數(shù)據(jù)可能很小,我們需要去除數(shù)據(jù)量綱,防止模型對(duì)數(shù)據(jù)較大的列進(jìn)行偏倚(數(shù)據(jù)值較大時(shí)通常方差也較大)。常用的數(shù)據(jù)去量綱的方法有最大最小值歸一化法,均值標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化法等等。


數(shù)據(jù)格式不對(duì)

我們期望數(shù)據(jù)格式是表結(jié)構(gòu),矩陣格式,或者是張量格式。然而我們拿到的數(shù)據(jù)往往不是格式化的數(shù)據(jù),比如機(jī)臺(tái)的日志數(shù)據(jù),圖像數(shù)據(jù),音頻視頻數(shù)據(jù)。我們需要對(duì)上述數(shù)據(jù)轉(zhuǎn)換,把數(shù)據(jù)格式轉(zhuǎn)換成我們想要的格式。

數(shù)據(jù)中存在異常

數(shù)據(jù)中還會(huì)出現(xiàn)缺失值,異常值等異常,這些情況也會(huì)強(qiáng)烈影響到模型的訓(xùn)練,我們需要對(duì)空值進(jìn)行補(bǔ)值。如何補(bǔ)值需要我們對(duì)數(shù)據(jù)非常了解,才能推斷出該用什么值來補(bǔ)值,才不會(huì)改變?cè)械臄?shù)據(jù)分布。一般的補(bǔ)值方法有:0值補(bǔ)值,均值補(bǔ)值,中位數(shù)補(bǔ)值,按上一個(gè)數(shù)補(bǔ)值,移動(dòng)平均補(bǔ)值,線性插值,相關(guān)列補(bǔ)值法等等,對(duì)于缺失值比例較大的列,可以采取直接刪除的方法。異常值則需要?jiǎng)?chuàng)建規(guī)則,對(duì)異常值進(jìn)行識(shí)別,再用正常的值進(jìn)行替換,故異常值也有類似于缺失值的替換方法。

本文作者:格創(chuàng)東智OT團(tuán)隊(duì)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    小鵬汽車榮獲2024年機(jī)械工業(yè)大型重點(diǎn)骨干企業(yè)

    近日,由中國機(jī)械工業(yè)聯(lián)合會(huì)主辦的“2024年機(jī)械工業(yè)大型重點(diǎn)骨干企業(yè)發(fā)展論壇暨機(jī)械、鋼鐵產(chǎn)業(yè)鏈融通發(fā)展大會(huì)”在北京舉行,小鵬汽車榮獲“機(jī)械工業(yè)大型重點(diǎn)骨干
    的頭像 發(fā)表于 08-05 10:26 ?455次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    在機(jī)器學(xué)習(xí)的整個(gè)流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和特征工程的基本概念出發(fā),詳細(xì)探討這
    的頭像 發(fā)表于 07-09 15:57 ?273次閱讀

    工業(yè)大數(shù)據(jù)云平臺(tái)在設(shè)備預(yù)測性維護(hù)中的作用

    ,只有保證設(shè)備的安全穩(wěn)定運(yùn)行才能保障生產(chǎn)的持續(xù),質(zhì)量的可靠,提升企業(yè)產(chǎn)品競爭力。 因此,企業(yè)就需要加強(qiáng)對(duì)設(shè)備狀況的及時(shí)把握,并一定程度上實(shí)現(xiàn)工業(yè)設(shè)備預(yù)測性維護(hù)。為此,數(shù)之能提供的
    的頭像 發(fā)表于 06-28 15:31 ?222次閱讀

    特征工程與數(shù)據(jù)預(yù)處理全解析:基礎(chǔ)技術(shù)和代碼示例

    在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的世界里,數(shù)據(jù)的質(zhì)量是建模成功與否的關(guān)鍵所在。這就是特征工程和數(shù)據(jù)預(yù)處理發(fā)揮作用的地方。本文總結(jié)的這些關(guān)鍵步驟可以顯著提高模型的性能,獲得更準(zhǔn)確的預(yù)測,我們將深入研
    的頭像 發(fā)表于 06-26 08:28 ?406次閱讀
    特征工程與<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>預(yù)處理</b>全解析:基礎(chǔ)技術(shù)和代碼示例

    信號(hào)的預(yù)處理包括哪些環(huán)節(jié)

    信號(hào)預(yù)處理是信號(hào)處理的一個(gè)重要環(huán)節(jié),它對(duì)信號(hào)進(jìn)行一系列的操作,以便于后續(xù)的分析和處理。信號(hào)預(yù)處理的目的是提高信號(hào)的質(zhì)量,減少噪聲,保留有用的信息,以及滿足后續(xù)
    的頭像 發(fā)表于 06-03 10:35 ?2325次閱讀

    工業(yè)路由器如何助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型?

    工業(yè)路由器在企業(yè)數(shù)字化轉(zhuǎn)型中扮演重要角色,具有高效數(shù)據(jù)傳輸、靈活組網(wǎng)和強(qiáng)大數(shù)據(jù)處理能力等特點(diǎn)。它能夠實(shí)現(xiàn)設(shè)備互聯(lián)、提供穩(wěn)定網(wǎng)絡(luò)連接、支持多種
    的頭像 發(fā)表于 04-24 14:33 ?248次閱讀

    工業(yè)大數(shù)據(jù)發(fā)展面臨的問題

    工業(yè)大數(shù)據(jù)作為工業(yè)與數(shù)字經(jīng)濟(jì)之間的橋梁紐帶,對(duì)加快工業(yè)數(shù)字化轉(zhuǎn)型、推進(jìn)數(shù)實(shí)融合,支撐新型工業(yè)化建設(shè)意義重大。
    的頭像 發(fā)表于 04-16 11:52 ?470次閱讀

    C語言中的預(yù)處理

    所有的預(yù)處理器命令都是以井號(hào)(#)開頭。它必須是第一個(gè)非空字符,為了增強(qiáng)可讀性,預(yù)處理器指令應(yīng)從第一列開始。
    發(fā)表于 03-01 12:16 ?790次閱讀
    C語言中的<b class='flag-5'>預(yù)處理</b>器

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲(chǔ)海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具。現(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個(gè)行業(yè)和領(lǐng)域,對(duì)企業(yè)決策和業(yè)務(wù)發(fā)展起到了重
    的頭像 發(fā)表于 01-31 11:07 ?2976次閱讀

    數(shù)據(jù)預(yù)處理和特征工程的常用功能

    機(jī)器學(xué)習(xí)最基礎(chǔ)的5個(gè)流程,分別是數(shù)據(jù)獲取,數(shù)據(jù)預(yù)處理,特征工程,建模、測試和預(yù)測,上線與部署。
    的頭像 發(fā)表于 01-25 11:26 ?673次閱讀

    GPU:大數(shù)據(jù)時(shí)代的強(qiáng)力引擎

    精度和方案開發(fā)速度。無論是圖像識(shí)別、語音文字處理、機(jī)器翻譯(MT),還是自動(dòng)駕駛、虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)等行業(yè)應(yīng)用,GPU在大數(shù)據(jù)存儲(chǔ)、清洗、預(yù)處理以及
    的頭像 發(fā)表于 01-04 08:27 ?653次閱讀
    GPU:<b class='flag-5'>大數(shù)據(jù)</b>時(shí)代的強(qiáng)力引擎

    基于工業(yè)大數(shù)據(jù)和物聯(lián)網(wǎng)的智能工廠如何實(shí)現(xiàn)

    在中國制造2025及工業(yè)4.0技術(shù)的加持下,離散制造業(yè)的流程工業(yè)實(shí)現(xiàn)生產(chǎn)設(shè)備網(wǎng)絡(luò)化、生產(chǎn)數(shù)據(jù)可視化、生產(chǎn)現(xiàn)場無人化等現(xiàn)金數(shù)據(jù)應(yīng)用,做到橫向與
    的頭像 發(fā)表于 12-25 15:32 ?529次閱讀

    誠邀報(bào)名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

    堅(jiān)實(shí)的技術(shù)基礎(chǔ)。在推進(jìn)新型工業(yè)化建設(shè)的征程中,應(yīng)對(duì)各種復(fù)雜的工業(yè)場景,亟需在底層操作系統(tǒng)、物聯(lián)網(wǎng)數(shù)據(jù)采集、數(shù)據(jù)管理以及數(shù)據(jù)分析應(yīng)用等全生命周
    的頭像 發(fā)表于 12-20 16:54 ?340次閱讀
    誠邀報(bào)名|黃向東邀您共話開源<b class='flag-5'>工業(yè)</b>物聯(lián)網(wǎng)<b class='flag-5'>大數(shù)據(jù)</b>

    C語言有哪些預(yù)處理操作?

    C語言的預(yù)處理是在編譯之前對(duì)源代碼進(jìn)行處理的階段,它主要由預(yù)處理器完成。預(yù)處理器是一個(gè)獨(dú)立的程序,它負(fù)責(zé)對(duì)源代碼進(jìn)行一些文本替換和處理,生成
    的頭像 發(fā)表于 12-08 15:40 ?570次閱讀
    C語言有哪些<b class='flag-5'>預(yù)處理</b>操作?

    誠邀報(bào)名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

    提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。 在推進(jìn) 新型工業(yè)化建 設(shè)的征程 中, 應(yīng)對(duì)各種復(fù) 雜的 工業(yè)場 景,亟 需在 底層操作系統(tǒng)、物聯(lián) 網(wǎng)數(shù)據(jù)采集、數(shù)據(jù)管 理以及
    的頭像 發(fā)表于 12-05 19:35 ?519次閱讀
    誠邀報(bào)名|黃向東邀您共話開源<b class='flag-5'>工業(yè)</b>物聯(lián)網(wǎng)<b class='flag-5'>大數(shù)據(jù)</b>