0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中臺下的數(shù)據(jù)質(zhì)量問題

ss ? 來源:EAWorld ? 作者:劉慶會 ? 2020-11-12 14:08 ? 次閱讀

當(dāng)前越來越多的組織認識到了數(shù)據(jù)的重要性,為了發(fā)揮數(shù)據(jù)的價值,數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺的建設(shè)如雨后春筍。但數(shù)據(jù)是一把雙刃劍,它能給企業(yè)帶來業(yè)務(wù)價值的同時也是組織最大的風(fēng)險來源。糟糕的數(shù)據(jù)質(zhì)量常常意味著低效的、錯誤的業(yè)務(wù)決策,將直接導(dǎo)致數(shù)據(jù)統(tǒng)計分析不準(zhǔn)確、監(jiān)管業(yè)務(wù)難、高層領(lǐng)導(dǎo)難以決策等問題。如何在數(shù)據(jù)中臺搭建數(shù)據(jù)質(zhì)量管理體系,形成常態(tài)化的數(shù)據(jù)質(zhì)量管理流程是決定數(shù)據(jù)中臺運營應(yīng)用的重要因素。

目錄:

1.?dāng)?shù)據(jù)質(zhì)量問題的產(chǎn)生來源

2.?dāng)?shù)據(jù)質(zhì)量問題域及分類

3.?dāng)?shù)據(jù)質(zhì)量管理體系建設(shè)的五個原則

4.?dāng)?shù)據(jù)質(zhì)量管理框架及關(guān)鍵技術(shù)

5.?dāng)?shù)據(jù)質(zhì)量管理的最佳實踐

1、數(shù)據(jù)質(zhì)量問題的產(chǎn)生來源

現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣,古人筑堤壩是為約束河水,讓自然資源為我所用,發(fā)揮自然資源的價值;今人做數(shù)據(jù)集成融合,建數(shù)據(jù)中臺,是為了挖掘數(shù)據(jù)價值,發(fā)揮數(shù)據(jù)資源的價值,讓數(shù)據(jù)資源為企業(yè)的業(yè)務(wù)創(chuàng)新發(fā)揮價值。

在企業(yè)信息化初期,各類業(yè)務(wù)系統(tǒng)恣意生長,這個階段就像沒有修筑大堤前的黃河,河水雖然漫流,但是河道寬闊,雖然也有數(shù)據(jù)問題,但不明顯。

在企業(yè)進行數(shù)字化轉(zhuǎn)型的背景下,尤其是搭建了數(shù)據(jù)中臺的組織,需要按照統(tǒng)一的結(jié)構(gòu)和標(biāo)準(zhǔn)把各類數(shù)據(jù)集成起來,就像筑堤束水之后的黃河,泄流不暢、決口不斷等問題紛紛出現(xiàn),數(shù)據(jù)不一致、不完整、不準(zhǔn)確等各種問題撲面而來。

大數(shù)據(jù)時代數(shù)據(jù)集成融合的需求會愈加迫切,不僅要融合企業(yè)內(nèi)部數(shù)據(jù),也要融合外部(互聯(lián)網(wǎng)等)數(shù)據(jù)。如果沒有對數(shù)據(jù)質(zhì)量問題建立相應(yīng)的管理策略和技術(shù)工具,那么數(shù)據(jù)質(zhì)量問題的危害會更加嚴(yán)重。據(jù)IBM統(tǒng)計,數(shù)據(jù)分析員每天有30%的時間浪費在了辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上。

2、數(shù)據(jù)質(zhì)量問題域及分類

數(shù)據(jù)質(zhì)量問題從大的方面可以劃分為技術(shù)、業(yè)務(wù)和管理問題域。技術(shù)問題域包括數(shù)據(jù)校驗不夠、默認值使用不當(dāng)?shù)葐栴},通常是由于系統(tǒng)建設(shè)和數(shù)據(jù)處理導(dǎo)致的。業(yè)務(wù)問題域細分為信息問題域和流程問題域,業(yè)務(wù)上存在多渠道數(shù)據(jù)創(chuàng)建、不合理的數(shù)據(jù)變更流程的問題。管理問題域包括數(shù)據(jù)責(zé)任人不明確、沒有獎懲制度,缺少培訓(xùn)等。

下圖是企業(yè)數(shù)據(jù)創(chuàng)建、加載、匯總、分析到展現(xiàn)的5個步驟,很顯然,步驟①~⑤任何一步出錯都會導(dǎo)致整個結(jié)論分析失真。

業(yè)務(wù)操作部門在數(shù)據(jù)錄入過程可能輸入錯誤的數(shù)據(jù)。這決定了數(shù)據(jù)源的質(zhì)量。

在數(shù)據(jù)抽取、加載工程中導(dǎo)致數(shù)據(jù)記錄丟失、數(shù)據(jù)重復(fù)等問題。

在數(shù)據(jù)加工、轉(zhuǎn)換過程中,由于數(shù)據(jù)加工、轉(zhuǎn)換的代碼魯棒性和穩(wěn)定性不夠,導(dǎo)致的數(shù)據(jù)加工結(jié)果出現(xiàn)的錯誤。

數(shù)據(jù)計算匯總過程中,導(dǎo)致的數(shù)據(jù)的錯誤。

分析展現(xiàn)工具將加工好的數(shù)據(jù)展現(xiàn)給數(shù)據(jù)分析人員、管理決策人員出現(xiàn)的錯誤。

在某種意義上講,分析者所做出的決策的正確性來源于企業(yè)信息源的質(zhì)量、數(shù)據(jù)倉庫本身的質(zhì)量、數(shù)據(jù)集市的質(zhì)量以及數(shù)據(jù)倉庫各過程的質(zhì)量。我們可以看到,在數(shù)據(jù)應(yīng)用過程中5步中有4步是技術(shù)或管理造成的,只有1步會是錄入環(huán)節(jié)導(dǎo)致。而恰好是這一步是數(shù)據(jù)中臺無法管理和解決的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。因此從根本上解決數(shù)據(jù)質(zhì)量問題,從源頭解決是最有效的途徑,在輔助數(shù)據(jù)中臺從技術(shù)和管理上加強測試、規(guī)范和監(jiān)控,那么數(shù)據(jù)質(zhì)量問題的解決就水到渠成了。

3、數(shù)據(jù)質(zhì)量管理體系建設(shè)的五個原則

總結(jié)古人治理黃河水患,主要有兩種策略,一種是“疏通”,上策遷移民眾和中策分流黃河水患,都是具體體現(xiàn);另一種是“圍堵”,加高增厚堤防,抑制河水爛漫。

治理數(shù)據(jù)質(zhì)量的問題可以應(yīng)用下古人的智慧和考量。采用規(guī)劃頂層設(shè)計,制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計數(shù)據(jù)質(zhì)量的管理機制,建立相應(yīng)的組織架構(gòu)和管理制度,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量,這是數(shù)據(jù)質(zhì)量管理“疏”的方式。而單純依賴技術(shù)手段,通過增加ETL數(shù)據(jù)清洗處理邏輯的復(fù)雜度,使用數(shù)據(jù)質(zhì)量工具來發(fā)現(xiàn)ETL數(shù)據(jù)處理中的問題屬于“堵”的方式,只能解決表面的問題,不是根本的解決方法。事實上這種方式也在好多企業(yè)中使用,其根本目的在于提高ETL處理的準(zhǔn)確度,做法無可厚非,畢竟找別人的問題之前,先要保證自身是沒有問題的。

按照多個行業(yè)實施數(shù)據(jù)質(zhì)量管理項目的經(jīng)驗,數(shù)據(jù)質(zhì)量管理應(yīng)該是采用“疏”和“堵”相結(jié)合的方式,通過這種方式解決數(shù)據(jù)質(zhì)量問題有5個原則。如下圖所示:

1)全程監(jiān)控原則:全程監(jiān)控是針對數(shù)據(jù)生命周期全過程中各環(huán)節(jié)進行數(shù)據(jù)質(zhì)量監(jiān)控,從數(shù)據(jù)的定義、錄入、獲取、計算、使用的全過程進行質(zhì)量監(jiān)控。數(shù)據(jù)定義階段,對數(shù)據(jù)模型、字典枚舉值進行監(jiān)控,判斷是否遵循了統(tǒng)一的標(biāo)準(zhǔn)。數(shù)據(jù)錄入階段對輸入的合法性進行校驗等,數(shù)據(jù)獲取階段對數(shù)據(jù)記錄數(shù)、數(shù)據(jù)一致性進行檢核等。明確各部門在數(shù)據(jù)全生命周期中的責(zé)任,全方位保證數(shù)據(jù)質(zhì)量。

2)閉環(huán)管理原則:從問題定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估5個方面建立問題處理的閉環(huán)機制。從業(yè)務(wù)、技術(shù)兩個維度出發(fā)做問題定義,由工具自動發(fā)現(xiàn)問題,明確問題責(zé)任人,通過郵件、短信等方式進行通知,將問題及時通知到責(zé)任人,跟蹤問題整改進度,建立相應(yīng)的質(zhì)量問題評估KPI,保證數(shù)據(jù)質(zhì)量問題管理閉環(huán)。

3)全員參與原則:數(shù)據(jù)質(zhì)量提升涉及到組織多個部門,包括不僅限于數(shù)據(jù)提供方、數(shù)據(jù)消費方、數(shù)據(jù)質(zhì)量管理員等。尤其在數(shù)據(jù)質(zhì)量問題定義和整改階段需要多方人員的參與才能達到效果。在數(shù)據(jù)質(zhì)量問題定義階段,需要數(shù)據(jù)責(zé)任人、業(yè)務(wù)專家、數(shù)據(jù)使用人員對數(shù)據(jù)問題校驗規(guī)則達成一致,共同制定數(shù)據(jù)檢核范圍、數(shù)據(jù)問題條件等。問題整改階段,要由數(shù)據(jù)責(zé)任方、數(shù)據(jù)質(zhì)量管理員和技術(shù)人員,共同定位問題原因并進行整改。

4)借助工具,自動檢核:數(shù)據(jù)質(zhì)量工具保證問題發(fā)現(xiàn)的效率。在數(shù)據(jù)使用過程中深入分析已發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題的成因,及時由IT部門將其轉(zhuǎn)化為技術(shù)規(guī)則落地到系統(tǒng)中,通過技術(shù)手段自動檢核數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)質(zhì)量檢核效率。數(shù)據(jù)質(zhì)量工具在采集到的數(shù)據(jù)模型元數(shù)據(jù)的基礎(chǔ)上,通過配置自動生成檢核規(guī)則的腳本,并通過設(shè)置數(shù)據(jù)質(zhì)量檢核任務(wù)的運行周期,定時檢核數(shù)據(jù)質(zhì)量問題,并將數(shù)據(jù)質(zhì)量問題數(shù)據(jù)保存到系統(tǒng)中,便于用戶進行查看和定位問題。

5)提升意識、主動管理:數(shù)據(jù)質(zhì)量管理工作需要提升全員數(shù)據(jù)質(zhì)量意識,形成組織數(shù)據(jù)治理的文化氛圍。數(shù)據(jù)使用方發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題后,及時主動的進行問題的上報,避免數(shù)據(jù)問題對業(yè)務(wù)造成影響。數(shù)據(jù)責(zé)任人接到問題通知后,應(yīng)主動配合數(shù)據(jù)管理部門進行問題整改。數(shù)據(jù)管理部門應(yīng)該從事前預(yù)防數(shù)據(jù)問題出發(fā),制定企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)并加強宣貫,減少因為缺少統(tǒng)一的標(biāo)準(zhǔn)、規(guī)范導(dǎo)致數(shù)據(jù)質(zhì)量問題。

4、數(shù)據(jù)質(zhì)量管理框架及關(guān)鍵技術(shù)

在“五個原則”的指導(dǎo)下開展數(shù)據(jù)質(zhì)量提升工作,從系統(tǒng)層面需要制定數(shù)據(jù)質(zhì)量管理的功能框架。數(shù)據(jù)質(zhì)量系統(tǒng)應(yīng)具備數(shù)據(jù)質(zhì)量規(guī)則管理、檢核腳本管理、任務(wù)管理、檢核結(jié)果管理、數(shù)據(jù)質(zhì)量報告等功能,以度量規(guī)則和檢核腳本管理為主線,通過自身任務(wù)管理模塊或者第三方調(diào)度為觸發(fā)點,幫助企業(yè)建立統(tǒng)一的數(shù)據(jù)質(zhì)量管理工具。

從系統(tǒng)實現(xiàn)的角度上,要解決三個關(guān)鍵技術(shù)。

1、檢核腳本的自動生成。數(shù)據(jù)質(zhì)量檢核實際上是按照腳本執(zhí)行并篩選出有問題的數(shù)據(jù)。隨著數(shù)據(jù)質(zhì)量度量規(guī)則的增多,通過人為手工編寫腳本的方式就無法應(yīng)對快速增加的度量規(guī)則,通常一個中等規(guī)模的金融企業(yè),就具備上千條度量規(guī)則。因此通過配置的方式,利用腳本生成引擎自動生成檢核腳本,是數(shù)據(jù)質(zhì)量工具必須具備的功能。

2、多線程檢核架構(gòu)。檢核腳本的執(zhí)行時間是影響能夠及時查看到數(shù)據(jù)質(zhì)量問題的另一個關(guān)鍵因素。在腳本執(zhí)行過程中,需要采用多線程并發(fā)來執(zhí)行保證在較短的時間內(nèi)檢核出有問題的數(shù)據(jù)。

3、數(shù)據(jù)質(zhì)量報告。數(shù)據(jù)質(zhì)量報告是對企業(yè)數(shù)據(jù)質(zhì)量情況的總結(jié)分析,需要能夠從不同維度系統(tǒng)、部門、檢核類別等維度生成固定數(shù)據(jù)質(zhì)量報告。還需要支持按照選擇的數(shù)據(jù)質(zhì)量規(guī)則,時間等條件,來生成個性化的數(shù)據(jù)質(zhì)量報告。

5、數(shù)據(jù)質(zhì)量管理的最佳實踐

為實現(xiàn)數(shù)據(jù)質(zhì)量的切實落地,推進數(shù)據(jù)質(zhì)量問題的有效解決,某銀行將數(shù)據(jù)質(zhì)量問題考核作為重中之重,將數(shù)據(jù)質(zhì)量問題解決效果與部門KPI掛鉤,減小了數(shù)據(jù)質(zhì)量整改的難度,為數(shù)據(jù)質(zhì)量的推進提供驅(qū)動力,能夠及時對發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進行處理。該銀行的數(shù)據(jù)質(zhì)量工作開展,分為了三個階段:

第一階段:搭建數(shù)據(jù)質(zhì)量系統(tǒng)。借助數(shù)據(jù)質(zhì)量管理系統(tǒng)自動對數(shù)據(jù)倉庫進行檢核, 摸清數(shù)據(jù)質(zhì)量情況,解決技術(shù)原因?qū)е聰?shù)據(jù)質(zhì)量問題。

第二階段:定位問題責(zé)任主體。將數(shù)據(jù)質(zhì)量問題檢核提前到業(yè)務(wù)系統(tǒng)中來,將問題數(shù)據(jù)所在分行業(yè)務(wù)數(shù)據(jù)錄入人一并獲取到數(shù)據(jù)質(zhì)量管理平臺,從而為數(shù)據(jù)質(zhì)量問題的追本溯源奠定了技術(shù)基礎(chǔ)。

第三階段:成立數(shù)據(jù)質(zhì)量考核評價小組。為保證已發(fā)現(xiàn)的業(yè)務(wù)原因?qū)е碌膯栴}能得到有效地解決,設(shè)計出了分層級的考核體系,由數(shù)據(jù)質(zhì)量考核評價小組對各家分行數(shù)據(jù)質(zhì)量問題的解決情況進行打分,計入各家分行的KPI績效考核中。

在后續(xù)數(shù)據(jù)質(zhì)量系統(tǒng)的運行,開展對銀行內(nèi)部多個業(yè)務(wù)部門進行了考核,考核范圍包括多個重要的業(yè)務(wù)系統(tǒng),并檢核出了各家分行的多項數(shù)據(jù)問題,大大提升了數(shù)據(jù)質(zhì)量問題的修改率,整改的數(shù)據(jù)問題數(shù)據(jù)涉及到超過數(shù)千億的貸款額度。

參考文獻:

[1]DAMA-DMBOK2數(shù)據(jù)管理知識體系指南.機械工業(yè)出版社2020.5

[2]劉慶會.大數(shù)據(jù)是否值得信賴——淺談商業(yè)銀行如何提升數(shù)據(jù)質(zhì)量 [EB/OL], 2016-04-14

[3] 賈讓.治河三策千古鑒.河北水利,2016(2):36-36

責(zé)任編輯:xj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6722

    瀏覽量

    88342
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4527

    瀏覽量

    71663
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46118

    瀏覽量

    235351
收藏 人收藏

    評論

    相關(guān)推薦

    電能質(zhì)量問題包括哪些現(xiàn)象

    在現(xiàn)代電力系統(tǒng),電能質(zhì)量的優(yōu)劣直接關(guān)系到工業(yè)生產(chǎn)效率、設(shè)備壽命以及日常生活質(zhì)量等多個方面。常見的電能質(zhì)量問題包括電壓波動與閃變、諧波污染以及三相不平衡等。這些問題不僅影響設(shè)備的正常運
    的頭像 發(fā)表于 08-30 10:03 ?203次閱讀

    智能工廠數(shù)據(jù)臺的功能和作用

    各類設(shè)備、系統(tǒng)和傳感器采集數(shù)據(jù),包括生產(chǎn)設(shè)備、物流系統(tǒng)、質(zhì)量檢測系統(tǒng)等。 2. 數(shù)據(jù)清洗與處理:對采集到的原始數(shù)據(jù)進行清洗、過濾和格式化,
    的頭像 發(fā)表于 08-19 14:13 ?166次閱讀

    SMT加工中常見的錫膏印刷質(zhì)量問題有哪些?

    在SMT加工錫膏印刷的質(zhì)量也是能夠直接影響到產(chǎn)品整體質(zhì)量的因素之一,并且在SMT貼片加工中大多焊接缺陷都來自錫膏印刷的質(zhì)量問題,在高密度高精度的SMT貼片中尤為明顯,常見的錫膏印刷不
    的頭像 發(fā)表于 06-14 15:50 ?346次閱讀
    SMT加工中常見的錫膏印刷<b class='flag-5'>質(zhì)量問題</b>有哪些?

    智能張拉及壓漿數(shù)據(jù)監(jiān)測系統(tǒng)是如何做到數(shù)據(jù)采集

    在公路建設(shè)過程中橋梁工程作為施工很重要的一個環(huán)節(jié),而橋梁工程箱梁的質(zhì)量問題又直接影響到橋梁的質(zhì)量,同時箱梁在智能張拉、壓漿生產(chǎn)過程工序
    的頭像 發(fā)表于 01-16 17:56 ?497次閱讀
    智能張拉及壓漿<b class='flag-5'>數(shù)據(jù)</b>監(jiān)測系統(tǒng)是如何做到<b class='flag-5'>數(shù)據(jù)</b>采集

    ADXL355數(shù)據(jù)輸出不正常是什么原因造成的?

    ,就老出問題,檢查了好多天,SPI不管多字節(jié)讀取,還是單字節(jié)讀取,數(shù)據(jù)都是一樣有時候出錯,反復(fù)檢查電路和程序,以及用示波器檢查SPI時序和數(shù)據(jù),都發(fā)現(xiàn)是芯片數(shù)據(jù)出錯的,這個高性能的芯片不應(yīng)該有
    發(fā)表于 12-29 07:35

    LabVIEW開發(fā)電能質(zhì)量監(jiān)測系統(tǒng)

    等。該系統(tǒng)通過疊加不同波形(如正弦波和三角波)來生成暫態(tài)擾動信號,提供了一種創(chuàng)新的方法來模擬電能質(zhì)量問題。 信號存儲與分析:系統(tǒng)的關(guān)鍵創(chuàng)新在于其能夠?qū)崟r存儲擾動信號的波形圖,用戶可以根據(jù)需要設(shè)置存儲
    發(fā)表于 12-15 19:19

    EPS消防應(yīng)急電源常見三類質(zhì)量問題

    電子發(fā)燒友網(wǎng)站提供《EPS消防應(yīng)急電源常見三類質(zhì)量問題.pdf》資料免費下載
    發(fā)表于 11-14 10:11 ?0次下載
    EPS消防應(yīng)急電源常見三類<b class='flag-5'>質(zhì)量問題</b>

    數(shù)據(jù)的基本概念!大數(shù)據(jù)時代的新術(shù)語

    在大數(shù)據(jù)臺下,預(yù)處理的數(shù)據(jù)量非常大,而處理后的有效數(shù)據(jù)量往往比較小,因此,數(shù)據(jù)的生命周期管理顯得非常重要。
    的頭像 發(fā)表于 10-11 11:41 ?1982次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>的基本概念!大<b class='flag-5'>數(shù)據(jù)</b>時代的新術(shù)語