在如今火爆的數(shù)智化時(shí)代,企業(yè)都在利用大數(shù)據(jù)創(chuàng)新業(yè)務(wù)、獲得價(jià)值;然而,數(shù)據(jù)能否更好地賦能業(yè)務(wù),取決于企業(yè)數(shù)據(jù)質(zhì)量的好壞。好的數(shù)據(jù)質(zhì)量,經(jīng)過(guò)數(shù)據(jù)分析、挖掘、機(jī)器學(xué)習(xí)等手段,可以更好地輔助業(yè)務(wù)決策、幫助企業(yè)降本增效;差的數(shù)據(jù)質(zhì)量,從數(shù)據(jù)中獲得的價(jià)值有限,甚至?xí)`導(dǎo)做出錯(cuò)誤的業(yè)務(wù)決策,從而給企業(yè)帶來(lái)災(zāi)難性的后果。
那么,一個(gè)企業(yè)的數(shù)據(jù)質(zhì)量如何,如何評(píng)估?常見(jiàn)的數(shù)據(jù)質(zhì)量問(wèn)題都有哪些?這些問(wèn)題是什么原因造成的?
數(shù)據(jù)質(zhì)量評(píng)估維度
在評(píng)價(jià)企業(yè)數(shù)據(jù)質(zhì)量的好壞時(shí),首先需要定義評(píng)估的維度,通常較為重要的數(shù)據(jù)質(zhì)量維度有以下6個(gè):
- 數(shù)據(jù)唯一性: 是指數(shù)據(jù)唯一,不存在重復(fù)記錄。即:不會(huì)出現(xiàn)一物多碼,一碼多物的情況。例如:主鍵唯一性,同一個(gè)ID不會(huì)重復(fù)記錄。
- 數(shù)據(jù)完整性: 是指數(shù)據(jù)在創(chuàng)建、處理流轉(zhuǎn)過(guò)程中無(wú)缺失和遺漏,包括實(shí)體完整、屬性完整、記錄完整和字段值完整。例如:?jiǎn)T工的工號(hào)不可為空。
- 數(shù)據(jù)準(zhǔn)確性: 是指真實(shí)、準(zhǔn)確地記錄原始數(shù)據(jù),無(wú)虛假數(shù)據(jù)及信息。數(shù)據(jù)要準(zhǔn)確反映其所建模的"真實(shí)世界"的實(shí)體。例如:在業(yè)務(wù)系統(tǒng)上填寫(xiě)信息時(shí),手誤輸錯(cuò)了新車(chē)類(lèi)型信息,造成了數(shù)據(jù)庫(kù)里存在的信息與真實(shí)世界不一樣。
- 數(shù)據(jù)一致性: 是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范、是否符合邏輯。例如:同一車(chē)型所對(duì)應(yīng)的名稱(chēng)在不同系統(tǒng)中保持一致。
- 數(shù)據(jù)及時(shí)性: 是指及時(shí)記錄和傳遞相關(guān)數(shù)據(jù),從而滿(mǎn)足業(yè)務(wù)對(duì)信息獲取的時(shí)間要求。主要指數(shù)據(jù)提取要及時(shí)、傳送要及時(shí)、轉(zhuǎn)換要及時(shí)、加載和展現(xiàn)要及時(shí)。
- 數(shù)據(jù)有效性: 指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和數(shù)據(jù)業(yè)務(wù)定義的要求。例如:手機(jī)號(hào)要符合全球手機(jī)號(hào)碼編碼規(guī)則。
數(shù)據(jù)質(zhì)量問(wèn)題分析原因
從數(shù)據(jù)的整個(gè)生命周期來(lái)看,任何一環(huán)節(jié)都有可能產(chǎn)生數(shù)據(jù)問(wèn)題。在數(shù)據(jù)的采集階段,數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、完整性、一致性等會(huì)影響數(shù)據(jù)質(zhì)量。在數(shù)據(jù)的加工、存儲(chǔ)階段,也涉及到對(duì)數(shù)據(jù)的修改,也可能引發(fā)數(shù)據(jù)質(zhì)量問(wèn)題。所以,業(yè)務(wù)、技術(shù)、管理等多方面的因素都有可能會(huì)影響到數(shù)據(jù)質(zhì)量。
業(yè)務(wù)問(wèn)題
-
業(yè)務(wù)需求不清晰
在業(yè)務(wù)需求不清晰的情況下,很容易造成由于理解偏差,最終導(dǎo)致結(jié)果數(shù)據(jù)有問(wèn)題。
-
需求頻繁變更
需求一旦變更,其中數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)等環(huán)節(jié)就可能會(huì)受到影響,稍有不慎引入Bug,便造成數(shù)據(jù)質(zhì)量問(wèn)題。
-
數(shù)據(jù)填報(bào)缺失或不準(zhǔn)確
業(yè)務(wù)系統(tǒng)側(cè),在數(shù)據(jù)錄入時(shí),漏填或填錯(cuò)信息,造成數(shù)據(jù)的質(zhì)量問(wèn)題。
-
數(shù)據(jù)作假
為了提高或降低考核指標(biāo),對(duì)一些數(shù)據(jù)進(jìn)行人為造假,使得數(shù)據(jù)真實(shí)性無(wú)法保證。
技術(shù)問(wèn)題
-
數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)問(wèn)題
例如:數(shù)據(jù)庫(kù)表結(jié)構(gòu)、數(shù)據(jù)庫(kù)約束條件、數(shù)據(jù)校驗(yàn)規(guī)則的設(shè)計(jì)開(kāi)發(fā)不合理,造成數(shù)據(jù)錄入無(wú)法校驗(yàn)或校驗(yàn)不當(dāng),引起數(shù)據(jù)重復(fù)、不完整、不準(zhǔn)確。
-
數(shù)據(jù)采集問(wèn)題
從業(yè)務(wù)系統(tǒng)采集過(guò)來(lái)的數(shù)據(jù)本身就有一些不完整、重復(fù)、不規(guī)范,如果沒(méi)有清洗、及時(shí)糾錯(cuò)或清洗代碼有Bug,就會(huì)造成有質(zhì)量問(wèn)題的數(shù)據(jù)進(jìn)入。
-
數(shù)據(jù)處理問(wèn)題
數(shù)據(jù)在傳遞、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)存儲(chǔ)過(guò)程中,任一環(huán)節(jié)有技術(shù)問(wèn)題,都有可能造成數(shù)據(jù)質(zhì)量問(wèn)題。
-
各系統(tǒng)孤立開(kāi)發(fā)
業(yè)務(wù)系統(tǒng)各自為政,孤立開(kāi)發(fā),系統(tǒng)之間的數(shù)據(jù)孤島、數(shù)據(jù)不一致問(wèn)題嚴(yán)重。
管理問(wèn)題
企業(yè)管理缺乏數(shù)據(jù)思維, 沒(méi)有認(rèn)識(shí)到數(shù)據(jù)質(zhì)量的重要性。沒(méi)有進(jìn)行統(tǒng)一數(shù)據(jù)管理,沒(méi)有明確的數(shù)據(jù)質(zhì)量目標(biāo),也沒(méi)有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度等。
數(shù)據(jù)質(zhì)量問(wèn)題改進(jìn)指導(dǎo)
正如上述所列,造成數(shù)據(jù)質(zhì)量差的原因有很多;那么,面對(duì)企業(yè)數(shù)據(jù)質(zhì)量差的問(wèn)題,如何改進(jìn)?借鑒PDCA循環(huán)(又名戴明環(huán))進(jìn)行數(shù)據(jù)質(zhì)量持續(xù)改進(jìn),以達(dá)最終數(shù)據(jù)質(zhì)量目標(biāo)。
PDCA循環(huán)
PDCA是一套“目標(biāo)管理”流程,通過(guò)規(guī)劃、執(zhí)行、檢查、行動(dòng)四階段,確保每次的目標(biāo)都能達(dá)成。PDCA循環(huán)在質(zhì)量管理中得到廣泛的應(yīng)用。
PDCA的四個(gè)階段:
-
計(jì)劃 PLAN
先確定數(shù)據(jù)質(zhì)量目標(biāo),可通過(guò)數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)為當(dāng)前企業(yè)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,設(shè)定改進(jìn)目標(biāo)。 對(duì)照目標(biāo)制定計(jì)劃與實(shí)施方案。在制定實(shí)施方案時(shí),每1項(xiàng)措施要符合5W1H,即:為什么制定該措施?達(dá)到什么目標(biāo)?在何處執(zhí)行?由誰(shuí)負(fù)責(zé)完成?什么時(shí)間完成?怎么完成? 比如:一項(xiàng)措施是為企業(yè)制定并執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)。
-
實(shí)施 DO
依據(jù)上一步計(jì)劃與實(shí)施方案進(jìn)行執(zhí)行。 比如:制定好數(shù)據(jù)標(biāo)準(zhǔn),推廣到各部門(mén)執(zhí)行。eg. 某車(chē)企會(huì)員類(lèi)型(企業(yè)代碼標(biāo)準(zhǔn)、2位編碼):01 普通卡、02 黃金卡、03 鉆石、04 超級(jí)VIP卡;車(chē)保險(xiǎn)種類(lèi)代碼(外部代碼標(biāo)準(zhǔn)、4位編碼):10100 交強(qiáng)險(xiǎn)、10200 商業(yè)車(chē)險(xiǎn) 等等。
-
檢查 CHECK
完成一輪的實(shí)施之后,進(jìn)行檢查,對(duì)比當(dāng)前實(shí)際情況與預(yù)期目標(biāo)的差距。
-
行動(dòng) ACT
對(duì)于本輪的經(jīng)驗(yàn)和措施形成標(biāo)準(zhǔn),標(biāo)準(zhǔn)化下來(lái),持續(xù)運(yùn)行,防止質(zhì)量倒退。 對(duì)于沒(méi)有達(dá)到預(yù)期效果,分析原因,制定下一步行動(dòng),繼續(xù)下一輪的PDCA循環(huán)。
所有措施不可能在一個(gè)PDCA循環(huán)中全部解決,遺留的措施會(huì)自動(dòng)轉(zhuǎn)進(jìn)下一個(gè)PDCA循環(huán),周而復(fù)始,螺旋上升。
改進(jìn)措施
有了PDCA循環(huán)的指引,透過(guò)PDCA環(huán)高效完成達(dá)到目標(biāo)的所有措施,持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量。在制定有效措施方面,始終要遵循:及時(shí)發(fā)現(xiàn)問(wèn)題 -> 立即解決問(wèn)題-> 提前預(yù)防問(wèn)題;因此,歸納改進(jìn)措施如下。
事前預(yù)防
- 提高全員數(shù)據(jù)質(zhì)量意識(shí)。加強(qiáng)培訓(xùn)、Session分享、或出題考試等,通過(guò)各種手段培養(yǎng)員工重視數(shù)據(jù)質(zhì)量,了解數(shù)據(jù)對(duì)下游所產(chǎn)生的影響。
- 制定數(shù)據(jù)規(guī)范、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、元數(shù)據(jù)管理等。
- 建立自動(dòng)系統(tǒng),數(shù)據(jù)輸入控制,防止無(wú)效或不準(zhǔn)確數(shù)據(jù)進(jìn)入系統(tǒng)。
- 制定正式的變更控制、把關(guān)過(guò)程,防止正常處理流程之外直接更改數(shù)據(jù)。
- 制定相關(guān)制度來(lái)避免數(shù)據(jù)問(wèn)題,如:嚴(yán)禁無(wú)記錄無(wú)跟蹤人為篡改數(shù)據(jù)。
事中監(jiān)控
問(wèn)題發(fā)生,及時(shí)糾正,最大限度地降低糾正措施成本和風(fēng)險(xiǎn)。
- 構(gòu)建日志管理體系,問(wèn)題及時(shí)追蹤處理。
- 構(gòu)建數(shù)據(jù)異常處理機(jī)制與告警辦法
- 創(chuàng)建數(shù)據(jù)質(zhì)量監(jiān)測(cè)平臺(tái),自動(dòng)執(zhí)行數(shù)據(jù)質(zhì)量檢查和審計(jì)過(guò)程。
- 問(wèn)題發(fā)生,及時(shí)數(shù)據(jù)修正:程序自動(dòng)修正、程序自動(dòng)發(fā)現(xiàn)且人工修正。
- 建立數(shù)據(jù)質(zhì)量的流程化控制體系,對(duì)數(shù)據(jù)的采集、加工、存儲(chǔ)等環(huán)節(jié)進(jìn)行流程化控制。
事后完善
- 問(wèn)題發(fā)生解決后,要復(fù)盤(pán),完善相應(yīng)的預(yù)防措施、數(shù)據(jù)規(guī)范、數(shù)據(jù)管理制定與政策等等
- 定期評(píng)估度量,落實(shí)行動(dòng)項(xiàng),逐步提升數(shù)據(jù)質(zhì)量。
寫(xiě)到這里,想必大家對(duì)于數(shù)據(jù)質(zhì)量問(wèn)題的分析與改進(jìn)有了一定的認(rèn)識(shí)??傊涀∠旅孢@句話(huà):
【首先】數(shù)據(jù)質(zhì)量評(píng)估 -> 發(fā)現(xiàn)問(wèn)題,
【其次】問(wèn)題根因分析 -> 分析問(wèn)題,
【最后】戴明環(huán)方法改進(jìn) -> 解決問(wèn)題。
-
數(shù)據(jù)質(zhì)量管理
+關(guān)注
關(guān)注
0文章
3瀏覽量
871
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論