01數(shù)據(jù)治理之?dāng)?shù)據(jù)資產(chǎn)管理
數(shù)據(jù)資產(chǎn)與數(shù)據(jù)資產(chǎn)管理的定義
中國信通院聯(lián)合多家企業(yè)于2019年6月發(fā)布了《數(shù)據(jù)資產(chǎn)管理實(shí)踐白皮書4.0》,其中將數(shù)據(jù)資產(chǎn)定義為:由企業(yè)擁有或控制的、能夠?yàn)槠髽I(yè)帶來未來經(jīng)濟(jì)利益的、以物理或者電子方式記錄的數(shù)據(jù)資源,如文件資料、電子數(shù)據(jù)等。 從這個(gè)定義可以看出,數(shù)據(jù)資產(chǎn)的三個(gè)特征為: 1)“企業(yè)擁有或控制”。這個(gè)特征指明了數(shù)據(jù)是有其主體的,同時(shí)也說明了數(shù)據(jù)資源可能來源于企業(yè)內(nèi)部的信息系統(tǒng)或者日常經(jīng)營活動的沉淀,同時(shí)也有可能是企業(yè)通過外部的交換、購買等手段獲取到的。 2)“能帶來未來經(jīng)濟(jì)利益”。這個(gè)特征清楚地表明了在企業(yè)中,并非所有的數(shù)據(jù)都構(gòu)成數(shù)據(jù)資產(chǎn),數(shù)據(jù)資產(chǎn)是能夠?yàn)槠髽I(yè)產(chǎn)生價(jià)值的數(shù)據(jù)資源。 3)“數(shù)據(jù)資源”。這個(gè)特征表明了數(shù)據(jù)資產(chǎn)的存在形態(tài),是以物理或者電子方式記錄下來的數(shù)據(jù)。 《數(shù)據(jù)資產(chǎn)管理實(shí)踐白皮書4.0》中對數(shù)據(jù)資產(chǎn)管理的定義為:規(guī)劃、控制和提供數(shù)據(jù)及信息資產(chǎn)的一組業(yè)務(wù)職能,包括開發(fā)、執(zhí)行和監(jiān)督有關(guān)數(shù)據(jù)的計(jì)劃、政策、方案、項(xiàng)目、流程、方法和程序,從而控制、保護(hù)、交付和提高數(shù)據(jù)資產(chǎn)的價(jià)值。 從這個(gè)定義可以看出,數(shù)據(jù)資產(chǎn)管理的目的是通過一系列手段,以控制、保護(hù)、交付和提高數(shù)據(jù)資產(chǎn)的價(jià)值。
數(shù)據(jù)資產(chǎn)管理的現(xiàn)狀和挑戰(zhàn)
在過去,國內(nèi)大部分領(lǐng)先企業(yè)都陸續(xù)建設(shè)了ERP系統(tǒng)、人力資源系統(tǒng)、供應(yīng)鏈管理系統(tǒng)、物流系統(tǒng)、電子商務(wù)系統(tǒng)、集成門戶、協(xié)同辦公、決策支持系統(tǒng)等各類信息化系統(tǒng),這些系統(tǒng)在支撐企業(yè)經(jīng)營活動的同時(shí),也帶來了數(shù)據(jù)量的高速膨脹。隨著數(shù)據(jù)積累逐漸增多,大部分企業(yè)在數(shù)據(jù)管理方面遇到了諸多挑戰(zhàn):
缺乏統(tǒng)一的數(shù)據(jù)視圖:數(shù)據(jù)資源分布在企業(yè)的多個(gè)業(yè)務(wù)系統(tǒng)中,分布在線上線下,甚至企業(yè)的內(nèi)外部,由于缺乏統(tǒng)一的數(shù)據(jù)視圖,數(shù)據(jù)的管理人員和使用人員無法準(zhǔn)確快速地找到自己需要的數(shù)據(jù)。數(shù)據(jù)管理人員也無法從宏觀層面掌握自己擁有哪些數(shù)據(jù)資產(chǎn),擁有多少數(shù)據(jù)資產(chǎn),這些數(shù)據(jù)資產(chǎn)分布在哪里,變化情況怎么樣。
數(shù)據(jù)基礎(chǔ)薄弱:大部分企業(yè)的數(shù)據(jù)基礎(chǔ)還很薄弱,存在數(shù)據(jù)標(biāo)準(zhǔn)混亂、數(shù)據(jù)質(zhì)量參差不齊、各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)孤島化嚴(yán)重、沒有進(jìn)行數(shù)據(jù)資產(chǎn)的萃取等現(xiàn)象,阻礙了數(shù)據(jù)的有效應(yīng)用。
數(shù)據(jù)應(yīng)用不足:受限于數(shù)據(jù)基礎(chǔ)薄弱和應(yīng)用能力不足,多數(shù)企業(yè)的數(shù)據(jù)應(yīng)用剛剛起步,主要在精準(zhǔn)營銷、輿情感知和風(fēng)險(xiǎn)控制等有限場景中進(jìn)行了一些探索,數(shù)據(jù)應(yīng)用的深度不夠,應(yīng)用空間亟待開拓。
數(shù)據(jù)價(jià)值難估:企業(yè)難以對數(shù)據(jù)給業(yè)務(wù)的貢獻(xiàn)進(jìn)行評估,從而難以像運(yùn)營有形資產(chǎn)一樣運(yùn)營數(shù)據(jù)。產(chǎn)生這個(gè)問題的原因有兩個(gè):一是沒有建立起合理的數(shù)據(jù)價(jià)值評估模型;二是數(shù)據(jù)價(jià)值跟企業(yè)的商業(yè)模式密不可分,在不同應(yīng)用場景下,同一項(xiàng)數(shù)據(jù)資產(chǎn)的價(jià)值可能截然不同。
缺乏安全的數(shù)據(jù)環(huán)境:隨著數(shù)據(jù)的價(jià)值越來越得到全社會的廣泛認(rèn)可,針對數(shù)據(jù)的犯罪活動日漸猖獗,數(shù)據(jù)泄露、個(gè)人隱私受到傷害等現(xiàn)象層出不窮。很多數(shù)據(jù)犯罪是因?yàn)榘踩芾碇贫炔煌晟?、缺乏相?yīng)的數(shù)據(jù)安全管控措施導(dǎo)致的。
數(shù)據(jù)管理浮于表面:沒有建立一套符合數(shù)據(jù)驅(qū)動的組織管理制度和流程,沒有建設(shè)先進(jìn)的數(shù)據(jù)管理平臺工具,導(dǎo)致數(shù)據(jù)管理工作很難落地。
這些問題已經(jīng)嚴(yán)重影響到數(shù)據(jù)價(jià)值的發(fā)揮,導(dǎo)致企業(yè)的數(shù)據(jù)越積越多,卻逐漸成為企業(yè)的負(fù)擔(dān),大數(shù)據(jù)管理部門也成為企業(yè)的成本中心,而不是創(chuàng)新中心和利潤部門。
數(shù)據(jù)資產(chǎn)管理的四個(gè)目標(biāo)
數(shù)據(jù)資產(chǎn)管理是數(shù)據(jù)中臺面向企業(yè)提供數(shù)據(jù)能力的一個(gè)窗口,數(shù)據(jù)資產(chǎn)中心將企業(yè)的數(shù)據(jù)資產(chǎn)統(tǒng)一管理起來,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的可見、可懂、可用、可運(yùn)營。
可見:通過對數(shù)據(jù)資產(chǎn)的全面盤點(diǎn),形成數(shù)據(jù)資產(chǎn)地圖。從數(shù)據(jù)生產(chǎn)者、管理者、使用者等不同的角度,用數(shù)據(jù)資產(chǎn)目錄的方式共享數(shù)據(jù)資產(chǎn),用戶可以快速、精確地查找到自己關(guān)心的數(shù)據(jù)資產(chǎn)。
可懂:通過元數(shù)據(jù)管理,完善對數(shù)據(jù)資產(chǎn)的描述。同時(shí)在數(shù)據(jù)資產(chǎn)的建設(shè)過程中,注重?cái)?shù)據(jù)資產(chǎn)業(yè)務(wù)含義的提煉,將數(shù)據(jù)加工和組織成人人可懂的、無歧義的數(shù)據(jù)資產(chǎn)。具體來說,在數(shù)據(jù)中臺之上,需要將數(shù)據(jù)資產(chǎn)進(jìn)行標(biāo)簽化,標(biāo)簽是面向業(yè)務(wù)視角的數(shù)據(jù)組織方式。
可用:通過統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、提升數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全性等措施,增強(qiáng)數(shù)據(jù)的可信度,讓數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析人員沒有后顧之憂,放心地使用數(shù)據(jù)資產(chǎn),降低因?yàn)閿?shù)據(jù)不可用、不可信而導(dǎo)致的溝通成本和管理成本。
可運(yùn)營:數(shù)據(jù)資產(chǎn)運(yùn)營的最終目的是讓數(shù)據(jù)價(jià)值越滾越大,因此數(shù)據(jù)資產(chǎn)運(yùn)營要始終圍繞資產(chǎn)價(jià)值來開展。通過建立一套符合數(shù)據(jù)驅(qū)動的組織管理制度流程和價(jià)值評估體系,促進(jìn)數(shù)據(jù)資產(chǎn)建設(shè)過程的不斷改進(jìn),提升數(shù)據(jù)資產(chǎn)管理的水平,提升數(shù)據(jù)資產(chǎn)的價(jià)值。
數(shù)據(jù)資產(chǎn)管理與數(shù)據(jù)治理的關(guān)系
DAMA和DCMM對數(shù)據(jù)治理的定義都是:數(shù)據(jù)治理(Data Governance,DG)是指對數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動集合(規(guī)劃、監(jiān)督和執(zhí)行)。傳統(tǒng)的數(shù)據(jù)治理內(nèi)容通常包含:數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理、數(shù)據(jù)生命周期管理等內(nèi)容。 本文沿用的中國信通院對數(shù)據(jù)資產(chǎn)管理的定義是:規(guī)劃、控制和提供數(shù)據(jù)及信息資產(chǎn)的一組業(yè)務(wù)職能,包括開發(fā)、執(zhí)行和監(jiān)督有關(guān)數(shù)據(jù)的計(jì)劃、政策、方案、項(xiàng)目、流程、方法和程序,從而控制、保護(hù)、交付和提高數(shù)據(jù)資產(chǎn)的價(jià)值。 從上面兩段描述看出,數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)管理的定義有異曲同工之處,它們圍繞的對象都是數(shù)據(jù)資產(chǎn)。而中國信通院在《數(shù)據(jù)資產(chǎn)管理實(shí)踐白皮書4.0》中闡述的數(shù)據(jù)資產(chǎn)管理八大職能中,諸如數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理等,同時(shí)也屬于傳統(tǒng)數(shù)據(jù)治理的必要工作內(nèi)容。數(shù)據(jù)資產(chǎn)管理在傳統(tǒng)數(shù)據(jù)治理的基礎(chǔ)上,加入了數(shù)據(jù)價(jià)值管理、數(shù)據(jù)共享管理等內(nèi)容。 近些年的發(fā)展來看,數(shù)據(jù)治理的目標(biāo)正從“以質(zhì)量管理為主”,過渡到“質(zhì)量管理與服務(wù)并重”?;谏厦娴恼撌?,作者認(rèn)為,數(shù)據(jù)資產(chǎn)管理就是傳統(tǒng)的數(shù)據(jù)治理的升級版,可以認(rèn)為是數(shù)據(jù)治理2.0。數(shù)據(jù)資產(chǎn)管理與數(shù)據(jù)治理之間的關(guān)系可以用下圖來表示。 在本文中,不再另外闡述數(shù)據(jù)治理的內(nèi)容。
數(shù)據(jù)資產(chǎn)門戶
1、數(shù)據(jù)資產(chǎn)地圖
數(shù)據(jù)資產(chǎn)地圖為用戶提供多層次、多視角的數(shù)據(jù)資產(chǎn)圖形化呈現(xiàn)形式。數(shù)據(jù)資產(chǎn)地圖讓用戶用最直觀的方式,掌握數(shù)據(jù)資產(chǎn)的概況,如數(shù)據(jù)總量、每日數(shù)據(jù)增量、數(shù)據(jù)資產(chǎn)質(zhì)量的整體狀況、數(shù)據(jù)資產(chǎn)的分類情況、數(shù)據(jù)資產(chǎn)的分布情況、數(shù)據(jù)資產(chǎn)的冷熱度排名、各個(gè)業(yè)務(wù)域及系統(tǒng)之間的數(shù)據(jù)流動關(guān)系等。
2、數(shù)據(jù)資產(chǎn)目錄
數(shù)據(jù)資產(chǎn)目錄通過對數(shù)據(jù)資產(chǎn)良好地組織,為用戶帶來直觀的體驗(yàn),可以使用戶花較少的時(shí)間查找到自己關(guān)心的數(shù)據(jù)資產(chǎn)。 數(shù)據(jù)資產(chǎn)目錄的組織方式靈活多樣,常見的有按業(yè)務(wù)域組織、按數(shù)據(jù)來源組織、按數(shù)據(jù)類型組織。 根據(jù)用戶角色的不同,數(shù)據(jù)資產(chǎn)目錄有多種展現(xiàn)視角,概括來講,有這三類用戶角色:數(shù)據(jù)資產(chǎn)開發(fā)者、數(shù)據(jù)資產(chǎn)管理者、數(shù)據(jù)資產(chǎn)使用者。 數(shù)據(jù)資產(chǎn)開發(fā)者關(guān)注當(dāng)前開發(fā)的數(shù)據(jù)資產(chǎn)是否有重復(fù),是否有準(zhǔn)確的定義,通過數(shù)據(jù)資產(chǎn)目錄,數(shù)據(jù)資產(chǎn)開發(fā)者可以將自己負(fù)責(zé)開發(fā)的數(shù)據(jù)資產(chǎn)發(fā)布到合理的資產(chǎn)目錄下。 數(shù)據(jù)資產(chǎn)管理者必須掌握數(shù)據(jù)資產(chǎn)的全局情況,包括擁有哪些數(shù)據(jù)資產(chǎn)、數(shù)據(jù)資產(chǎn)分布在哪里、數(shù)據(jù)資產(chǎn)的質(zhì)量情況、數(shù)據(jù)資產(chǎn)的使用情況等。數(shù)據(jù)資產(chǎn)管理者通過對數(shù)據(jù)資產(chǎn)的合理授權(quán),控制數(shù)據(jù)資產(chǎn)的使用。 數(shù)據(jù)資產(chǎn)使用者關(guān)心數(shù)據(jù)是什么、數(shù)據(jù)在哪里、如何獲取到數(shù)據(jù)。通過數(shù)據(jù)資產(chǎn)目錄和獲取到的合理授權(quán),數(shù)據(jù)資產(chǎn)使用者能快速定位到自己需要的數(shù)據(jù)資產(chǎn),掌握數(shù)據(jù)資產(chǎn)的存在形式是什么(結(jié)構(gòu)化還是半結(jié)構(gòu)化),如何獲取到自己想要的數(shù)據(jù),評估現(xiàn)有的數(shù)據(jù)資產(chǎn)能否滿足所建應(yīng)用的需要。 3、數(shù)據(jù)資產(chǎn)檢索 數(shù)據(jù)資產(chǎn)檢索服務(wù)為用戶提供一鍵式資產(chǎn)檢索服務(wù),通過對關(guān)鍵字的匹配,數(shù)據(jù)資產(chǎn)門戶檢索出相關(guān)的數(shù)據(jù)資產(chǎn)集,用戶可以根據(jù)所需,找到相關(guān)數(shù)據(jù)資產(chǎn),可以查看數(shù)據(jù)資產(chǎn)的名稱、創(chuàng)建者、業(yè)務(wù)語義、加工過程等詳情,幫助其理解和使用數(shù)據(jù)。
02 數(shù)據(jù)治理有哪些誤區(qū)?
大數(shù)據(jù)時(shí)代,數(shù)據(jù)成為社會和組織的寶貴資產(chǎn),像工業(yè)時(shí)代的石油和電力一樣驅(qū)動萬物,然而如果石油的雜質(zhì)太多,電流的電壓不穩(wěn),數(shù)據(jù)的價(jià)值豈不是大打折扣,甚至根本不可用,不敢用,因此,數(shù)據(jù)治理是大數(shù)據(jù)時(shí)代我們用好海量數(shù)據(jù)的必然選擇。
但大家都知道,數(shù)據(jù)治理是一項(xiàng)長期而繁雜的工作,可以說是大數(shù)據(jù)領(lǐng)域中的臟活累活,很多時(shí)候數(shù)據(jù)治理廠商做了很多工作,但客戶卻認(rèn)為沒有看到什么成果。大部分?jǐn)?shù)據(jù)治理咨詢項(xiàng)目都能交上一份讓客戶足夠滿意的答卷,但是當(dāng)把咨詢成果落地到實(shí)處的時(shí)候,因?yàn)榉N種原因,很可能是另一番截然不同的風(fēng)景。如何避免這種情況發(fā)生,是每一個(gè)做數(shù)據(jù)治理的企業(yè)都值得深思的問題。
可以說在業(yè)界,大家都為如何做好數(shù)據(jù)治理而感到困惑。 筆者涉獵大數(shù)據(jù)治理領(lǐng)域有6年多的時(shí)間,負(fù)責(zé)過政府、軍工、航空、大中型制造企業(yè)的數(shù)據(jù)治理項(xiàng)目。在實(shí)踐當(dāng)中有過成功的經(jīng)驗(yàn),當(dāng)然也經(jīng)歷過很多失敗的教訓(xùn),在這些過程中,筆者一直在思考大數(shù)據(jù)治理究竟是在治理什么?要達(dá)到什么樣的合理目標(biāo)?中間應(yīng)該怎么避免走一些彎路?下面是筆者曾經(jīng)趟過的坑,希望對大家有一些借鑒意義。誤區(qū)一:客戶需求不明確客戶既然請廠商來幫助自己做數(shù)據(jù)治理,必定是看到了自己的數(shù)據(jù)存在種種問題。但是做什么,怎么做,做多大的范圍,先做什么后做什么,達(dá)到什么樣的目標(biāo),業(yè)務(wù)部門、技術(shù)部門、廠商之間如何配合做……很多客戶其實(shí)并沒有想清楚自已真正想解決的問題。數(shù)據(jù)治理,難在找到一個(gè)切入點(diǎn)。 以筆者的經(jīng)驗(yàn)來看,如果客戶暫時(shí)想不清楚需求,建議先請廠商幫助自己做一個(gè)小型的咨詢項(xiàng)目,通過專業(yè)的團(tuán)隊(duì),大家一起找到切入點(diǎn)。這個(gè)咨詢項(xiàng)目工作的重點(diǎn)應(yīng)該是數(shù)據(jù)現(xiàn)狀的調(diào)研。通過調(diào)研數(shù)據(jù)架構(gòu)、現(xiàn)有的數(shù)據(jù)標(biāo)準(zhǔn)和執(zhí)行情況,數(shù)據(jù)質(zhì)量的現(xiàn)狀和痛點(diǎn),客戶目前已經(jīng)具有的數(shù)據(jù)治理能力現(xiàn)狀等,來摸清楚數(shù)據(jù)的家底。 在摸清家底的基礎(chǔ)上,由專業(yè)的數(shù)據(jù)治理團(tuán)隊(duì)幫助客戶設(shè)計(jì)切實(shí)可行的數(shù)據(jù)治理路線圖,雙方取得一致的基礎(chǔ)上,按照路線圖來執(zhí)行數(shù)據(jù)治理工作。 其實(shí)客戶很多時(shí)候并不是沒需求,只是需求相對比較籠統(tǒng),模糊不清晰,雙方可以花費(fèi)一定的時(shí)間和精力找到真正目標(biāo),磨刀不誤砍柴工,這樣才不致于后續(xù)花更多的錢來交學(xué)費(fèi)。 總結(jié):數(shù)據(jù)治理工作,一定要先摸清楚數(shù)據(jù)的家底,規(guī)劃好路線圖,切忌一上來就搭平臺。誤區(qū)二:數(shù)據(jù)治理是技術(shù)部門的事在大數(shù)據(jù)時(shí)代,很多組織認(rèn)識到了數(shù)據(jù)的價(jià)值,也成立了專門的團(tuán)隊(duì)來負(fù)責(zé)管理數(shù)據(jù),有的叫數(shù)據(jù)管理處,有的叫大數(shù)據(jù)中心,有的叫數(shù)據(jù)應(yīng)用處,名稱不一而足。這些機(jī)構(gòu)往往由技術(shù)人員組成,本身的定位也屬于技術(shù)部門,它們的共同點(diǎn)是:強(qiáng)技術(shù),弱業(yè)務(wù)。當(dāng)數(shù)據(jù)治理項(xiàng)目需要實(shí)施的時(shí)候,往往就是由這些技術(shù)部門來牽頭。技術(shù)部門大多是以數(shù)據(jù)中心或者大數(shù)據(jù)平臺為出發(fā)點(diǎn),受限于組織范圍,不希望擴(kuò)大到業(yè)務(wù)系統(tǒng),只希望把自已負(fù)責(zé)的范圍管好。 但數(shù)據(jù)問題產(chǎn)生的原因,往往是業(yè)務(wù)>技術(shù)??梢哉f大部分的數(shù)據(jù)質(zhì)量問題,都是來自于業(yè)務(wù),如:數(shù)據(jù)來源渠道多,責(zé)任不明確,導(dǎo)致同一份數(shù)據(jù)在不同的信息系統(tǒng)有不同的表述;業(yè)務(wù)需求不清晰,數(shù)據(jù)填報(bào)不規(guī)范或缺失,等等。很多表面上的技術(shù)問題,如ETL過程中某代號變更導(dǎo)致數(shù)據(jù)加工出錯(cuò),影響報(bào)表中的數(shù)據(jù)正確性等,在本質(zhì)上其實(shí)還是業(yè)務(wù)管理的不規(guī)范。 筆者在與很多客戶做數(shù)據(jù)治理交流的時(shí)候,發(fā)現(xiàn)大部分客戶認(rèn)識不到數(shù)據(jù)質(zhì)量問題發(fā)生的根本原因,只想從技術(shù)維度單方面來解決數(shù)據(jù)問題,這樣的思維方式導(dǎo)致客戶在規(guī)劃數(shù)據(jù)治理的時(shí)候,根本沒有考慮到建立一個(gè)涵蓋技術(shù)組、業(yè)務(wù)組的強(qiáng)有力的組織架構(gòu),能有效執(zhí)行的制度流程,導(dǎo)致效果大打折扣。 總結(jié):數(shù)據(jù)治理既是技術(shù)部門的事,更是業(yè)務(wù)部門的事,一定要建立多方共同參與的組織架構(gòu)和制度流程,數(shù)據(jù)治理的工作才能真正落實(shí)到人,不至于浮在表面。誤區(qū)三:大而全的數(shù)據(jù)治理出于投資回報(bào)的考慮,客戶往往傾向于做一個(gè)覆蓋全業(yè)務(wù)和技術(shù)域的,大而全的數(shù)據(jù)治理項(xiàng)目。從數(shù)據(jù)的產(chǎn)生,到數(shù)據(jù)的加工,應(yīng)用,銷毀,數(shù)據(jù)的整個(gè)生命周期他們希望都能管到。從業(yè)務(wù)系統(tǒng),到數(shù)據(jù)中心,到數(shù)據(jù)應(yīng)用,里面的每個(gè)數(shù)據(jù)他們希望都能被納入到數(shù)據(jù)治理的范圍中來。 但殊不知廣義上的數(shù)據(jù)治理是一個(gè)很大的概念,包括很多內(nèi)容,想在一個(gè)項(xiàng)目里就做完通常是不可能的,而是需要分期分批地實(shí)施,所以廠商如果屈從于客戶的這種想法,很容易導(dǎo)致最后哪個(gè)也做不好,用不起來。所以,我們需要引導(dǎo)客戶,從最核心的系統(tǒng),最重要的數(shù)據(jù)開始做數(shù)據(jù)治理。 怎么引導(dǎo)客戶呢?這里要引入一個(gè)眾所周知的概念:二八原則。實(shí)際上,二八原則在數(shù)據(jù)治理中同樣適用:80%的數(shù)據(jù)業(yè)務(wù),其實(shí)是靠20%的數(shù)據(jù)在支撐;同樣的,80%的數(shù)據(jù)質(zhì)量問題,其實(shí)是由那20%的系統(tǒng)和人產(chǎn)生的。在數(shù)據(jù)治理的過程中,如果能找出這20%的數(shù)據(jù),和這20%的系統(tǒng)和人,毫無疑問,將會起到事半功倍的效果。
但如何說服客戶,從最重要的數(shù)據(jù)開始做起呢?這就是我們在誤區(qū)一中談到的:在沒有摸清楚數(shù)據(jù)的家底之前,切忌貿(mào)然動手開始做。通過調(diào)研,分析,找出那20%的數(shù)據(jù)和20%的系統(tǒng)和人,提供真實(shí)可靠的分析報(bào)告,才有可能打動客戶,讓客戶接受先從核心系統(tǒng),核心數(shù)據(jù)開始做起,再漸漸覆蓋到其他領(lǐng)域。 總結(jié):做數(shù)據(jù)治理,不要貪大求全,而要從核心系統(tǒng),重要的數(shù)據(jù)開始做起。誤區(qū)四:工具是萬能的很多客戶都認(rèn)為,數(shù)據(jù)治理就是花一些錢,買一些工具,認(rèn)為工具就是一個(gè)過濾器,過濾器做好了,數(shù)據(jù)從中間一過,就沒問題了。結(jié)果是:一方面功能越做越多,另一方面實(shí)際上線后,功能復(fù)雜,用戶不愿意用。 其實(shí)上面的想法是一種簡單化的思維,數(shù)據(jù)治理本身包含很多的內(nèi)容,組織架構(gòu)、制度流程、成熟工具、現(xiàn)場實(shí)施和運(yùn)維,這四項(xiàng)缺一不可,工具只是其中一部分內(nèi)容。大家在做數(shù)據(jù)治理最容易忽視的就是組織架構(gòu)和人員配置,但實(shí)際上所有的活動流程、制度規(guī)范都需要人來執(zhí)行、落實(shí)和推動,沒有對人員的安排,后續(xù)工作很難得到保障。 一方面治理推廣工作沒人做,流程能否堅(jiān)持執(zhí)行得不到保障。另一方面沒有相關(guān)的數(shù)據(jù)治理培訓(xùn),導(dǎo)致大家對數(shù)據(jù)治理的工作不重視,認(rèn)為與我無關(guān),從而導(dǎo)致整個(gè)數(shù)據(jù)治理項(xiàng)目注定會失敗。建議大家在做數(shù)據(jù)治理的時(shí)候?qū)⒔M織架構(gòu)放在第一位,有組織的存在,就會有人去思考這方面的工作,怎么去推動,持續(xù)把事情做好,以人為中心的數(shù)據(jù)治理工作,才更容易推廣落地。 有一位國外的數(shù)據(jù)治理專家說得好,Data Governance is governance of people; Data behaves what people behave。翻譯過來就是:數(shù)據(jù)治理是對人的行為的治理。對于組織而言,無論是企業(yè)還是政府,數(shù)據(jù)治理實(shí)質(zhì)上是一項(xiàng)覆蓋全員的、有關(guān)數(shù)據(jù)的“變革管理”,會涉及到組織架構(gòu),管理流程的變革。
當(dāng)然,這是一種理想的狀態(tài)。話說回來,我們看看國內(nèi)的情況,在金融業(yè)和一些大的企業(yè),可能會建立專門的組織來負(fù)責(zé)數(shù)據(jù)治理工作,但是某些政府和中小型企業(yè),他們出于成本的考慮,往往沒有這方面的預(yù)算。這種時(shí)候就需要折衷考慮,讓已有崗位上的人,兼職負(fù)責(zé)數(shù)據(jù)治理的某個(gè)流程或功能。這樣會加大現(xiàn)有崗位人員的工作負(fù)擔(dān),但是不失為一種折衷的方式,重點(diǎn)是要責(zé)任到人。 現(xiàn)場的實(shí)施和運(yùn)維也非常重要,盡管數(shù)據(jù)治理有向自動化的方向發(fā)展的趨勢,但是到目前為止,數(shù)據(jù)治理更多還是一種服務(wù)工作,而不僅僅是一套產(chǎn)品。因此,配置足夠強(qiáng)的實(shí)施顧問和實(shí)施人員,幫助客戶逐步打造自身的數(shù)據(jù)治理能力,是一項(xiàng)非常重要的工作。 總結(jié):記住,做數(shù)據(jù)治理不是去逛逛shopping mall,選幾樣稱心應(yīng)手的工具回來就萬事大吉了。開展好數(shù)據(jù)治理不能迷信工具,組織架構(gòu)、制度流程、現(xiàn)場的實(shí)施和運(yùn)維也非常重要,缺一不可。誤區(qū)五:數(shù)據(jù)標(biāo)準(zhǔn)難落地很多客戶一說到數(shù)據(jù)治理,馬上就說我們有很多數(shù)據(jù)標(biāo)準(zhǔn),但是這些標(biāo)準(zhǔn)卻統(tǒng)統(tǒng)沒有落地,因此,我們要先做數(shù)據(jù)標(biāo)準(zhǔn)的落地。數(shù)據(jù)標(biāo)準(zhǔn)真正落地了,數(shù)據(jù)質(zhì)量自然就好了。 但這種說法其實(shí)混淆了數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)標(biāo)準(zhǔn)化。首先要明白一個(gè)道理:數(shù)據(jù)標(biāo)準(zhǔn)是一定要做的,但是數(shù)據(jù)標(biāo)準(zhǔn)化,也就是數(shù)據(jù)標(biāo)準(zhǔn)的落地,則需要分情況實(shí)施。 要做數(shù)據(jù)標(biāo)準(zhǔn),我們首先需要全面梳理數(shù)據(jù)標(biāo)準(zhǔn)。而數(shù)據(jù)標(biāo)準(zhǔn)的全面梳理,范圍很大,包括國家標(biāo)準(zhǔn),行業(yè)標(biāo)準(zhǔn),組織內(nèi)部的標(biāo)準(zhǔn)等等,需要花費(fèi)很大的精力,甚至都可以單獨(dú)立一個(gè)項(xiàng)目來做。所以,首先需要讓客戶看到梳理數(shù)據(jù)標(biāo)準(zhǔn)的廣度和難度。 其次,就算是花很大精力梳理,也很難看到效果,結(jié)果往往是客戶只看到了一堆Word和Excel文檔,時(shí)間一長,誰也不會再去關(guān)心這些陳舊的文檔。這是最普遍的問題。 在金融業(yè),或者像國家安全等一些特殊行業(yè),數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行力度較好,而在政府和普通企業(yè),數(shù)據(jù)標(biāo)準(zhǔn)基本上就是一種擺設(shè)。 造成這種問題的原因有兩個(gè): 一是大家對數(shù)據(jù)標(biāo)準(zhǔn)工作的不重視。 二是國內(nèi)的企業(yè)做數(shù)據(jù)標(biāo)準(zhǔn),動機(jī)往往不是為了做好數(shù)據(jù)治理,而是應(yīng)付上級檢查,很多都是請咨詢公司,借鑒同行業(yè)企業(yè)的標(biāo)準(zhǔn)本地化修改而成,一旦咨詢公司撤離,企業(yè)本身是沒有數(shù)據(jù)標(biāo)準(zhǔn)落地的能力的。 但數(shù)據(jù)標(biāo)準(zhǔn)的落地,也就是數(shù)據(jù)標(biāo)準(zhǔn)化,其實(shí)一定要注意分情況進(jìn)行,至少要分兩種情形: 一類是已經(jīng)上線運(yùn)行的系統(tǒng),對于這部分信息系統(tǒng),由于歷史原因,很難進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的落地。因?yàn)楦脑煲延邢到y(tǒng),除了成本以外,往往還會帶來不可知的巨大風(fēng)險(xiǎn)。 第二類是對于新上線的系統(tǒng),是完全可以要求其數(shù)據(jù)項(xiàng)嚴(yán)格按照數(shù)據(jù)標(biāo)準(zhǔn)落地的。 當(dāng)然,數(shù)據(jù)標(biāo)準(zhǔn)是否能順利落地,還與負(fù)責(zé)數(shù)據(jù)治理的部門所獲得的權(quán)限直接相關(guān),倘若沒有領(lǐng)導(dǎo)的授權(quán)和強(qiáng)力支持,你是無論如何無法推動“書同文車同軌”的,要做到這一點(diǎn),請先確認(rèn)你背后站著說一不二的秦始皇,或者你本身就是秦始皇。別抱怨,這就是每個(gè)做數(shù)據(jù)治理的團(tuán)隊(duì)面臨的現(xiàn)狀。
總結(jié):數(shù)據(jù)標(biāo)準(zhǔn)落地難是數(shù)據(jù)治理中的普遍性問題,實(shí)施過程中需要區(qū)要分遺留系統(tǒng)和新建系統(tǒng),分別來執(zhí)行不同的落地策略。誤區(qū)六:數(shù)據(jù)質(zhì)量問題找出來了,然后呢?辛辛苦苦建立起來平臺,業(yè)務(wù)和技術(shù)人員通力合作,配置好了數(shù)據(jù)質(zhì)量的檢核規(guī)則,也找出來了一大堆的數(shù)據(jù)質(zhì)量問題,然后呢?半年之后,一年之后,同樣的數(shù)據(jù)質(zhì)量問題依舊存在。 發(fā)生這種問題的根源在于沒有形成數(shù)據(jù)質(zhì)量問責(zé)的閉環(huán)。要做到數(shù)據(jù)質(zhì)量問題的問責(zé),首先需要做到數(shù)據(jù)質(zhì)量問題的定責(zé)。定責(zé)的基本原則是:誰生產(chǎn),誰負(fù)責(zé)。數(shù)據(jù)是從誰那里出來的,誰負(fù)責(zé)處理數(shù)據(jù)質(zhì)量問題。 這種閉環(huán)不一定非要走線上流程,但是一定要做到每一個(gè)問題都有人負(fù)責(zé),每一個(gè)問題都必須反饋處理方案,處理的效果最好是能夠形成績效評估,如通過排名的方式,來督促各責(zé)任人和責(zé)任部門處理數(shù)據(jù)質(zhì)量問題。
這其實(shí)還是要追溯到我們在誤區(qū)二里談到的:要建立組織架構(gòu)和制度流程,否則數(shù)據(jù)治理工作中的種種事情,沒有人負(fù)責(zé),沒有人去做??偨Y(jié):數(shù)據(jù)質(zhì)量問題的解決,要形成每一個(gè)環(huán)節(jié)都有確定責(zé)任人的閉環(huán)機(jī)制和反饋機(jī)制。
誤區(qū)七:你們好像什么也沒做?很多數(shù)據(jù)治理的項(xiàng)目難驗(yàn)收,客戶往往有疑問:你們做數(shù)據(jù)治理究竟干了些啥?看你們匯報(bào)說干了一大堆事情,我們怎么什么都看不到?發(fā)生這種情況,原因往往有前面誤區(qū)一所說的客戶需求不明確,誤區(qū)三所說的做了大而全的數(shù)據(jù)治理而難以收尾等,但還有一個(gè)原因不容忽視,那就是沒有讓客戶感知到數(shù)據(jù)治理的成果。用戶缺乏對數(shù)據(jù)治理成果的感知,導(dǎo)致數(shù)據(jù)治理缺乏存在感,特別是用戶方的領(lǐng)導(dǎo)決策層,自然不會痛快地對項(xiàng)目進(jìn)行驗(yàn)收。 遇到這種情況,一句“寶寶心里苦,但寶寶不說”是無濟(jì)于事的。一個(gè)項(xiàng)目從銷售、售前、到組織團(tuán)隊(duì)實(shí)施,多少人付出了辛勤的汗水。重要的是讓客戶認(rèn)識到項(xiàng)目的重要價(jià)值,最終為所有人的付出買單啊。 在我看來,在數(shù)據(jù)治理的項(xiàng)目需求階段,就應(yīng)該堅(jiān)持業(yè)務(wù)價(jià)值導(dǎo)向,把數(shù)據(jù)治理的目的定位在有效地對數(shù)據(jù)資產(chǎn)進(jìn)行管理,確保其準(zhǔn)確、可信、可感知、可理解、易獲取,為大數(shù)據(jù)應(yīng)用和領(lǐng)導(dǎo)決策提供數(shù)據(jù)支撐。并且在這個(gè)過程中,一定要重視并設(shè)計(jì)數(shù)據(jù)治理的可視化呈現(xiàn)效果,諸如: 管理了多少元數(shù)據(jù),是否應(yīng)該用數(shù)據(jù)資產(chǎn)地圖漂亮地展示出來。 管理了多少數(shù)據(jù)資產(chǎn),哪些來源,哪些主題,來自于什么數(shù)據(jù)源,是否應(yīng)該用數(shù)據(jù)資產(chǎn)門戶的方式展示出來。 數(shù)據(jù)資產(chǎn)用什么方式對上層應(yīng)用提供服務(wù),這些對外服務(wù)是如何管控的,誰使用了數(shù)據(jù),用了多少數(shù)據(jù),是否應(yīng)該用圖形化的方式進(jìn)行統(tǒng)計(jì)和展現(xiàn)。 建立了多少條清洗數(shù)據(jù)的規(guī)則,清洗了多少類數(shù)據(jù),是否應(yīng)該用圖表展示出來。 發(fā)現(xiàn)了多少條問題數(shù)據(jù),處理了多少條問題數(shù)據(jù),是否應(yīng)該有一個(gè)不斷更新的統(tǒng)計(jì)數(shù)字來表示。 數(shù)據(jù)質(zhì)量問題逐月減少的趨勢,是否應(yīng)該用趨勢圖展現(xiàn)出來。 數(shù)據(jù)質(zhì)量問題根據(jù)部門、系統(tǒng)的排名,是否應(yīng)該加在數(shù)據(jù)質(zhì)量報(bào)告中,提供給決策層,幫助客戶進(jìn)行績效考核。 數(shù)據(jù)分析、報(bào)表等應(yīng)用,因?yàn)閿?shù)據(jù)問題而必須回溯來源和加工過程的次數(shù),是否應(yīng)該統(tǒng)計(jì)逐月下降的趨勢;之前的回溯方式,和現(xiàn)在通過血緣管理更清楚地定位問題數(shù)據(jù)產(chǎn)生的環(huán)節(jié),這兩者之間進(jìn)行對比,節(jié)省了客戶多少時(shí)間和精力,是否應(yīng)該有一個(gè)公平的評估,并提交給客戶。 用戶之前找數(shù)據(jù)平均使用的時(shí)間,現(xiàn)在找數(shù)據(jù)平均需要的時(shí)間,是否能通過訪談的方式得到公平的結(jié)論,提交給客戶。 …… 以上這些都是提升數(shù)據(jù)治理存在感的手段。除了這些之外,時(shí)常組織交流和培訓(xùn),引導(dǎo)客戶認(rèn)識到數(shù)據(jù)治理的重要性,讓客戶真正認(rèn)識到數(shù)據(jù)治理工作對他們業(yè)務(wù)的促進(jìn)作用,逐步轉(zhuǎn)移數(shù)據(jù)治理的能力給客戶等,這些都是平時(shí)需要注意的工作。 總結(jié):傳統(tǒng)的數(shù)據(jù)治理工作不重視效果的呈現(xiàn),我們做數(shù)據(jù)治理工作,一定要從需求開始,就想辦法讓客戶直觀地看到成果。 在激烈的市場競爭下,大數(shù)據(jù)廠商提出來數(shù)據(jù)治理的各種理念,有的提出覆蓋數(shù)據(jù)全生命周期的數(shù)據(jù)治理,有的提出以用戶為中心的自服務(wù)化數(shù)據(jù)治理,有的提出減少人工干預(yù)、節(jié)省成本的基于人工智能的自動化數(shù)據(jù)治理,在面對這些概念的時(shí)候,我們一方面要對數(shù)據(jù)現(xiàn)狀有清晰的認(rèn)識,對數(shù)據(jù)治理的目標(biāo)有明確的訴求,另一方面還要知道數(shù)據(jù)治理中各種常見的誤區(qū),跨越這些陷阱,才能把數(shù)據(jù)治理工作真正落到實(shí)處,項(xiàng)目取得成效,做到數(shù)據(jù)更準(zhǔn)確,數(shù)據(jù)更好取,數(shù)據(jù)更好用,真正地用數(shù)據(jù)提升業(yè)務(wù)水平。
03數(shù)據(jù)治理之元數(shù)據(jù)管理
從關(guān)于元數(shù)據(jù)的三個(gè)概念談起,講到元數(shù)據(jù)的分布范圍和如何獲取元數(shù)據(jù),最后從幾個(gè)常見的應(yīng)用出發(fā),談?wù)勗獢?shù)據(jù)的一些實(shí)際應(yīng)用場景。
一、元數(shù)據(jù)到底是個(gè)啥?
元數(shù)據(jù)是一個(gè)相當(dāng)抽象、不易理解的概念,所以第一個(gè)章節(jié),我們先把元數(shù)據(jù)是什么搞懂。這一章節(jié)共提出三個(gè)概念。 1、元數(shù)據(jù)(Meta Data)是描述數(shù)據(jù)的數(shù)據(jù)。 這是元數(shù)據(jù)的標(biāo)準(zhǔn)定義,但這么說有些抽象,技術(shù)同學(xué)能聽懂,倘若聽眾缺乏相應(yīng)的技術(shù)背景,可能當(dāng)場就懵逼了。產(chǎn)生這個(gè)問題的根源其實(shí)是一個(gè)知識的詛咒:我們知道某件事情,向不了解的人描述時(shí)卻很難講清楚。
要破解這個(gè)詛咒,我們不妨借用一個(gè)比喻來描述元數(shù)據(jù):元數(shù)據(jù)是數(shù)據(jù)的戶口本。讓我們想想一個(gè)人的戶口本是什么,是這個(gè)人的信息登記冊:上面有這個(gè)人的姓名,年齡,性別、身份證號碼,住址、原籍、何時(shí)從何地遷入等等,除了這些基本的描述信息之外,還有這個(gè)人和家人的血緣關(guān)系,比如說父子,兄妹等等。所有的這些信息加起來,構(gòu)成對這個(gè)人的全面描述。那么所有的這些信息,我們都可以稱之為這個(gè)人的元數(shù)據(jù)。 同樣的,如果我們要描述清楚一個(gè)實(shí)際的數(shù)據(jù),以某張表為例,我們需要知道表名、表別名、表的所有者、數(shù)據(jù)存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其他表之間的關(guān)系等等。所有的這些信息加起來,就是這張表的元數(shù)據(jù)。 這么一類比,我們對元數(shù)據(jù)的概念可能就清楚很多了:元數(shù)據(jù)是數(shù)據(jù)的戶口本。 2、元數(shù)據(jù)管理,是數(shù)據(jù)治理的核心和基礎(chǔ)。 為什么我們說元數(shù)據(jù)管理是數(shù)據(jù)治理的核心和基礎(chǔ)?為什么在做數(shù)據(jù)治理的時(shí)候要先做元數(shù)據(jù)管理?它的地位為何如此特殊? 讓我們想象一下,一位將軍要去打仗,他必不可少,必須要掌握的信息是什么?對,是戰(zhàn)場的地圖。很難相信手里沒有軍事地圖的一位將軍能打勝仗。而元數(shù)據(jù)就相當(dāng)于是所有數(shù)據(jù)的一張地圖。 在這張關(guān)于數(shù)據(jù)的地圖中,我們可以知道: 我們有哪些數(shù)據(jù)? 數(shù)據(jù)分布在哪里? 這些數(shù)據(jù)分別是什么類型? 數(shù)據(jù)之間有什么關(guān)系? 哪些數(shù)據(jù)經(jīng)常被引用?哪些數(shù)據(jù)無人光顧? …… 所有的這些信息,都可以從元數(shù)據(jù)中找到。如果我們要做數(shù)據(jù)治理,但是手里卻沒有掌握這張地圖,做數(shù)據(jù)治理就猶如是瞎子摸象。后續(xù)的文章中我們要講到的數(shù)據(jù)資產(chǎn)管理,知識圖譜,其實(shí)它們大部分也是建立在元數(shù)據(jù)之上的。所以我們說:元數(shù)據(jù)是一個(gè)組織內(nèi)的數(shù)據(jù)地圖,它是數(shù)據(jù)治理的核心和基礎(chǔ)。 3、元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),那么有沒有描述元數(shù)據(jù)的數(shù)據(jù)? 有。描述元數(shù)據(jù)的數(shù)據(jù)叫元模型(Meta Model)。元模型、元數(shù)據(jù)、數(shù)據(jù)之間的關(guān)系,可以用下面這張圖來描述。
對于元模型的概念,我們不做深入的討論。我們只需要知道下面這些: 元數(shù)據(jù)本身的數(shù)據(jù)結(jié)構(gòu)也是需要被定義和規(guī)范的,定義和規(guī)范元數(shù)據(jù)的就是元模型,國際上元模型的標(biāo)準(zhǔn)是CWM(Common Warehouse Metamodel,公共倉庫元模型),一個(gè)成熟的元數(shù)據(jù)管理工具,需要支持CWM標(biāo)準(zhǔn)。
二、元數(shù)據(jù)是從哪里來的?
在大數(shù)據(jù)平臺中,元數(shù)據(jù)貫穿大數(shù)據(jù)平臺數(shù)據(jù)流動的全過程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過程元數(shù)據(jù)、數(shù)據(jù)主題庫專題庫元數(shù)據(jù)、服務(wù)層元數(shù)據(jù)、應(yīng)用層元數(shù)據(jù)等。下圖以一個(gè)數(shù)據(jù)中心為例,展示了元數(shù)據(jù)的分布范圍:
業(yè)內(nèi)通常把元數(shù)據(jù)分為以下類型: 技術(shù)元數(shù)據(jù):庫表結(jié)構(gòu)、字段約束、數(shù)據(jù)模型、ETL程序、SQL程序等。 業(yè)務(wù)元數(shù)據(jù):業(yè)務(wù)指標(biāo)、業(yè)務(wù)代碼、業(yè)務(wù)術(shù)語等。 管理元數(shù)據(jù):數(shù)據(jù)所有者、數(shù)據(jù)質(zhì)量定責(zé)、數(shù)據(jù)安全等級等。 元數(shù)據(jù)采集是指獲取數(shù)據(jù)生命周期中的元數(shù)據(jù),對元數(shù)據(jù)進(jìn)行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫中的過程。 要獲取到元數(shù)據(jù),需要采取多種方式,在采集方式上,使用包括數(shù)據(jù)庫直連、接口、日志文件等技術(shù)手段,對結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)字典、非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)信息、業(yè)務(wù)指標(biāo)、代碼、數(shù)據(jù)加工過程等元數(shù)據(jù)信息進(jìn)行自動化和手動采集。 元數(shù)據(jù)采集完成后,被組織成符合CWM模型的結(jié)構(gòu),存儲在關(guān)系型數(shù)據(jù)庫中。
三、有了元數(shù)據(jù),我們能做些什么?
這一章節(jié)我們主要講元數(shù)據(jù)的幾個(gè)典型的應(yīng)用。 先看一張?jiān)獢?shù)據(jù)管理的整體功能架構(gòu)圖,有了元數(shù)據(jù),我們能做些什么,從這張圖里一目了然:
1.元數(shù)據(jù)查看 一般是以樹形結(jié)構(gòu)組織元數(shù)據(jù),按不同類型對元數(shù)據(jù)進(jìn)行瀏覽和檢索。如我們可以瀏覽表的結(jié)構(gòu)、字段信息、數(shù)據(jù)模型、指標(biāo)信息等。通過合理的權(quán)限分配,元數(shù)據(jù)查看可以大大提升信息在組織內(nèi)的共享。 2.數(shù)據(jù)血緣和影響性分析 數(shù)據(jù)血緣和影響性分析主要解決“數(shù)據(jù)之間有什么關(guān)系”的問題。因其重要價(jià)值,有的廠商會從元數(shù)據(jù)管理中單獨(dú)提取出來,作為一個(gè)獨(dú)立的重要功能。但是筆者考慮到數(shù)據(jù)血緣和影響性分析其實(shí)是來自于元數(shù)據(jù)信息,所以還是放在元數(shù)據(jù)管理中來描述。 血緣分析指的是取到數(shù)據(jù)的血緣關(guān)系,以歷史事實(shí)的方式記錄數(shù)據(jù)的來源,處理過程等。 以某張表的血緣關(guān)系為例,血緣分析展示如下信息:
數(shù)據(jù)血緣分析對于用戶具有重要的價(jià)值,如:當(dāng)在數(shù)據(jù)分析中發(fā)現(xiàn)問題數(shù)據(jù)的時(shí)候,可以依賴血緣關(guān)系,追根溯源,快速地定位到問題數(shù)據(jù)的來源和加工流程,減少分析的時(shí)間和難度。 數(shù)據(jù)血緣分析的典型應(yīng)用場景:某業(yè)務(wù)人員發(fā)現(xiàn)“月度營銷分析”報(bào)表數(shù)據(jù)存在質(zhì)量問題,于是向IT部門提出異議,技術(shù)人員通過元數(shù)據(jù)血緣分析發(fā)現(xiàn)“月度營銷分析”報(bào)表受到上游FDM層四張不同的數(shù)據(jù)表的影響,從而快速定位問題的源頭,低成本地解決問題。 除了血緣分析之外,還有一種影響性分析,它能分析出數(shù)據(jù)的下游流向。當(dāng)系統(tǒng)進(jìn)行升級改造的時(shí)候,如果修改了數(shù)據(jù)結(jié)構(gòu)、ETL程序等元數(shù)據(jù)信息,依賴數(shù)據(jù)的影響性分析,可以快速定位出元數(shù)據(jù)修改會影響到哪些下游系統(tǒng),從而減少系統(tǒng)升級改造帶來的風(fēng)險(xiǎn)。從上面的描述可以知道:數(shù)據(jù)影響性分析和血緣分析正好相反,血緣分析指向數(shù)據(jù)的上游來源,影響性分析指向數(shù)據(jù)的下游。 影響性分析的典型應(yīng)用場景:某機(jī)構(gòu)因業(yè)務(wù)系統(tǒng)升級,在“FINAL_ZENT ”表中修改了字段:TRADE_ACCORD長度由8修改為64,需要分析本次升級對后續(xù)相關(guān)系統(tǒng)的影響。對元數(shù)據(jù)“FINAL_ZENT”進(jìn)行影響性分析,發(fā)現(xiàn)對下游DW層相關(guān)的表和ETL程序都有影響,IT部門定位到影響之后,及時(shí)修改下游的相應(yīng)程序和表結(jié)構(gòu),避免了問題的發(fā)生。由此可見,數(shù)據(jù)的影響性分析有利于快速鎖定元數(shù)據(jù)變更帶來的影響,將可能發(fā)生的問題提前消滅在萌芽之中。 3.數(shù)據(jù)冷熱度分析 冷熱度分析主要是對數(shù)據(jù)表的被使用情況進(jìn)行統(tǒng)計(jì),如:表與ETL程序、表與分析應(yīng)用、表與其他表的關(guān)系情況等,從訪問頻次和業(yè)務(wù)需求角度出發(fā),進(jìn)行數(shù)據(jù)冷熱度分析,用圖表的方式,展現(xiàn)表的重要性指數(shù)。 數(shù)據(jù)的冷熱度分析對于用戶有巨大的價(jià)值,典型應(yīng)用場景:我們觀察到某些數(shù)據(jù)資源處于長期閑置,沒有被任何應(yīng)用調(diào)用,也沒有別的程序去使用的狀態(tài),這時(shí)候,用戶就可以參考數(shù)據(jù)的冷熱度報(bào)告,結(jié)合人工分析,對冷熱度不同的數(shù)據(jù)做分層存儲,以更好地利用HDFS資源,或者評估是否對失去價(jià)值的這部分?jǐn)?shù)據(jù)做下線處理,以節(jié)省數(shù)據(jù)存儲空間。 4.數(shù)據(jù)資產(chǎn)地圖 通過對元數(shù)據(jù)的加工,可以形成數(shù)據(jù)資產(chǎn)地圖等應(yīng)用。數(shù)據(jù)資產(chǎn)地圖一般用于在宏觀層面組織信息,以全局視角對信息進(jìn)行歸并、整理,展現(xiàn)數(shù)據(jù)量、數(shù)據(jù)變化情況、數(shù)據(jù)存儲情況、整體數(shù)據(jù)質(zhì)量等信息,為數(shù)據(jù)管理部門和決策者提供參考。 5.元數(shù)據(jù)管理的其他應(yīng)用 元數(shù)據(jù)管理中還有其他一些重要功能,如: 元數(shù)據(jù)變更管理。對元數(shù)據(jù)的變更歷史進(jìn)行查詢,對變更前后的版本進(jìn)行比對等等。 元數(shù)據(jù)對比分析。對相似的元數(shù)據(jù)進(jìn)行比對。 元數(shù)據(jù)統(tǒng)計(jì)分析。用于統(tǒng)計(jì)各類元數(shù)據(jù)的數(shù)量,如各類數(shù)據(jù)的種類,數(shù)量等,方便用戶掌握元數(shù)據(jù)的匯總信息。 諸如此類的應(yīng)用,限于篇幅,不一一列舉。 四、總結(jié) 元數(shù)據(jù)就相當(dāng)于是數(shù)據(jù)的戶口本和地圖,是數(shù)據(jù)治理的核心和基礎(chǔ)。 元數(shù)據(jù)產(chǎn)生于從數(shù)據(jù)生產(chǎn)、數(shù)據(jù)接入、數(shù)據(jù)加工、數(shù)據(jù)服務(wù)到數(shù)據(jù)應(yīng)用的各個(gè)環(huán)節(jié),整體上可以分為三類:技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)。 元數(shù)據(jù)采集入庫后,可以產(chǎn)生冷熱度分析、血緣關(guān)系分析、影響性分析,數(shù)據(jù)資產(chǎn)地圖等應(yīng)用。元數(shù)據(jù)管理可以讓數(shù)據(jù)被描述得更加清晰,更容易被理解,被追溯,更容易評估其價(jià)值和影響力。元數(shù)據(jù)管理還可以大大促進(jìn)信息在組織內(nèi)外的共享。
04數(shù)據(jù)治理之?dāng)?shù)據(jù)質(zhì)量管理
數(shù)據(jù)治理的理論和實(shí)踐不斷向前發(fā)展,但數(shù)據(jù)質(zhì)量管理始終是數(shù)據(jù)治理的初衷,也是最重要的目的。下面從數(shù)據(jù)質(zhì)量管理的目標(biāo),質(zhì)量問題產(chǎn)生的根源,質(zhì)量評估標(biāo)準(zhǔn),質(zhì)量管理流程,質(zhì)量管理的取與舍幾個(gè)方面進(jìn)行闡述。
一、數(shù)據(jù)質(zhì)量管理的目標(biāo)
數(shù)據(jù)質(zhì)量管理主要解決“數(shù)據(jù)質(zhì)量現(xiàn)狀如何,誰來改進(jìn),如何提高,怎樣考核”的問題。 為什么這篇文章的標(biāo)題中有“不忘初心方得始終”這幾個(gè)字呢。因?yàn)樽铋_始的關(guān)系型數(shù)據(jù)庫時(shí)代,做數(shù)據(jù)治理最主要的目的,就是為了提升數(shù)據(jù)質(zhì)量,讓報(bào)表、分析、應(yīng)用更加準(zhǔn)確。時(shí)至今日,雖然數(shù)據(jù)治理的范疇擴(kuò)大了很多,我們開始講數(shù)據(jù)資產(chǎn)管理、知識圖譜、自動化的數(shù)據(jù)治理等等概念,但是提升數(shù)據(jù)的質(zhì)量,依然是數(shù)據(jù)治理最重要的目標(biāo)之一。 為什么數(shù)據(jù)質(zhì)量問題如此重要? 因?yàn)閿?shù)據(jù)要能發(fā)揮其價(jià)值,關(guān)鍵在于其數(shù)據(jù)的質(zhì)量的高低,高質(zhì)量的數(shù)據(jù)是一切數(shù)據(jù)應(yīng)用的基礎(chǔ)。 如果一個(gè)組織根據(jù)劣質(zhì)的數(shù)據(jù)分析業(yè)務(wù)、進(jìn)行決策,那還不如沒有數(shù)據(jù),因?yàn)橥ㄟ^錯(cuò)誤的數(shù)據(jù)分析出的結(jié)果往往會帶來“精確的誤導(dǎo)”,對于任何組織來說,這種“精確誤導(dǎo)”都無異于一場災(zāi)難。 根據(jù)統(tǒng)計(jì),數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析員每天有30%的時(shí)間浪費(fèi)在了辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上,在數(shù)據(jù)質(zhì)量不高的環(huán)境下,做數(shù)據(jù)分析可謂是戰(zhàn)戰(zhàn)兢兢??梢姅?shù)據(jù)質(zhì)量問題已經(jīng)嚴(yán)重影響了組織業(yè)務(wù)的正常運(yùn)營。通過科學(xué)的數(shù)據(jù)質(zhì)量管理,持續(xù)地提升數(shù)據(jù)質(zhì)量,已經(jīng)成為組織內(nèi)刻不容緩的優(yōu)先任務(wù)。
二、數(shù)據(jù)質(zhì)量問題產(chǎn)生的根源
做數(shù)據(jù)質(zhì)量管理,首先要搞清楚數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因。原因有多方面,比如在技術(shù)、管理、流程方面都會碰到。但從根本上來時(shí),數(shù)據(jù)質(zhì)量問題產(chǎn)生的大部分原因在于業(yè)務(wù)上,也就是管理不善。許多表面上的技術(shù)問題,深究下去,其實(shí)還是業(yè)務(wù)問題。 筆者在給客戶做數(shù)據(jù)治理咨詢的時(shí)候,發(fā)現(xiàn)很多客戶認(rèn)識不到數(shù)據(jù)質(zhì)量問題產(chǎn)生的根本原因,局限于只想從技術(shù)角度來解決問題,希望通過購買某個(gè)工具就能解決質(zhì)量問題,這當(dāng)然達(dá)不到理想的效果。經(jīng)過和客戶交流以及雙方共同分析之后,大部分組織都能認(rèn)識到數(shù)據(jù)質(zhì)量問題產(chǎn)生的真正根源,從而開始從業(yè)務(wù)著手解決數(shù)據(jù)質(zhì)量問題了。 從業(yè)務(wù)角度著手解決數(shù)據(jù)質(zhì)量問題,重要的是建立一套科學(xué)、可行的數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn)和管理流程。
三、數(shù)據(jù)質(zhì)量評估的標(biāo)準(zhǔn)
當(dāng)我們談到數(shù)據(jù)質(zhì)量管理的時(shí)候,我們必須要有一個(gè)數(shù)據(jù)質(zhì)量評估的標(biāo)準(zhǔn),有了這個(gè)標(biāo)準(zhǔn),我們才能知道如何評估數(shù)據(jù)的質(zhì)量,才能把數(shù)據(jù)質(zhì)量量化,并知道改進(jìn)的方向,比較改進(jìn)后的效果。 目前業(yè)內(nèi)認(rèn)可的數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)有:
準(zhǔn)確性: 描述數(shù)據(jù)是否與其對應(yīng)的客觀實(shí)體的特征相一致。
完整性: 描述數(shù)據(jù)是否存在缺失記錄或缺失字段。
一致性: 描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。
有效性: 描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。
唯一性: 描述數(shù)據(jù)是否存在重復(fù)記錄。
及時(shí)性: 描述數(shù)據(jù)的產(chǎn)生和供應(yīng)是否及時(shí)。
穩(wěn)定性: 描述數(shù)據(jù)的波動是否是穩(wěn)定的,是否在其有效范圍內(nèi)。
以上數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)只是一些通用的規(guī)則,這些標(biāo)準(zhǔn)是可以根據(jù)數(shù)據(jù)的實(shí)際情況和業(yè)務(wù)要求進(jìn)行擴(kuò)展的,如交叉表校驗(yàn)等。
四、數(shù)據(jù)質(zhì)量管理的流程
要提升數(shù)據(jù)質(zhì)量,需要以問題數(shù)據(jù)為切入點(diǎn),注重問題的分析、解決、跟蹤、持續(xù)優(yōu)化、知識積累,形成數(shù)據(jù)質(zhì)量持續(xù)提升的閉環(huán)。 首先需要梳理和分析數(shù)據(jù)質(zhì)量問題,摸清楚數(shù)據(jù)質(zhì)量的現(xiàn)狀;然后針對不同的質(zhì)量問題選擇適合的解決辦法,制定出詳細(xì)的解決方案;接著是問題的認(rèn)責(zé),追蹤方案執(zhí)行的效果,監(jiān)督檢查,持續(xù)優(yōu)化;最后形成數(shù)據(jù)質(zhì)量問題解決的知識庫,以供后來者參考。上述步驟不斷迭代,形成數(shù)據(jù)質(zhì)量管理的閉環(huán)。 很顯然,要管理好數(shù)據(jù)質(zhì)量,僅有工具支撐是遠(yuǎn)遠(yuǎn)不夠的,必須要組織架構(gòu)、制度流程參與進(jìn)來,做到數(shù)據(jù)的認(rèn)責(zé),數(shù)據(jù)的追責(zé)。
五、數(shù)據(jù)質(zhì)量管理的取與舍
企業(yè)也好,政府也好,從來不是生活在真空之中,而是被社會緊緊地包裹。解決任何棘手的問題,都必須考慮到社會因素的影響,做適當(dāng)?shù)娜∩帷?第一個(gè)取舍:數(shù)據(jù)質(zhì)量管理流程。前面講到的數(shù)據(jù)質(zhì)量管理流程,是一個(gè)相對理想的狀態(tài),但是不同的組織內(nèi)部,其實(shí)施的力度都是不同的,以數(shù)據(jù)追責(zé)為例:在企業(yè)內(nèi)部推行還具有一定的可行性,但是在政府就很難適用。因?yàn)檎块T的大數(shù)據(jù)項(xiàng)目,牽頭單位無論是誰,很可能沒有相關(guān)的權(quán)限。 舉個(gè)例子:你很難想像市經(jīng)信委去跟市政府辦公廳進(jìn)行數(shù)據(jù)質(zhì)量的問責(zé)。這與數(shù)據(jù)治理的建設(shè)方在整個(gè)大的組織體系中的話語權(quán)有很大的關(guān)系。這就是我們做數(shù)據(jù)治理必須接受的現(xiàn)實(shí)。遇到這種問題,我們只能迂回地做些事情,盡量彌補(bǔ)某個(gè)環(huán)節(jié)缺失帶來的不利影響,比如和數(shù)據(jù)提供方一起建立起數(shù)據(jù)清洗的規(guī)則,對來源數(shù)據(jù)做清洗,盡量達(dá)到可用的標(biāo)準(zhǔn)。 第二個(gè)取舍:不同時(shí)間維度上的數(shù)據(jù)采取不同的處理方式。從時(shí)間維度上劃分,數(shù)據(jù)主要有三類:未來數(shù)據(jù)、當(dāng)前數(shù)據(jù)、歷史數(shù)據(jù)。在解決不同種類的數(shù)據(jù)質(zhì)量問題時(shí),需要考慮取舍之道,采取不同的處理方式。
歷史數(shù)據(jù)
當(dāng)你拿著一堆歷史問題數(shù)據(jù),找信息系統(tǒng)的負(fù)責(zé)人給你整改,對方通常不會給你好臉色看,可能會以“當(dāng)前的數(shù)據(jù)問題都處理不過來,哪有時(shí)間給你處理歷史數(shù)據(jù)的問題”為理由,拒你以千里之外。這時(shí)候你即便是找領(lǐng)導(dǎo)協(xié)調(diào),一般也起不到太大的作用,因?yàn)檫@確實(shí)是現(xiàn)實(shí)情況:一個(gè)組織的歷史數(shù)據(jù)通常是經(jīng)年累月的積累,已經(jīng)是海量的規(guī)模,很難一一處理。 那么難道就沒有更好的辦法了嗎?——對于歷史數(shù)據(jù)問題的處理,我們可以發(fā)揮技術(shù)人員的優(yōu)勢,用數(shù)據(jù)清洗的辦法來解決,對于實(shí)在清洗不了的,我們要讓決策者判斷投入和產(chǎn)出的效益比,結(jié)果往往是需要接受這種現(xiàn)狀。 從另一個(gè)角度來看:數(shù)據(jù)的新鮮度不同,其價(jià)值往往也有所區(qū)分。一般來說,歷史數(shù)據(jù)的時(shí)間越久遠(yuǎn),其價(jià)值越低。所以,我們不應(yīng)該把最重要的資源放在歷史數(shù)據(jù)質(zhì)量的提升上,而是應(yīng)該更多地著眼于當(dāng)前產(chǎn)生和未來即將產(chǎn)生的數(shù)據(jù)。 2.當(dāng)前數(shù)據(jù) 當(dāng)前數(shù)據(jù)的問題,需要從我們通過前面第四個(gè)章節(jié)講過的梳理和發(fā)現(xiàn)問題,分析問題,解決問題,問題認(rèn)責(zé)、跟蹤和評估等幾個(gè)流程環(huán)節(jié)來解決,管理過程中必須嚴(yán)格遵循流程,避免臟數(shù)據(jù)繼續(xù)流到數(shù)據(jù)分析和應(yīng)用環(huán)節(jié)。 3.未來數(shù)據(jù) 管理未來的數(shù)據(jù),一定要從數(shù)據(jù)規(guī)劃開始,從整個(gè)組織信息化的角度出發(fā),規(guī)劃組織統(tǒng)一的數(shù)據(jù)架構(gòu),制定出統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。借業(yè)務(wù)系統(tǒng)新建、改造或重建的時(shí)機(jī),在創(chuàng)建物理模型、建表、ETL開發(fā)、數(shù)據(jù)服務(wù)、數(shù)據(jù)使用等各個(gè)環(huán)節(jié)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),從根本上提升數(shù)據(jù)質(zhì)量。這也是最理想、效果最好的數(shù)據(jù)質(zhì)量管理模式。 這樣,通過對不同時(shí)期數(shù)據(jù)的不同處理方式,能做到事前預(yù)防、事中監(jiān)控、事后改善,從根本上解決數(shù)據(jù)質(zhì)量問題。
總結(jié)
提升數(shù)據(jù)質(zhì)量,是數(shù)據(jù)治理最重要的目標(biāo)之一。做數(shù)據(jù)質(zhì)量管理,首先要弄清楚數(shù)據(jù)質(zhì)量問題產(chǎn)生的根源大部分在于業(yè)務(wù)管理出了問題。 其次,我們要根據(jù)組織架構(gòu),建立一套數(shù)據(jù)質(zhì)量評估的標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量管理的流程。 最后,在做數(shù)據(jù)質(zhì)量管理過程中,我們要充分考慮到現(xiàn)狀,對歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)、未來數(shù)據(jù)分別制定不同的處理策略。
05數(shù)據(jù)治理之?dāng)?shù)據(jù)標(biāo)準(zhǔn)管理
一、大數(shù)據(jù)標(biāo)準(zhǔn)體系
根據(jù)全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會大數(shù)據(jù)標(biāo)準(zhǔn)工作組制定的大數(shù)據(jù)標(biāo)準(zhǔn)體系,大數(shù)據(jù)的標(biāo)準(zhǔn)體系框架共由七個(gè)類別的標(biāo)準(zhǔn)組成,分別為:基礎(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)、平臺和工具標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)、安全和隱私標(biāo)準(zhǔn)、行業(yè)應(yīng)用標(biāo)準(zhǔn)。本文主要闡述其中的第二個(gè)類別:數(shù)據(jù)標(biāo)準(zhǔn)。
二、關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)認(rèn)識的幾個(gè)誤區(qū)
數(shù)據(jù)標(biāo)準(zhǔn)這個(gè)詞,最早是在金融行業(yè),特別是銀行業(yè)的數(shù)據(jù)治理中開始使用的。數(shù)據(jù)標(biāo)準(zhǔn)工作一直是數(shù)據(jù)治理中的基礎(chǔ)性重要內(nèi)容。但是對于數(shù)據(jù)標(biāo)準(zhǔn),不同的人卻有不同的看法: 有人認(rèn)為數(shù)據(jù)標(biāo)準(zhǔn)極其重要,只要制定好了數(shù)據(jù)標(biāo)準(zhǔn),所有數(shù)據(jù)相關(guān)的工作依標(biāo)進(jìn)行,數(shù)據(jù)治理大部分目標(biāo)就水到渠成了。 也有人認(rèn)為數(shù)據(jù)標(biāo)準(zhǔn)幾乎沒什么用,做了大量的梳理,建設(shè)了一整套全面的標(biāo)準(zhǔn),最后還不是被束之高閣,被人遺忘,幾乎沒有發(fā)揮任何作用。 首先亮明作者的觀點(diǎn):這兩種看法都是不對的,至少是片面的。實(shí)際上,數(shù)據(jù)標(biāo)準(zhǔn)工作是一項(xiàng)復(fù)雜的,涉及面廣的,系統(tǒng)性的,長期性的工作。它既不能快速地發(fā)揮作用,迅速解決掉數(shù)據(jù)治理中的大部分問題,同時(shí)也肯定不是完全沒有作用,最后只剩下一堆文檔——如果數(shù)據(jù)標(biāo)準(zhǔn)工作的結(jié)局真是如此,那只能說明這項(xiàng)工作沒有做好,沒有落到實(shí)處。本文主要的目的,就是分析為什么會出現(xiàn)這種情況,以及如何應(yīng)對。而首先需要做的是厘清數(shù)據(jù)標(biāo)準(zhǔn)的定義。
三、數(shù)據(jù)標(biāo)準(zhǔn)的定義
何為數(shù)據(jù)標(biāo)準(zhǔn),各相關(guān)組織并沒有統(tǒng)一的,各方都認(rèn)可的定義。結(jié)合各家對數(shù)據(jù)標(biāo)準(zhǔn)的闡述,從數(shù)據(jù)治理的角度出發(fā),我嘗試著給數(shù)據(jù)標(biāo)準(zhǔn)做一個(gè)定義:數(shù)據(jù)標(biāo)準(zhǔn)是對數(shù)據(jù)的表達(dá)、格式及定義的一致約定,包含數(shù)據(jù)業(yè)務(wù)屬性、技術(shù)屬性和管理屬性的統(tǒng)一定義;數(shù)據(jù)標(biāo)準(zhǔn)的目的,是為了使組織內(nèi)外部使用和交換的數(shù)據(jù)是一致的,準(zhǔn)確的。
四、如何制定數(shù)據(jù)標(biāo)準(zhǔn)
一般來說,對于政府,會有國家或地方政府發(fā)文的數(shù)據(jù)標(biāo)準(zhǔn)管理辦法,其中會詳細(xì)規(guī)定相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn)。所以在此主要講企業(yè)如何制定數(shù)據(jù)標(biāo)準(zhǔn)。 企業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)來源非常豐富,有外部的監(jiān)管要求,行業(yè)的通用標(biāo)準(zhǔn),同時(shí)也必須考慮到企業(yè)內(nèi)部數(shù)據(jù)的實(shí)際情況,梳理其中的業(yè)務(wù)指標(biāo)、數(shù)據(jù)項(xiàng)、代碼等,將以上的所有的來源都納入數(shù)據(jù)標(biāo)準(zhǔn)是沒有必要的,數(shù)據(jù)標(biāo)準(zhǔn)的范圍應(yīng)該主要集中在企業(yè)業(yè)務(wù)最核心的數(shù)據(jù)部分,有的企業(yè)也稱作關(guān)鍵業(yè)務(wù)數(shù)據(jù)或核心數(shù)據(jù),只要制定出這些核心數(shù)據(jù)的標(biāo)準(zhǔn),就能夠支撐企業(yè)數(shù)據(jù)質(zhì)量、主數(shù)據(jù)管理、數(shù)據(jù)分析等需要。
五、數(shù)據(jù)標(biāo)準(zhǔn)化的難題
數(shù)據(jù)標(biāo)準(zhǔn)好制定,但是數(shù)據(jù)標(biāo)準(zhǔn)落地相對就困難多了。國內(nèi)的數(shù)據(jù)標(biāo)準(zhǔn)化工作發(fā)展了那么多年,各個(gè)行業(yè),各個(gè)組織都在建設(shè)自己的數(shù)據(jù)標(biāo)準(zhǔn),但是你很少聽到哪個(gè)組織大張旗鼓地宣傳自己的數(shù)據(jù)標(biāo)準(zhǔn)工作多么出色,換句話說,做數(shù)據(jù)標(biāo)準(zhǔn)取得顯著效果的案例并不多。為什么會出現(xiàn)這種情況,主要有兩個(gè)原因: 一是制定的數(shù)據(jù)標(biāo)準(zhǔn)本身有問題。有些標(biāo)準(zhǔn)一味地追求先進(jìn),向行業(yè)領(lǐng)先看齊,標(biāo)準(zhǔn)大而全,脫離實(shí)際的數(shù)據(jù)情況,導(dǎo)致很難落地。 第二個(gè)原因,是標(biāo)準(zhǔn)化推進(jìn)過程中出了問題。這是我們重點(diǎn)闡述的原因,主要有以下幾種情況:
對建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)的目的不明確。某些組織建設(shè)數(shù)據(jù)標(biāo)準(zhǔn),其目的不是為了指導(dǎo)信息系統(tǒng)建設(shè),提高數(shù)據(jù)質(zhì)量,更容易地處理和交換數(shù)據(jù),而是應(yīng)付監(jiān)管機(jī)構(gòu)檢查,因此需要的就是一堆標(biāo)準(zhǔn)文件和制度文件,根本就沒有執(zhí)行的計(jì)劃。
過分依賴咨詢公司。一些組織沒有建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)的能力,因此請咨詢公司來幫忙規(guī)劃和執(zhí)行。一旦咨詢公司撤離,組織依然缺乏將這些標(biāo)準(zhǔn)落地的能力和條件。
對數(shù)據(jù)標(biāo)準(zhǔn)化的難度估計(jì)不足。很多公司上來就說要做數(shù)據(jù)標(biāo)準(zhǔn),卻不知道數(shù)據(jù)標(biāo)準(zhǔn)的范圍很大,很難以一個(gè)項(xiàng)目的方式都做完,而是一個(gè)持續(xù)化推進(jìn)的長期過程,結(jié)果是客戶越做遇到的阻力越大,困難越多,最后自己都沒有信心了,轉(zhuǎn)而把前期梳理的一堆成果束之高閣,這是最普遍的問題。
缺乏落地的制度和流程規(guī)劃。數(shù)據(jù)標(biāo)準(zhǔn)的落地,需要多個(gè)系統(tǒng)、部門的配合才能完成。如果只梳理出數(shù)據(jù)標(biāo)準(zhǔn),但是沒有規(guī)劃如何落地的具體方案,缺乏技術(shù)、業(yè)務(wù)部門、系統(tǒng)開發(fā)商的支持,尤其是缺乏領(lǐng)導(dǎo)層的支持,是無論如何也不可能落地的。
組織管理水平的不足:數(shù)據(jù)標(biāo)準(zhǔn)落地的長期性、復(fù)雜性、系統(tǒng)性的特點(diǎn),決定了推動落地的組織機(jī)構(gòu)的管理能力必須保持在很高的水平線上,且架構(gòu)必須持續(xù)穩(wěn)定,才能有序地不斷推進(jìn)。以上這些原因,導(dǎo)致數(shù)據(jù)標(biāo)準(zhǔn)化工作很難開展,更難取得較好的成效。數(shù)據(jù)標(biāo)準(zhǔn)化難落地,是數(shù)據(jù)治理行業(yè)的現(xiàn)狀,不容回避。
六、如何應(yīng)對這些難題
應(yīng)對以上這些難題,最經(jīng)濟(jì)、最理想的模式當(dāng)然是:做大數(shù)據(jù)建設(shè),首先做標(biāo)準(zhǔn),再做大數(shù)據(jù)平臺,數(shù)據(jù)倉庫等。但一般的不大可能有這樣的認(rèn)識,很多時(shí)候大家都是先建設(shè)再治理。先把信息系統(tǒng)、數(shù)據(jù)中心建好,然后標(biāo)準(zhǔn)有問題,質(zhì)量不高,再建數(shù)據(jù)標(biāo)準(zhǔn),但實(shí)際上這時(shí)候已經(jīng)是回過頭來做一些亡羊補(bǔ)牢的事情,客戶的投資肯定有一部分是浪費(fèi)。 正因?yàn)槠涮^理想化,所以這種模式幾乎是見不到的。在實(shí)踐中,我們往往還是需要更多地考慮如何把數(shù)據(jù)標(biāo)準(zhǔn)落地到已有的系統(tǒng)和大數(shù)據(jù)平臺中。 數(shù)據(jù)標(biāo)準(zhǔn)落地有三種形式:
源系統(tǒng)改造:對源系統(tǒng)的改造是數(shù)據(jù)標(biāo)準(zhǔn)落地最直接的方式,有助于控制未來數(shù)據(jù)的質(zhì)量,但工作量與難度都較高,現(xiàn)實(shí)中往往不會選擇這種方式,例如有客戶編號這個(gè)字段,涉及多個(gè)系統(tǒng),范圍廣、重要程度高、影響大,一旦修改該字段,會涉及到相關(guān)的系統(tǒng)都需要修改。但是也不是完全不可行,可以借系統(tǒng)改造,重新上線的機(jī)會,對相關(guān)源系統(tǒng)的數(shù)據(jù)進(jìn)行部分的對標(biāo)落地。
數(shù)據(jù)中心落地:根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)要求建設(shè)數(shù)據(jù)中心(或數(shù)據(jù)倉庫),源系統(tǒng)數(shù)據(jù)與數(shù)據(jù)中心做好映射,保證傳輸?shù)綌?shù)據(jù)中心的數(shù)據(jù)為標(biāo)準(zhǔn)化后的數(shù)據(jù)。這種方式的可行性較高,是絕大多數(shù)組織的選擇。
數(shù)據(jù)接口標(biāo)準(zhǔn)化:對已有的系統(tǒng)間的數(shù)據(jù)傳輸接口進(jìn)行改造,讓數(shù)據(jù)在系統(tǒng)間進(jìn)行傳輸?shù)臅r(shí)候,全部遵循數(shù)據(jù)標(biāo)準(zhǔn)。這也是一種可行的方法。
在數(shù)據(jù)標(biāo)準(zhǔn)落地的過程中,需要做好6件事情,如下圖所示:
事先確定好落地的范圍:哪些數(shù)據(jù)標(biāo)準(zhǔn)需要落地,涉及到哪些IT系統(tǒng),都是需要事先考慮好的。
事先做好差異分析:現(xiàn)有的數(shù)據(jù)和數(shù)據(jù)標(biāo)準(zhǔn)之間,究竟存在哪些差異,這些差異有多大,做好差異性分析。
事先做好影響性分析:如果這些數(shù)據(jù)標(biāo)準(zhǔn)落地了,會對哪些相關(guān)下游戲廳產(chǎn)生什么樣的影響,這些影響是否可控。元數(shù)據(jù)管理中的影響性分析可以幫助用戶確定影響的范圍。
制定落地的執(zhí)行方案:執(zhí)行方案要側(cè)重于可落地性。不能落地的方案,最終只能被廢棄。一個(gè)可落地的方案,要有組織架構(gòu)和人員分工,每個(gè)人負(fù)責(zé)什么,如何考核,怎么監(jiān)管,都是必須納入執(zhí)行方案中的內(nèi)容。
具體地執(zhí)行落地方案:根據(jù)執(zhí)行方案,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)落地執(zhí)行。
事后評估:事后需要跟蹤、評估數(shù)據(jù)落地的效果如何,做對了哪些事,哪些做得不足,如何改進(jìn)。
七、總結(jié)
數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)大致可以分成兩個(gè)階段: 1、梳理和制定數(shù)據(jù)標(biāo)準(zhǔn)。 2、數(shù)據(jù)標(biāo)準(zhǔn)的落地和實(shí)施。 其中后者是公認(rèn)的難題。本文分析了其中的原因,提供了一些如何讓數(shù)據(jù)標(biāo)準(zhǔn)更快更好落地的方法。
審核編輯 :李倩
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6839瀏覽量
88756 -
資產(chǎn)管理
+關(guān)注
關(guān)注
0文章
45瀏覽量
3852
原文標(biāo)題:數(shù)據(jù)治理體系完整實(shí)踐指南
文章出處:【微信號:IndustryIOT,微信公眾號:工業(yè)互聯(lián)網(wǎng)前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論