1.基礎(chǔ)概念
我們首先來了解一下一些基本的概念。到底什么什么是數(shù)據(jù)治理?
從DAMA理論知識體系的角度來說,數(shù)據(jù)治理的定義如下:數(shù)據(jù)治理是在管理數(shù)據(jù)資產(chǎn)過程中行使權(quán)力和管控,包括計劃、 監(jiān)控和實施。
與食品生產(chǎn)線類似,數(shù)據(jù)治理的過程實際上就是將成本較低的原材料(原始數(shù)據(jù)),經(jīng)過一系列的提純、加工、模具定型(數(shù)據(jù)模型)等工序,最終轉(zhuǎn)化為我們可食用(可使用)的,價值較高的商品(數(shù)據(jù)產(chǎn)品)。在這個過程中,設(shè)定相應(yīng)的流程和制度并加以監(jiān)管是治理過程的必要條件,由此才能保證治理過程規(guī)范、完整和安全,滿足產(chǎn)品上架(數(shù)據(jù)產(chǎn)品進行共享和開放應(yīng)用)的市場要求。
而與通常意義的數(shù)據(jù)治理相比,公共數(shù)據(jù)治理是更廣義上的數(shù)據(jù)治理,通常與政府治理緊密結(jié)合,其目標(biāo)是通過數(shù)據(jù)資產(chǎn)的開發(fā)利用創(chuàng)造社會價值,從而提升執(zhí)政能力。隨著政府治理現(xiàn)代化水平提升,政府對公共數(shù)據(jù)治理的要求就越高。
2.背景介紹
國家大數(shù)據(jù)戰(zhàn)略中明確提出構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟,運用大數(shù)據(jù)提升國家治理現(xiàn)代化水平,運用大數(shù)據(jù)促進保障和改善民生的要求。并且目前數(shù)據(jù)中心已納入新型基礎(chǔ)設(shè)施建設(shè)要求中。
基于大數(shù)據(jù)中心的公共數(shù)據(jù)治理組織通常分為三種模式:
分散運營模式進行運作,即數(shù)據(jù)管理職能分布在不同的業(yè)務(wù)部門和技術(shù)部門,通常這種模式下,有過多人員參與治理和制定決策,在實施協(xié)作決策時反而更加困難,難以長期維持,通常在該模式下定義數(shù)據(jù)所有權(quán)也比較困難。
第二種是集中運營模式,所有工作都由數(shù)據(jù)管理組織掌控,為數(shù)據(jù)管理和數(shù)據(jù)治理建立了正式的管理職位且擁有最終決策人,由于在這過程中會出現(xiàn)重大的組織結(jié)構(gòu)變革,參與數(shù)據(jù)管理的角色可能會存在丟失業(yè)務(wù)領(lǐng)域的專業(yè)知識的風(fēng)險。
最后一種分散和集中模式相結(jié)合的混合運營模式,其中一個變體就是聯(lián)邦運營模式,它為數(shù)據(jù)管理提供具有分散執(zhí)行的集中策略,由一個集中的數(shù)據(jù)管理中心與分散的業(yè)務(wù)部門團隊合作。目前來看對大部分地方政府來說,更適合混合運營模式。
任何一種公共數(shù)據(jù)治理模式都包含大量數(shù)據(jù)治理活動,但我們在實踐過程中發(fā)現(xiàn)各類問題,包括:如何做到將數(shù)據(jù)應(yīng)編盡編?在歸集過程中如何保證更新及時性?不同部門業(yè)務(wù)數(shù)據(jù)在共享時如何明確統(tǒng)一的定義?如何提高數(shù)據(jù)質(zhì)量?等,這些問題在后續(xù)的文章中會逐步展開介紹。
由業(yè)務(wù)處理難點延伸,當(dāng)前數(shù)據(jù)治理還包括數(shù)據(jù)分散、數(shù)據(jù)存儲管理不集中,各委辦局業(yè)務(wù)技術(shù)平臺不互通導(dǎo)致信息割裂無法順利共享等問題,因此就會導(dǎo)致原始數(shù)據(jù)的質(zhì)量不高,附加值低的現(xiàn)象。
3.治理方案
從公共數(shù)據(jù)治理的目標(biāo)出發(fā),最基礎(chǔ)的就是提升“存、管、找、用”四項基本能力,由于篇幅優(yōu)先,簡單從調(diào)研梳理、數(shù)據(jù)感知、數(shù)據(jù)管理、共享交換和應(yīng)用幾個方面介紹一下公共數(shù)據(jù)治理的實施思路。
3.1 調(diào)研梳理
調(diào)研梳理通常權(quán)責(zé)清單和應(yīng)用系統(tǒng)作為切入,基于已有數(shù)據(jù)資產(chǎn)實現(xiàn)“應(yīng)編盡編,按需歸集”。
應(yīng)編盡編,即對委辦局所有可提供的業(yè)務(wù)數(shù)據(jù)進行梳理和規(guī)整,并根據(jù)委辦局內(nèi)部業(yè)務(wù)要求,定義好每個數(shù)據(jù)模型下的數(shù)據(jù)標(biāo)準(zhǔn),例如字段長、字段類型、字典代碼等基本信息,作為各部門的數(shù)據(jù)資產(chǎn)家底。
按需歸集,調(diào)研各部門數(shù)據(jù)資產(chǎn)的同事,需要了解實際業(yè)務(wù)開展需要哪些其他委辦局的數(shù)據(jù)進行業(yè)務(wù)協(xié)同。通過對相同數(shù)據(jù)需求的數(shù)源分析與認責(zé),實現(xiàn)“一數(shù)一源、一次歸集、多次共享”的目標(biāo),降低公共數(shù)據(jù)共享門檻。
通常在梳理政府公共數(shù)據(jù)中,會分兩個方面進行。一是自上而下,即如上所說的從業(yè)務(wù)的角度出發(fā),分析委辦局的業(yè)務(wù)構(gòu)成,這里不再贅述。二是自下而上的梳理,即從技術(shù)的角度出發(fā),直接探尋數(shù)據(jù)本質(zhì),分析部門業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)模型,基礎(chǔ)元數(shù)據(jù)主要包含資源標(biāo)識號、資源名稱、資源類型、提供單位、所屬系統(tǒng)、更新周期等內(nèi)容。
3.2 數(shù)據(jù)感知
在梳理數(shù)據(jù)以后,需要從業(yè)務(wù)角度和技術(shù)角度“理解”所歸集的數(shù)據(jù),即數(shù)據(jù)感知。
從業(yè)務(wù)角度來看,元數(shù)據(jù)來源于業(yè)務(wù)數(shù)據(jù)產(chǎn)生的源數(shù)據(jù)模型中,即最開始的業(yè)務(wù)部門對于某個數(shù)據(jù)表中的字段定義。隨著對元數(shù)據(jù)分析的深入推進,我們會接觸到關(guān)于技術(shù)層面的數(shù)據(jù)結(jié)構(gòu)定義、數(shù)據(jù)標(biāo)準(zhǔn)定義、數(shù)據(jù)字典定義等元數(shù)據(jù)。
從技術(shù)角度看,在數(shù)據(jù)治理的過程中,從源數(shù)據(jù)層到數(shù)據(jù)清洗到數(shù)據(jù)存儲再到數(shù)據(jù)應(yīng)用,期間都會產(chǎn)生元數(shù)據(jù)。
通過元數(shù)據(jù)采集,我們可以借助元數(shù)據(jù)采集和管理工具建立應(yīng)用元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間的關(guān)聯(lián),從而對元數(shù)據(jù)進行分析和聚類,最終形成完整的元數(shù)據(jù)體系,如資產(chǎn)目錄、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型等。
“以用識數(shù)”——根據(jù)使用反饋來給數(shù)據(jù)打標(biāo)簽;
“以數(shù)識數(shù)”——根據(jù)定義的規(guī)則給數(shù)據(jù)打標(biāo)簽;
在這個過程中我們通常選擇高效的圖數(shù)據(jù)庫實現(xiàn)元數(shù)據(jù)關(guān)系展現(xiàn),每個數(shù)據(jù)和它的元數(shù)據(jù)都是圖中的一個點,數(shù)據(jù)和元數(shù)據(jù)之間的關(guān)系是線,元數(shù)據(jù)和元數(shù)據(jù)之間關(guān)系也是線,這樣構(gòu)建的一張可擴展的復(fù)雜的圖,既描述了數(shù)據(jù)和元數(shù)據(jù)之間的關(guān)系,也描述了元數(shù)據(jù)和元數(shù)據(jù)之間的關(guān)系,快速得到分析和查詢結(jié)果。
3.3 數(shù)據(jù)管理
1、資源目錄管理
建立統(tǒng)一的元數(shù)據(jù)倉庫是實現(xiàn)數(shù)據(jù)管理的必要條件,并且離不開高質(zhì)量的資源目錄。英文通常用“Catalog”、“Category”、“Directory”代表目錄,但各自的含義并不一樣,我們在公共數(shù)據(jù)治理中一般采用“Catalog”作為目錄實體的定義,為數(shù)據(jù)資源提供了歸類和索引,讓抽象的數(shù)據(jù)變得“有跡可循”。即我們常說的“存管協(xié)同”概念。
而數(shù)據(jù)治理中的資源目錄通過與元數(shù)據(jù)管理相結(jié)合,在使數(shù)據(jù)有跡可循的基礎(chǔ)上,增加了數(shù)據(jù)的排列組合功能。社會、互聯(lián)網(wǎng)、政府內(nèi)部各級部門等數(shù)據(jù)產(chǎn)生源頭收集來的數(shù)據(jù),經(jīng)過采集清洗后,可以納入信息資源目錄中,同樣的業(yè)務(wù)數(shù)據(jù)經(jīng)過資源盤點和整合,可以為不同的業(yè)務(wù)場景提供數(shù)據(jù)支撐。
在治理項目實施過程中,我們通常將資源目錄分為三個層次——資源目錄、資產(chǎn)目錄和服務(wù)目錄。
資源目錄,數(shù)據(jù)可順利采集,保證編目的目錄的名稱、信息項名稱與采集上來的庫表名稱、字段名稱相對應(yīng),且能夠提供基礎(chǔ)的數(shù)據(jù)共享服務(wù),在這一階段的主要工作就是明確目錄內(nèi)容的定義,保證數(shù)據(jù)更新頻率和周期能夠滿足數(shù)據(jù)共享和使用的基本需求。
資產(chǎn)目錄是基本資源目錄進行標(biāo)準(zhǔn)化處理之后的成果,在這一階段我們借助各委辦局對各自業(yè)務(wù)的明確定義和公共數(shù)據(jù)標(biāo)準(zhǔn),為先前編目的資源添加準(zhǔn)確的業(yè)務(wù)描述和業(yè)務(wù)標(biāo)簽。根據(jù)各個資源在上一階段的數(shù)據(jù)共享和使用情況,我們可以對各目錄的共享方式進行準(zhǔn)確的描述和定義,提高其可使用程度。
服務(wù)目錄來源于各部門通過數(shù)據(jù)共享交換后留下的權(quán)責(zé)清單記錄,這一階段更向業(yè)務(wù)層面貼合。結(jié)合實際已共享的應(yīng)用場景,可以對每個目錄進行使用場景進行統(tǒng)計分析,找到各類使用場景中的異同,從而在反饋數(shù)據(jù)的基礎(chǔ)上進行總結(jié)提煉,逐步明確具體的使用場景,并將這些場景劃入數(shù)據(jù)共享的允許范圍內(nèi),當(dāng)有委辦局對該資源目錄有相同的使用場景進行申請時,通過資源目錄管理平臺的處理機制,可以迅速通過申請,提高共享效率。
2、數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理是對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的數(shù)據(jù)質(zhì)量問題進行識別、度量、監(jiān)控、預(yù)警等一系列管理活動。通常數(shù)據(jù)質(zhì)量管理應(yīng)遵循完整性、有效性、準(zhǔn)確性、唯一性、一致性和合理性這幾個原則。我們在數(shù)據(jù)質(zhì)量管理中可以按照發(fā)現(xiàn)問題、分析問題、提出方案、解決問題等幾步來進行。
(1)設(shè)置數(shù)據(jù)質(zhì)量規(guī)則。即針對不同的數(shù)據(jù)對象,配置相應(yīng)的數(shù)據(jù)質(zhì)量指標(biāo),不限于:數(shù)據(jù)唯一性、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)完整性、數(shù)據(jù)一致性、數(shù)據(jù)關(guān)聯(lián)性、數(shù)據(jù)及時性等。
(2)分析數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因??赡苁羌夹g(shù)層面數(shù)據(jù)模型設(shè)計的質(zhì)量問題,也可能是業(yè)務(wù)層面系統(tǒng)相互獨立導(dǎo)致數(shù)據(jù)無法對接或者是業(yè)務(wù)端進行數(shù)據(jù)錄入時未按照規(guī)范進行錄入。
(3)選擇解決辦法。技術(shù)上可以通過ETL工具按照數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范進行數(shù)據(jù)清洗和標(biāo)準(zhǔn);業(yè)務(wù)上可以對業(yè)務(wù)系統(tǒng)進行升級改造和數(shù)據(jù)補錄。
(4)質(zhì)量檢測,監(jiān)督檢查。設(shè)置數(shù)據(jù)檢查任務(wù)對存量數(shù)據(jù)進行檢查,形成數(shù)據(jù)質(zhì)量問題清單并出具數(shù)據(jù)質(zhì)量問題報告。通過定期對系統(tǒng)開展全面的數(shù)據(jù)質(zhì)量狀況評估,從問題率、解決率、解決時效等方面建立評價指標(biāo)進行整改評估,根據(jù)整改優(yōu)化結(jié)果。
3.4 數(shù)據(jù)共享交換
數(shù)據(jù)是在流通、應(yīng)用中創(chuàng)造價值的,這就涉及“數(shù)據(jù)共享”和“數(shù)據(jù)交換”。
數(shù)據(jù)共享由“供”和“需”兩部分組成。之前在數(shù)據(jù)梳理中也提到過,我們會對委辦局自有的和需求的數(shù)據(jù)進行梳理,當(dāng)基礎(chǔ)資源目錄形成后,隨著業(yè)務(wù)事項需求的推動,在交換體系中會形成以委辦局為主體的需求清單、責(zé)任清單和負面清單。
需求清單為A委辦局對其他委辦局的數(shù)據(jù)需求;責(zé)任清單為其他委辦局對A委辦局下的數(shù)據(jù)需求;負面清單則為A委辦局審批責(zé)任清單中的內(nèi)容時,暫時無法提供或不予共享的數(shù)據(jù)資源清單。
通過對數(shù)據(jù)資源的供需管理,可以為上層管理部門把握目前數(shù)據(jù)湖中的數(shù)據(jù)共享趨勢提供數(shù)據(jù)參考。各委辦局權(quán)屬下的資源按照被共享次數(shù)進行分析,逐步梳理出該委辦局下的典型業(yè)務(wù)場景,并由業(yè)務(wù)驅(qū)動需求,將數(shù)據(jù)湖中分散的數(shù)據(jù)進行業(yè)務(wù)歸類,形成數(shù)據(jù)專題庫。再進行數(shù)據(jù)反哺,將各級單位產(chǎn)生的原始數(shù)據(jù),通過數(shù)據(jù)湖中的分析、交換、歸類,以專題庫的形式再次共享出去,為各業(yè)務(wù)系統(tǒng)提供質(zhì)量較高的數(shù)據(jù)參考。
4.?dāng)?shù)據(jù)應(yīng)用
通過調(diào)研梳理、數(shù)據(jù)采集和感知、數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)共享交換,此時的公共數(shù)據(jù)在數(shù)據(jù)可用性、數(shù)據(jù)可信度、數(shù)據(jù)管理成本和數(shù)據(jù)安全性上都有了較大改善。
同時,在治理過程中以城市數(shù)據(jù)中心為樞紐,形成了承上啟下的新型公共數(shù)據(jù)管理模式,在原有的海量數(shù)據(jù)的基礎(chǔ)之上對數(shù)據(jù)進行提煉和賦能。向上,可向國家級部門提供城市數(shù)據(jù),同時提出需求,豐富國家數(shù)據(jù)歸集和治理場景;向下,可推動內(nèi)部數(shù)據(jù)共享,結(jié)合業(yè)務(wù)場景建設(shè)專題庫,促進城市有效管理和運行,同時為下級部門提供數(shù)據(jù),滿足數(shù)據(jù)為基層賦能、數(shù)據(jù)價值提升的要求。
此外,治理后的公共數(shù)據(jù)不僅可以滿足政府內(nèi)部的數(shù)據(jù)流通共享,還可以將部分?jǐn)?shù)據(jù)對社會開放,形成以需求為導(dǎo)向的數(shù)據(jù)管理模式,從而促進數(shù)據(jù)開發(fā)應(yīng)用服務(wù),借助社會層面的應(yīng)用獲取更多管理、建設(shè)信息,形成數(shù)據(jù)流通閉環(huán),為社會生活創(chuàng)造更大的價值。
關(guān)于作者:
姚絲雨,數(shù)據(jù)治理工程師,擁有較豐富的政府行業(yè)項目管理、數(shù)據(jù)治理和實施經(jīng)驗,參與上海市大數(shù)據(jù)中心數(shù)據(jù)運營、浦東新區(qū)政務(wù)大數(shù)據(jù)數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量提升和數(shù)據(jù)治理服務(wù)項目,參與浦東新區(qū)大數(shù)據(jù)中心數(shù)據(jù)治理和數(shù)據(jù)運營管理工作。
責(zé)任編輯:gt
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4642瀏覽量
71905 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8856瀏覽量
137222
發(fā)布評論請先 登錄
相關(guān)推薦
評論