11月28-29日,由中國社會科學院信息化研究中心和北京國脈互聯(lián)信息顧問有限公司聯(lián)合舉辦的“2018智慧中國年會”在北京隆重召開,以“數(shù)據(jù)賦能智慧中國”為主題,共有來自全國部委、省、市、區(qū)縣電子政務、智慧城市、大數(shù)據(jù)主管領導、行業(yè)專家、企業(yè)代表、主流媒體千余人參會。

  本文系DAMAChina專家田景熙于11月29日上午在“2018智慧中國年會”分論壇六——“微服務與數(shù)據(jù)賦能平臺構建與實踐研討會”上的演講,內(nèi)容通過現(xiàn)場速記整理,未經(jīng)本人審核。

image.png

【DAMAChina專家田景熙】

  大家好,今天圍繞《統(tǒng)一元數(shù)據(jù)標準動態(tài)管理解決方案》的主題跟大家做分享,主要講三個問題:

  第一、政務元數(shù)據(jù)管理中的問題;

  第二、元數(shù)據(jù)標準化管理的需求;

  第三、介紹基于DPS/DPM解決方案思路。

  關于元數(shù)據(jù)管理中的問題。首先形成共識,一種說法元數(shù)據(jù)是定義和描述其他數(shù)據(jù)的數(shù)據(jù);另一種權威說法是信息和文件,數(shù)據(jù)在經(jīng)歷了很長時間后,對用戶仍有可理解性和共享性。

  針對電子政務數(shù)據(jù)元,我們國家一個比較領先的省市做過一次調(diào)查,此次調(diào)查共計有30多個數(shù)據(jù)項,120個機構。調(diào)查發(fā)現(xiàn)在系統(tǒng)中有命名沖突、定義沖突,格式?jīng)_突、分類沖突、結構沖突、描述沖突等多個問題,是影響數(shù)據(jù)融合和資源再造以及政府數(shù)據(jù)價值提升的大問題。

  從數(shù)據(jù)治理角度來看,應該從什么地方入手?

  1、物理數(shù)據(jù):文件、記錄及格式、視圖、索引、數(shù)據(jù)字典...;

  2、邏輯數(shù)據(jù):實體、屬性、關系、規(guī)則、業(yè)務名、定義...;

  3、內(nèi)容數(shù)據(jù):語義、語境、語用、語法...;

  4、管理數(shù)據(jù):數(shù)據(jù)項、數(shù)據(jù)模型、數(shù)據(jù)使用、數(shù)據(jù)質(zhì)量、變更...;

  5、整合數(shù)據(jù):數(shù)據(jù)源/渠/匯、數(shù)據(jù)目錄、數(shù)據(jù)轉換、EAI、遷移和變換...;

  6、運行數(shù)據(jù):數(shù)據(jù)組件、服務、消息、標記、觸發(fā)、進程、關聯(lián)...;

  7、業(yè)務數(shù)據(jù):業(yè)務定義、業(yè)務架構、業(yè)務規(guī)則、業(yè)務分析、業(yè)務關聯(lián)、業(yè)務整合活動、角色、作業(yè)、輸入/出、工作流、流程規(guī)則...;

  8、元數(shù)據(jù)管理:采集、識別、分析、標準化處理、組合、注冊、發(fā)布...;

  各行業(yè)標準很多定義是沖突的,原因是從國際標準、國家標準上,對元數(shù)據(jù)標準化的研究非常混亂。針對元數(shù)據(jù)注冊系統(tǒng),建立的邏輯架構,系統(tǒng)管理進行標準化后,對元數(shù)據(jù)管理系統(tǒng)起到了很大作用。但只是孤立的考慮元數(shù)據(jù)的規(guī)則,并未結合具體應用。

  一、元數(shù)據(jù)標準化滯后:以ISO11179為代表

  先講兩個概念,第一,注冊是指賦與數(shù)據(jù)元明確定義與標識,使各方獲得其規(guī)范化的描述;

  第二,注冊系統(tǒng)是指統(tǒng)一存儲、加工與描述數(shù)據(jù)元的信息:注冊標識符、定義、名稱、值域,元數(shù)據(jù)和管理屬性等。這可以為電子政務提供一個案例和解決思路。

  如今我們遇到問題,主要是孤立考慮元數(shù)據(jù)定義的規(guī)范以及其形態(tài)與結構注冊的標準化,不涉及應用,不能解決跨系統(tǒng)資源整合中的各類矛盾。后續(xù)會朝著ISO8000+ISO22745系列(主數(shù)據(jù)標準與開放式主數(shù)據(jù)詞典)發(fā)展。

  二、問題與思路

  第一,元數(shù)據(jù)長期作為附屬資源,是導致許多領域數(shù)據(jù)開發(fā)與應用無法深入的主要原因;觀念改進上,應將其當作基礎性、獨立性、自在性、能動性的價值資源來重新看待;

  第二,元數(shù)據(jù)的單元一、孤立、局部標準化遠不敷數(shù)據(jù)管理與應用的需求;

  第三,元數(shù)據(jù)的標準化,應面向其作為基礎資源設施來設計、規(guī)劃、建設、運維與管理;

  第四,元數(shù)據(jù)的標準化是分層級、結構化、過程性的系統(tǒng)性標準化;

  第五,政務數(shù)據(jù)治理的目標是構建統(tǒng)一的政務資源的元數(shù)據(jù)管理體系。

  三、元數(shù)據(jù)資源標準化的層次架構

  層次標準化架構符合人類語言的演化與發(fā)展:

 ?。?)數(shù)據(jù)元標準化指的是數(shù)據(jù)元是構成信息資源的最小單位,相當于語言中的字、詞;

 ?。?)復合數(shù)據(jù)元標準化指的是由數(shù)據(jù)元組成,相當于語言中的詞組、成語等;

 ?。?)數(shù)據(jù)段標準化指的是中等規(guī)模信息單位,等效于語句;是預定義的復合數(shù)據(jù)元的固定搭配與組合。

  元數(shù)據(jù)標準化要求有構成獨立的、基礎政務數(shù)據(jù)資源設施;與應用無關以及綜合標準化(包括統(tǒng)一、簡化、序列化、組合化、集成化)。

  通過以上手段,可以實現(xiàn)提升數(shù)據(jù)的結構性與重用性;增加資源內(nèi)聚度,降低波動效應、減小資源共享與交換的難度與成本,提升資源質(zhì)量與管理性。

  四、數(shù)據(jù)點空間(DPS)與數(shù)據(jù)點模型(DPM)的基本概念

  1.以多維“特征軸”組織元數(shù)據(jù),稱數(shù)據(jù)空間(DS)---各特征元數(shù)據(jù)軸具有正交性、序列性、組配性,獨立建設維護;

  2.任何實體數(shù)據(jù)在DS中,映射為各軸上的點位,稱“數(shù)據(jù)點(DP)”;

  3.DP用于數(shù)據(jù)對象特征描述。選擇DS的各軸,抽取其中各點位(區(qū)段),為“數(shù)據(jù)點模型(DPM)”;

  4.DPM可描述:實體、概念、關系、業(yè)務、過程、規(guī)則……;可按需增減與組配各軸。

  五、數(shù)據(jù)點模型(DPM)的意義

  第一,數(shù)據(jù)點空間(DPS)以數(shù)學為工具,為對象給出元數(shù)據(jù)資源配置集(DP);形態(tài)為文字,坐標值,提升資源的可計算性與安全性;

  第二,DPS不尋求直接的語義計算,而構建正交語義軸中的特征集,以及各集合間的轉換;

  第三,DPS中,實體數(shù)據(jù)不再僅依靠人工描述,可通過計算機資源點篩選與適配來組成。計算機可逐步掌握在特定業(yè)務與語境下的元數(shù)據(jù)資源的查詢、供應與適配,為從宏觀、中觀到微觀層面的資源描述提供全新途徑;

  第四,DPS不再使用單一資源目錄,各語義軸自成目錄體系,N軸組成N(N-1)/2個“資源面”,再組成“數(shù)據(jù)超方”,通過軸間的旋轉、組配等能自行構建規(guī)模宏大的資源體系。

  六、DPM的數(shù)據(jù)表示

  1、DPM的空間結構

  用三元組(X,F(xiàn),T)表示某政務域

  X為論域,為描述元素集合;F為論域的特征需求與元數(shù)據(jù)軸的映射規(guī)則,用函數(shù)F:X→Y表示;

  Y是n維語義空間;T為論域的架構,指其中各元素間的關聯(lián)/構成(語義層)。

  則DPM的語義空間結構示意為:

image.png

 ?。?)論域X可擴充各領域元數(shù)據(jù)軸;

  (2)可按論域內(nèi)的元素關系對描述分解與細化。

  2、DPM的時序結構——對各語義正交的元數(shù)據(jù)軸,前述函數(shù)F(x)隨業(yè)務進程需要不同的特征數(shù)據(jù)元,其時序進程形態(tài)為F(R)

image.png

  3、DPM的擴展形態(tài)

image.png

  R為元數(shù)據(jù)需求擴展集;如Ri(i=1,2,3…)表示業(yè)務類、流程類、操作類、管理類等元數(shù)據(jù),可動態(tài)維護;Rij(i=1,2,3…;j=1,2,3…)表DPS對各元數(shù)據(jù)軸的點位映射。如:業(yè)務類元數(shù)據(jù)集由“業(yè)務數(shù)據(jù)定義集、業(yè)務規(guī)則集、數(shù)據(jù)模型集…”

  七、DPM的語義展示

image.png

  第一,對象類標識—元數(shù)據(jù)對象的類別標識,區(qū)分元數(shù)據(jù)對象集中的不同對象類;

  第二,關鍵特征—構成元數(shù)據(jù)對象的核心特征,其集合可唯一區(qū)別元數(shù)據(jù),用于對元數(shù)據(jù)對象的檢索;

  第三,一般特征—元數(shù)據(jù)對象的使用特征,結合論域系統(tǒng)生命周期的描述需求,考慮元數(shù)據(jù)對象在元數(shù)據(jù)系統(tǒng)運行各階段和各種應用系統(tǒng)中體現(xiàn)出的使用特征。

image.png

  注:獲取更多會議信息及嘉賓演講資料,歡迎登錄“2018智慧中國年會官網(wǎng)”。

image.png

現(xiàn)場照片直播分享:

image.png

責任編輯:qinpeng