奧推網

選單
科技

...高維元資料管理系統和方法——解決資料治理的元資料血緣關係問題

複雜網路:是指具有自組織、自相似、吸引子、小世界、無標度中部分或全部性質的網路。

元資料:為描述資料的資料,主要是描述資料屬性的資訊,用來支援如指示儲存位置、歷史資料、資源查詢、檔案記錄等功能。

邏輯計劃:是對傳統資料庫中SQL解析的邏輯計劃的一次進一步提煉,這裡是對資料庫上層邏輯的一次抽象,如有SQL的邏輯計劃、圖的邏輯計劃、AI的邏輯計劃等。

Hubble資料庫支援多種邏輯計劃如圖邏輯計劃、SQL邏輯計劃、AI邏輯計劃等,其中圖的邏輯計劃可以提供標準的圖的訪問介面等。本次專案首先用到了Hubble資料庫的圖邏輯計劃;其次在元資料表達層,透過圖的方式來表達元資料之間的關聯關係,使元資料在更高的維度被表達出來。因為高維的表達,帶來更多新的特性,資料的相似性、關聯關係、健壯性、中心性等可以很好的做分析。透過Hubble做為支撐,從SQL的反解析、應用的逆向工程,自動的構建元資料網路,符合Dama2。0的設計,為資料治理提供新的方法論的支援。

技術說明

元資料管理作為資料管理框架中一項重要的管理職能,被廣泛地應用於企業的資料管理體系中。元資料是指描述資料的資料,是對資料進行描述、解釋、定位使其更方便檢索、使用或管理的資料。元資料包括技術元資料和業務元資料。其中,技術元資料是從資料結構和資料處理細節方面對資料進行技術化描述,業務元資料是從業務術語、業務描述、業務指標和業務規則對資料進行描述。

元資料管理系統包括:業務物件生成模組、關聯節點獲取模組、關聯關係解析模組和元資料加工模組,用於根據至少兩個原始節點生成業務物件,獲取業務物件的關聯節點,並獲取業務物件和關聯節點之間的關聯關係,根據業務物件、關聯節點和關聯關係形成複雜網。

Hubble資料庫創造性的提出邏輯計劃的概念,是對SQL解析中邏輯計劃的升級,把資料庫對不同邏輯的支撐定義為邏輯計劃,如SQL邏輯計劃、圖邏輯計劃、AI邏輯計劃、3D點雲邏輯計劃等。所有的邏輯計劃共用儲存層、排程層、資源管理層,在對元資料的處理中採用了複雜網路的方式來做高維表達,對元資料的相似性、關聯關係、健壯性、中心性等在複雜網路層透過圖的演算法快速實現。對於應用,該方法透過對SQL的反解析,以及應用逆向工程,實現元資料網路的自動構建。在邏輯計劃層,Hubble透過對底層底層介面資源的進一步抽象,對儲存、排程、資源等這在SQL邏輯重點對SQL的解析、SQL計劃轉化、SQL最佳化做處理,在圖的邏輯計劃中對圖的點、邊、屬性等做對應的對映,使圖的基礎元素可以方便的對映到底層儲存中。

在對應用的SQL反解析中藉助了Hubble資料庫的SQL解析可以對Mysql、Oracle、DB2、Hive等常用的資料庫的語法全部做到相容並解析為抽象結構樹,在對樹型結構做關係抽取,對映到表與欄位的關係、表與表的關係、欄位與欄位的關係,從形式真正的血緣關係圖譜,並透過演算法對圖中的相似關係進行計算,得相似性關係圖譜。每個圖譜中的基礎節點就是原始節點,由於原始節點代表了技術元資料,根據原始節點生成業務物件並形成以業務物件為中心節點的複雜網路,實現了技術元資料和業務元資料的融合,從而,使得元資料管理系統能夠更好地適應企業不斷髮展的業務需求,提高了元資料管理的靈活性和有效性,提升了資料資產的價值。

透過對圖譜技術元資料和業務元資料進行圖算如Pagerank、最短路徑、刪邊、介數等計算得圖元資料的活躍性、連通性、健壯性等圖的基礎特性,賦予元資料對應的表與欄位,形成對應的血緣關係。在圖譜的輔助下方便做進一步的主題構建。在主題構建中基於圖譜的血緣關係以及基於Hubble資料的計算能力、多源異構的能力,可以實現虛擬主題的構建,做虛擬檢視對映,減少資料的移動,以及儲存空間的佔用。

★專利申請號/公開號

:CN112364096A

開發團隊

·帶隊負責人姓名:喬旺龍

喬旺龍先生

,金融科技產業聯盟分散式資料庫專委會委員、參加國家級相關發明專利編寫多項,曾主導編寫“智慧糧食系統內部資料採集研究”發表與《中國科技縱橫》,2013年入職天雲融創資料科技(北京)有限公司,現在我司擔任副總裁,負責我司分散式基礎元件的分散式產品線,包括分散式資料庫、圖計算等,其計算機相關知識紮實,在分散式、資料庫等多個領域都有突破。

·隸屬機構:

天雲資料

天雲資料,首批國家級專精特新小巨人企業,資料庫及人工智慧基礎軟體獨角獸企業。

在資料供給側:天雲資料榮膺全球領先的資訊科技研究和顧問公司Gartner代表性中國資料庫廠商TOP5;資料庫產品Hubble同一產品同一軟著同時透過信通院的事務和分析能力評測;工信部開展的2022年大資料產業發展試點示範專案, Hubble資料庫作為唯一一款國產HTAP資料庫入選,獲得國家級重點專案推薦。

在資料消費側:天雲資料榮膺全球資訊機構Forrester魔力象限圖“認知層”第一象限公司;提供認知層AI模型流水線生產平臺AI PaaS; 中國證監會公佈的“首批納入資本市場金融科技創新試點專案”,天雲資料的“單賬戶配資異常交易監測系統”從51個行業優質專案之中脫穎而出、位列三甲,成為“證監會版”監管沙盒專案之一。

天雲資料已經為50+家五百強及上市公司提供服務。

2021年底,天雲資料完成數億元D輪融資,本輪由北京市國資基金、上海市國資基金、蘇州市政府等多家國家隊基金共同投資。

相關評價

在過去的數字化、智慧化建設工作中積累了海量的資料,但各系統相對孤立。今天要做數字化轉型,需要面向整體業務板塊進行全域資料管理。中石化公司在幾年前開始規劃“集團——板塊——企業”三級資料湖架構和邏輯一致、物理分級的資料治理和資料管理體系。規劃設計集團統一的分散式資料資源目錄,並制定統一的資料管理許可權,作為公司資料資產唯一的釋出和共享平臺。天雲資料的AI平臺,切合公司的需求,在智慧油田、資料治理等專案中得到了很好的應用。

——中石化數字與資訊化管理部處長 肖波

資料質量管理不單純是一個概念,也不單純是一項技術、也不單純是一個系統,更不單純是一套管理流程,資料質量管理是一個集方法論、技術、業務和管理為一體的解決方案。透過有效的資料質量控制手段,進行資料的管理和控制,消除資料質量問題進而提升企業資料變現的能力。天雲資料質量智慧分析工具設計理念—— (雙模) IT 架構,模態1是可靠IT,持續穩定現有業務的發展,像馬拉松運動員。模態2是敏捷(Agile)IT,推陳出新,佈局新產品和模式,像短跑運動員。在企業向第三平臺轉型過程中,二者缺一不可、相輔相成。天雲資料“資料質量服務”服務就是可靠IT和敏捷IT之間的“變速齒輪” 。

——國網普華專案負責人 尹將伯