奧推網

選單
科技

【金猿人物展】天雲資料雷濤:從資料湖到湖倉一體再到資料編織,完成...

本文由天雲資料CEO雷濤撰寫並投遞參與“資料猿年度金猿策劃活動——2022大資料產業趨勢人物榜單及獎項”評選。

這一兩年,北美以Facebook、谷歌為驅動的存算分離的虛擬數倉架構,正在非常快速的洗牌現代的資料融合市場。其大的背景驅動是市場正在經歷從數字化轉向資訊網際網路和產業網際網路階次性的臺階變化。在這種變化之下,其實背後的技術驅動還是非常清晰很明顯的,就是以Java、SQL為核心的流程驅動業務轉向了AI和分散式這些技術框架的數字驅動業務。產業網際網路帶來了資料使用方式上的一次革命性升級。

1、第一個變化

,就是資料新鮮度的變化。我們在使用什麼時間的資料,是在消費以天、小時級、分鐘級、秒級還是百毫秒級的資料?

俄烏戰爭,兩個相同工業體系相同裝備體系的國家,用不同的軍事思想和技術手段打了一場令人瞠目結舌的仗。資訊科技已經改變戰爭模式, 如果不能支撐實時性的戰情資料流,不能確保資料的鮮活度,從本質上來講雙方打得就不是同一場戰爭了,因此市場需要高度重視HTAP系統提供新鮮分析的重要性。

今年一篇論文《我的HTAP系統有多好?》,談到的第一個技術指標就是Freshness(新鮮度)。就你在消費什麼時間的資料?用什麼樣的一個方式?如果基於傳統BI架構的話,我們需要從Oracle、MySQL這些交易型的生產系統裡把資料同步出來,用ETL的方式或者是批處理的方式加工到資料倉庫裡頭。所以在資料倉庫裡,待分析的原材料已經是以天為時間的資訊了。

你是在消費以天、小時級、分鐘級、秒級還是百毫秒級的資料?

我們怎麼去把一些從最早的Storm、Spark Streaming這些流計算的框架到現在比較成熟的像Kafka、Flink的框架來驅動一個流資料作業?比如量化交易裡,我們怎麼去對沖擊成本?對實時的掛單資料去做一個預測?這個肯定要基於3秒之內的掛單資料來完成。

現在的一些開源框架,透過工程化的手段能夠被市場接受了。把TP和AP做融合,成為湖倉一體的概念;然後把MPP資料庫與湖倉一體融合,成為新技術趨勢。實際上就是將MPP資料庫加Hadoop開源。

這種現象會帶來什麼風險?MPP資料庫不能單獨支援湖倉一體,它需要 Hbase 和 ES 來配合,本質還是屬於資料集。在某大型股份制銀行,為了支援手機銀行端的個性化數倉,實現手機端對大屏小屏化的趨勢,傳統 MPP 結構根本沒法滿足剛才說的這種服務價值,還要配套數百個節點,所以現在市場上湖倉一體的本質還是一個整合方案,需要在傳統MPP資料庫和開源Hadoop之間做大量的資料同步和一致性校驗。既然要有資料同步,就必然有時間視窗、資料的不及時性、不一致性。

HTAP現在作為一種主流的技術框架,已經開始進入到核心資料驅動業務的前端,支撐我們消費最新鮮的資料。

我們怎麼用資料,流的形式跟庫發生關係HTAP就是Hybrid Transaction and Analytical Process就是混合負載架構。

2、第二個變化,

我們面向誰在提供資料服務?網際網路的資料產銷合一方式帶動了流程驅動向資料驅動的資料庫架構轉型,資料從服務決策者轉向服務一線人員,HTAP系統才能保障每個人都能實時看到同樣高質量的資料。

烏克蘭的反攻又是如此之快,雖然俄方用上了核武器卻依舊久攻不勝,核心是少了一樣“殺手鐧”:透過實時高併發資料基礎設施構建最短秒殺傷鏈。俄烏軍事行動,進一步驗證了馬賽克理論的分散式作戰思想,分散式排程的核心是N條實時高併發的資料鏈,戰場下沉式服務要支撐每一個士兵的作戰請求,資料庫必須能支撐高併發。烏軍化整為零,將作戰體系分解為數量更多、規模更小、功能更少、更容易組合的作戰模組,從而奪取戰場的綜合制權。20秒殺傷鏈替代了集中指揮排程中心,讓前線計程車兵可以像使用滴滴打車一樣匹配作戰目標、火力資源。

我們在面前誰提供資料服務?這個問題是非常關鍵。

傳統BI以報表、視覺化更多是面向C-Level的決策,所以是宏觀的、共性的、統計趨勢性的問題。但網際網路帶來的金融服務的業務化,越來越多地把資料驅動業務推到了理財經理,推到了營業廳一線,甚至推到了C端客戶。從大屏演示轉向了C端客戶的小屏操作,這種個性化的資料驅動和要求對後臺的技術設施提出了一個非常關鍵的、很難逾越的技術指標就是:

高併發。

我們以前在資料消費的時候更多的都是在資料倉庫裡完成。資料倉庫是OLAP分析型業務,透過侵佔更多的資源來完成一個大IO操作。所以MPP資料庫有一個很大的挑戰就是它不能夠支援高併發,它的作業是排隊機制。

當遇到個性化服務下沉時,它就碰到了一個瓶頸。

市場提出了一個新概念Lakehouse(湖倉一體),就是把資料倉庫處理結果再同步到一個大資料平臺,比較受歡迎的方式就是MPP再加上Hbase。我曾經看到一個國產化專案,真的把MPP資料庫給替代了。但是面向1億多使用者的小屏服務的時,它不得已還要同步到一個大規模的Hbase裡頭,Hbase來支撐MPP資料庫的個性化的駕駛艙與提交,又變回開源且複雜的工程。就這個專案大概300多個節點Hbase、600多個運維開發人員,每年的運維費用、開發服務費用大概3個多億的人力成本。

所以用產品級基礎設施架構去替代開源工程和大規模人力外包服務是一個很典型的一個技術平臺趨勢。無疑又是HTAP混布型資料庫,可以支撐替代MPP加Hbase這個結構來實現服務下沉。

3、最後一個變化,

基於存算分離、聯邦計算的資料編織架構,帶來了一次去ETL、去主資料MDM,資料處理的邏輯開始被漸漸從傳統的指標加工轉向資料特徵加工,支撐AI智慧服務應用。

一、合適的資料在哪裡?

這是傳統資料治理的一些範疇和問題,傳統的資料治理都是以主資料、資料字典這些方法去做資料標準,透過對Delta體系裡規定的關鍵指標分解到庫這個實體,從主題、檢視一層一層展開去做。

去年Delta2。0、Gartner均提出了Data Fabric,這是一個全新的資料組織結構,也是自下而上透過對IT資訊化系統還原進而對儲存過程、SQL語句的還原。資料編織把IT反饋的資料依賴邏輯用一個更高維的資料結構表達,就是知識圖譜、複雜網路,透過把欄位和庫、表之間的關係,還有主鍵外鏈的這種業務邏輯,表達到一個點和邊高維的可計算的元資料網路裡頭,透過元資料網路的計算來承擔。

因此新興的方式開始從傳統的資料治理走向了Data Fabric資料編織。

在資料編織架構裡,很多我們耳熟能詳的ETL、MDM主資料處理的邏輯漸漸被洗牌掉,我們開始用一種新興的‘不動Data’而‘動Code(程式碼)’的方式來完成大規模資料在分散式環境下的融合、處理和計算。

新興的資料編織技術有兩個核心,幫助他在工具箱裡頭獲得的能力。第一個是2016年Google提的Query Federation,可以將一個SQL在邏輯計劃拆解粉碎以後透過聯邦計算的方式推送到被融合的資料庫的節點上執行,也就是透過一個大的HTAP資料庫去連線不同的Oracle、MySQL,或者是Hbase、Hive這些資料庫,然後將統一的SQL透明化的執行在邊緣側。第二個是資料編織Data Fabric,可以透過抽象語義層來完成存算分離的架構。存算分離架構帶來的好處就是資料儲存還在各個Oracle、MySQL裡頭,因此在統一的HTAP系統裡面只有計算節點,透過記憶體的計算,它獲取的資料並不是把整個庫同步到目標層,而是隻是針對這個SQL語句,所涉及到的欄位級別在計算場景這一時刻同步到記憶體裡完成計算。

二、如何實現有效的資料編織呢?

赫伯特·西蒙在資料驅動業務裡曾經設計過,也是我們在工程裡面經常對外講的“符號主義”。面向確定性流程的資料管道我們可以把它描述出來,在一個免程式碼的中臺環境裡面把它描述成一個數據流,然後把這個資料流封裝成一個容器,服務釋出到任何一個分散式的Hadoop叢集、大資料平臺之上去執行,這樣我們就可以彈性的定義不同的資料管道。

資料管道一旦定義出來就可以釋出成一個雲原生的Docker服務映象,給資料使用者。

資料使用者可以訂閱,每天像資料API一樣去使用。如果加上AI專家系統,就可以編排很多個管道。AI的專家系統其實是由業務人員、資料驅動的業務人員去使用,透過拖拉拽的形式完成資料的服務流的定義,它就可以去SQL化甚至去ID化的來生成這種服務定義的介面。

這整個過程,也就是從資料湖到湖倉一體再到資料編織,完成的是燃油車到油電混到純電技術的改造。鐳射雷達、無人駕駛、電池重組技術這些內容在以前的燃油車時代是不用看的,這也也意味著我們現在的資訊化市場、IT市場經歷一次結構性的變化。

今天IT向DT的遷移,流程驅動轉向資料驅動,並不僅僅是一個概念的迭代。而更多的是,很多基礎的核心元件發生一些變化。這些元件從嚴謹的執行人類指令的這些系統架構、程式碼程式,轉向了由資料驅動的供給和消費。

這不是簡單的替代邏輯,是產業鏈升級邏輯。作為一個科技產業從業者,我對“2023年大資料產業”也做兩點趨勢判斷:

1、信創是一項非常清晰的國家戰略

所有支撐市場服務的開源工程必將轉向原創產品,國產資料庫必須摒棄利用開源封裝的偽軟殼技術,才能掌握硬核技術核心突破外部限制,實現技術創新科技創新。

國產資料庫起步晚,在資訊、人才、技術等多重窘境之下,很多企業採用“拿來主義”的手段彌補國產技術的空白。要麼基於開源系統改進,要麼從廠商購買原始碼授權,我前面也提了很多開源工程,也完成了服務且暫時被市場接受,但其產品架構幾乎不可能調整,想掌握其核心技術更是難上加難。

資料庫作為一個具有國家屬性的產品,必然與屬國命運與共。國產資料庫必須走自主創新的道路,摒棄利用開源封裝的偽軟殼技術,掌握硬核技術核心,突破外部限制,實現技術創新科技創新。才能有機會實現追趕甚至超越,才能接得住面臨第三波數字紅利。

2、產業網際網路時代更多是機器生產/消費資料

邏輯計劃升級是資料庫面向機器資料必然要走的路徑,不再僅侷限於資料視覺化這種服務為目標的 SQL 操作,而是面向機器學習演算法、內建ML能力。支撐資料供給和消費的一體化,AI-Native資料庫是最後的歸宿。

隨著IT向DT遷移,就像燃油車和電車的區別一樣,IT市場正在被一些新興的技術元件所替代,這些元件的核心就是供給和消費的一個數據閉環。任何一個新事物的落地,都不會立竿見影的有結果,也不可能直接對號入座到舊世界,它肯定是要完成一個最小級閉環。資料庫作為供給側,AI 作為消費側,這是我們相信的一個最小級的閉環。

網際網路帶來了個性化服務,淘寶推薦引擎、千人千面個性化結果,要跑的是貝業斯網路、是協同過濾演算法,是這些演算法再替代SQL的視覺化服務。怎麼能夠在同一個計算的庫體上,面向機器學習的操作面向新興的資料驅動業務的演算法?AI內生資料庫是一個必然要走的路徑。尤其是應對產業網際網路,第三波的機器資料生產,更多的物聯網的機器生產、感測器,他的機器資料物理意義人理解越來越難,比如油壓、溫度、結蠟、工況都是一些科學屬性。這些資料它很難用決策,因為它對人類來說需要更強的科學知識才能去理解。所以將會是機器生產資料,機器消費資料,資料供給和消費一體化。

·

關於雷濤:

雷濤 天雲融創資料科技(北京)有限公司 CEO,博士後工作站企業導師,中關村高聚人才,國家人工智慧最高獎項“吳文俊人工智慧科學技術獎”獲得者。

擁有30餘年北美資訊科技公司從業經驗,主導並參與中國移動、中國聯通、工商銀行總部等多個億級大型資訊化專案規劃建設;

2005年入席SNIA儲存工業協會中國區技術委員會聯合主席,2013年首批CCF中國計算機學會大資料專委會委員,長江商學院特聘講師。