奧推網

選單
科技

【圓桌對話】面對“去IOE”和資料安全,分散式資料庫如何發光發熱

9月16日,Distributed Cloud|2021全球分散式雲大會·上海站隆重召開。在全球分散式雲大會不懈佈道下,雲計算行業對分散式雲的關注度愈發高漲,以全球分散式雲聯盟成員為代表,湧現出了大量分散式雲技術和實踐成果,為分散式雲計算發展夯實了基礎。

2021全球分散式雲大會為分散式雲計算發展再添強大推力,本次大會共設有分散式雲主題報告會、邊緣雲論壇、雲原生專題論壇、分散式資料庫論壇四大論壇,圍繞分散式雲、邊緣算力、雲原生、分散式架構等技術與實踐展開。全球分散式雲聯盟聯合阿里雲、騰訊雲、Google Cloud、中興通訊、京東雲、安邁雲、網心科技等國內外分散式雲頂尖技術服務商,共話分散式雲創新新趨勢,共謀雲計算變革新未來,共享分散式雲計算新紅利!

在9月16日下午召開的分散式資料庫論壇上,嘉賓精彩的分享結束後,中國

DBA

聯盟(

ACDU

)理事長

   

蓋國強、騰訊雲資料庫產品專家

 

梁文燦、京東雲

資料庫中介軟體產品負責人

/StarDB

架構師

 

徐力權、

雲和恩墨(北京)資訊科技有限公司高階研發工程師

 

劉偉就分散式資料庫的技術發展和商業生態等話題進行了深度探討。

主持人:蓋國強

Oracle資料庫是集中的資料庫,它今天仍然統治著全球資料庫市場,市場佔有率最高。今天嘉賓們演講的主題是分散式資料庫,大家覺得分散式資料庫的機會在哪裡?如何才能夠獲得像集中式資料庫那樣取得過的巨大成功?首先有請雲和恩墨劉總。

嘉賓:劉偉

我之前從事網際網路DBA工作,之後再雲和恩墨參與了很多To  B的場景。Oracle從開始到現在還是無法被超越的,從MySQL到現在的分散式資料庫,更多傾向於低成本,另一個是擴充套件性更好,不需要像Oracle那樣,起步就有很高的成本。以典型的遊戲服務為例,如果一開始就告知遊戲廠商,資料庫的費用高達數百萬,廠商可能比較難接受;但是如果廠商可以用10萬先進行測試服務,之後再根據實際運營情況擴容,接受度會比較高一些。

主持人:蓋國強

你的觀點是分散式資料庫在成本上有優勢?

嘉賓:劉偉

我認為應該說是起步成本。如果都是超大規模級的,涉及很多其他情況,就不一定了。

主持人:蓋國強

下面請徐老師談談看法。

嘉賓:徐力權

我的想法,用三國演義裡的話講,天下大勢,分久必合,合久必分。分散式資料庫,從哲學角度去看,它處於分的時代,Oracle是合的時代。未來的時代,我覺得還是會走到合的終點,那個合可能不再是像Oracle一樣提供單機資料庫,這種“合”更多地體現在雲計算的雲資源,把現有的整個基礎資源和能力整合到一起,提供一個完整、智慧、自動化的資料庫產品。

“合”的另外一層體現,現在會區分TP、AP,但未來隨著基礎能力不斷提升,肯定到某一個時間點,這兩者可以融合。未來的終極的資料庫,它既有完整的基礎能力,又有像簡單的關係型資料庫這樣一個應用場景。分散式資料庫的目標,可能也是逐漸往這個方向靠攏,分散式帶來的好處是很強的計算能力,缺點是運營成本、運維成本都會往上提。資料庫再往後發展,把當前資料庫產品結合到一起,既有各自的優點,又有整體產品化的提升。

主持人:蓋國強

也就是說,資料庫雖然分分合合,但未來的資料庫將會消除內部的複雜性,讓外在看起來是透明的、集中式的,就像全世界最理想的只有計算機?

嘉賓:徐力權

對。

主持人:蓋國強

謝謝你,下面有請梁文燦老師。

嘉賓:梁文燦

我個人覺得,分散式也好,集中式也好,都是一種架構的變化。Oracle資料庫,從技術角度來講,依然是頂級的資料庫。但從大環境的變化來看,現在剛好處於國家在資訊保安方面著力的環境下,這一點對於國產分散式資料庫來說是一個機遇。

第二個是生態。Oracle也有Sharding,在中國電信有案例,但其他案例鮮有耳聞。國內的分散式資料庫,跟各種生態打通,現在優秀的案例非常多。產能能不能做好跟生態的結合,跟上下游的打通有很大關聯。只有形成生態,有很好的案例,才能走得更遠。從這個角度來講,國產資料庫也佔優勢。

第三個是技術架構演進。分散式資料庫跟雲緊密聯絡、結合在一起的,屬於新時代的產物,因此具備先天的優越性。

我想說的就是以上三點。

主持人:蓋國強

梁文燦老師講的三點,我覺得很透徹。我再簡單概括一下,分散式在中國取得了先機,這個先機跟整個生態的應用緊密連線在一起,有大量的案例,有實打實的使用者,有最大規模真實場景的考驗。這些真實的考驗,讓中國的資料庫在這方面獲得世界級的領先性。如果我們在集中式方面去追趕,其實很難超越巔峰的Oracle傑作。

雲的架構本身所生長出來的資料庫,天然就應該是分散式的。今天也有來自Google  Cloud的郭斌老師的分享,分散式理論最重要的三篇論文就是Google 誕生的,因為Google有全球佈局的大規模的雲基礎設施。

我們今天談分散式資料庫,在分散式資料庫出現之前,用的最多的是Superserve嗎?

嘉賓:徐力權

以前也是Oracle,當年很多資料庫從業者面臨的第一個挑戰就是去Oracle。

主持人:蓋國強

去IOE概念在中國提出至今已經超過十年了,事實上在絕大部分使用者的場景裡,Oracle仍然是具有優勢的。目前,去IOE依然是一項極具挑戰的事業,如何完成去IOE裡面最難的一環,實現商業資料庫的替換,大家有什麼新的看法?這次從梁老師開始。

嘉賓:梁文燦

就我們現在的客戶而言,出發點有三個,一個是信創試點,一般客戶會選擇全站的遷移,包括從伺服器CPU,到作業系統,到中介軟體,到整個資料庫,上述應用都會部署在容器裡,這個趨勢現在看起來是很明顯的。

第二,整個資料庫領域環境的變化,如果要去IOE,從架構上考慮,我覺得客戶更多的會在做應用適配上面,需要做更多的考慮,包括觸發器、儲存過程、函式等應用。如果說是一些新的應用,其實遷移到固態上都還是比較容易的,沒有那麼大的難度。

第三,如今我們和友商已經形成了聯盟,互相之間有遷移的工具和方法,能夠快速評估出系統是否適合遷移,遷移的工作量多大,有多少資料不能被遷移,之後再配合開發做重點的改造。改造完之後,經過大量生產的並行環境的效能的驗證,就可以做整個的並行切割,一般來講現在客戶會這麼去做。

主持人:蓋國強

謝謝文燦。力權你回答一下,剛才有人問,第一次聽說京東雲在做資料庫,是一直堅持雲上?還是會到線下來?

嘉賓:徐力權

我先回答關於去IOE的問題,對於去IOE這個動作,大家知道Oracle現在佔有率還是很高的,像銀行的核心業務還是在用Oracle。這是因為分散式的系統跟集中式的系統,天然就有比較對立的地方。採用分散式之後,必然要面對分散式帶來的問題,要去IOE,更多的是怎麼樣把這些問題給解決了。最典型的一個問題,分散式事務儲存過程,在分散式場景下,其實很難完全達到像Oracle那樣強的一致性。一般在做分散式資料庫的時候,可能更多的會跟業務做一些交流,在業務設計的時候,儘量往分散式方向去靠。

然後說回產品本身,分散式資料庫本身也是需要往這個方向去做。雖然有難度,但對於資料庫來說,最終可能會殊途同歸。

第二個問題,京東雲StarDB的實用形態的問題,StarDB以前推廣得少,這兩年才開始出現在大家的視野中。以前我們更偏向於產品在內部的使用打磨,做一些沉澱、積累。現在整個國產資料庫百家爭鳴的時代已經出現,StarDB具有分散式的能力,是能夠解決使用者的一些問題的,所以京東雲也想將StarDB開放給大家去使用。

關於形態,StarDB在設計時,就考慮過它的方式。StarDB有三種方式,這三種方式可以自由組合使用。我們在設計的過程中,最開始主要是積累,從積累中看資料庫到底用什麼方式去做比較好,於是我們在靈活性上做了些調整。在服務形態上,使用者可以在雲上去使用StarDB,也可以線上下以自由化的方式去使用。

主持人:蓋國強

謝謝!下面請劉偉老師談談。

嘉賓:劉偉

我說下個人看法。去IOE這個話題本身比較長,我自己也是從事編寫資料庫核心的,感受主要有兩個方面,一是資料庫從內向外的視角,從資料庫作者來說,肯定更希望把相容性做好,比如可以承接原先Oracle的SQL,但這只是從下往上看,如果從外往裡看,比如一個業務團隊,它可能只關心資料庫需要從Oracle資料庫遷到國產化分散式平臺,它遷移的時候,最大的問題是它原先都在一套資料庫裡面,它的TP和AP可能都在一套裡面,如果是說業務量不是特別大,其實還好。包括剛才的MogDB,它其實單機的效能已經非常高了。但是如果它有TB、百TB的資料,前面是一套Sharding分庫分表的結構,最後還得做資料增量複製,這些對客戶的研發、運維、架構設計都有比較大的挑戰。做這種事情的人經歷多起來,大家知道什麼情況下該怎麼去做,因此,人才的培養也比較重要。

主持人:蓋國強

對於廠商來說,要想替代Oracle資料庫是非常難的,因為它在易用性、功能性上的表現太優秀了。國產資料庫起步非常晚,要做到高相容性非常難。這件事情的破局,我認為大家應該堅持到拐點到來,在拐點到來之前使用者會因為種種因素,不願意選擇分散式資料庫。大家需要一直堅持到那個拐點到來的時候,我覺得所有國產資料庫廠商應該一起努力,只要拐點到來,不會有人糾結舊時代怎麼樣,新時代應該怎麼樣,這是我的觀點。

下一個問題,請嘉賓們從個人角度出發來回答。現在國內有300多家資料庫廠商,但是大家所做的很多工作都是類似的,對於行業整體而言,其實存在著研發力量的浪費的問題。從個人觀點出發,拋開大家各自所屬公司的限制,請大家談談如何解決這一行業整體問題呢?

嘉賓:劉偉

純粹個人觀點,首先,我認為需要制定一些精確的信創標準,這些標準如果能細化到比如SQL標準,如果符合這個SQL標準的所有細節,那就滿足信創。

第二點,分散式資料庫目前國內有一些類似白皮書的結構性的一致性約束。儘管存在一定的重複工作,我個人其實更傾向於現在的模式,這種模式的好處在於十個人能夠發揮十個人的作用,一旦讓十個人一起去做同一件事,更多的討論只會拖延工作的進度,導致十個人可能只發揮了兩個人的工作效率。我們需要的是保證往前邁出的這一步即是正確的一步,就可以了,這是我的個人觀點。

嘉賓:徐力權

從我個人角度去看,如果要達到群策群力,大家往一個方向去做,在上位,也就是政府甚至國家層面,對這個領域做集中的調控。因為這不是一個公司能夠解決的問題,也不是一個大廠能解決的問題,而是整個行業,整個社會要去解決的問題。所以最好是政府能夠制定類似於信創或行業協會的標準,然後才能夠帶領各企業,有錢的出錢,有力的出力;然後再像劉偉老師講的,制定標準,把這些本來就比較稀缺的人才聚集合力。這樣的話,蓋老師說的拐點,應該很快就能到來。

嘉賓:梁文燦

我說兩點,第一個我覺得還是競爭,競爭自然而然就會淘汰一些企業,然後促使其他企業提升自身水平。蓋老師提出的問題,要透過市場的競爭、人才的競爭,最終優勝劣汰。這個一定是趨勢,就像很多的行業競爭一樣,最終會落到兩到三家,最多三到四家,就跟公有云一樣,我感覺這個趨勢會非常明顯,最終一定會到人才競爭上。

第二個,蓋老師講大家都在做同一個東西,其實還是跟競爭有關係。現在廠商在做重點客戶,為了滿足頭部功能需求,廠家不得不去做同樣的事,不做競爭就失敗了。現在國產化的投入非常大,用以滿足客戶要求,但是從整個產品規劃來看,長遠規劃或前瞻技術領先方面,我覺得現在國內還需要繼續努力。這是我的個人觀點。

主持人:蓋國強

還有一個問題,其實想跟幾位稍微探討一下。我相信在座的大家也都會關心資料安全的問題。大家可能注意到了今年9月1號生效的《資料安全法》。資料實關每一個公民,它的安全性是不是能夠獲得有效保護,其實是非常重要的事情,我們最後來探討一下,如何去看資料安全?再回到各自的資料庫產品裡面,大家如何控制資料安全?

嘉賓:梁文燦

資料安全的問題很大,安全很重要,現在國家也提出了明確的安全需求,比如資料的透明加密。大型的銀行在海外有分支,支援國秘,也就是國家在安全推行的國秘演算法。一些客戶也會要求支援國秘,這說明現在中國政府越來越關注和重視資料安全領域。

第二個,整個資料的安全性,涉及到許可權管理是不是足夠精細、自動管控平臺是否足夠精細,會不會有風險等,這些都很重要。

第三個,審計。騰訊TDSQL,客戶要求審計,現在在PAXOS上審計,推送到大資料平臺。整套鏈路裡,資料是不是合規安全,是不是不同客戶能訪問,這些問題客戶都很關心,對於出海業務更加重要。

嘉賓:徐力權

資料安全不光是資料庫。去年9月,我們經歷了一輪大規模的護網行動,京東在安全方面是業內做得比較優秀的。很多資料看著是在手機上,其實也在網際網路上,京東有專門的安全團隊,不停地去掃瞄資料和儲存內容,確保敏感資料不以明文形式儲存。StarDB支援資料加密脫敏,也有很多實戰經驗積累,安全是關係到每個使用者切身利益的,所以我個人,包括整個公司都比較贊同和支援國家去對這個資料做加密,做智慧化儲存。

嘉賓:劉偉

安全這一塊,剛才兩位提到的都是雲上資料庫,雲下資料庫情況不一樣。如果對傳統的資料庫的安全有了解的話,就會知道一種叫做TDE透明資料加密的方式。資料在記憶體裡面是明文的,但落地變成密文了,這是最開始的手段,但後來要求記憶體裡也得是密文。

隨著行業不斷內卷,在OpenGauss上出現了最新形態——客戶端和服務端全鏈路全體系的加密。我不確定這個方向對不對,但這的確是我見過最完美的做法。在客戶端上解析完SQL,把客戶端透過動態金鑰加密,服務端獲得密文,落地也是密文。透過只在客戶端才是明文這麼一種方式,去解決資料在傳輸和雲上丟失的問題。

觀眾提問:

資料安全三個層面,一個是應用資料的安全,一個是元資料的安全,還有一個看量子計算。量子計算的解密能力非常強,未來應該如何應對?

主持人:蓋國強

這個話題我覺得已經超越了目前資料庫的技術範疇,很難去解釋。真進入量子計算的時代,現在計算機網會被顛覆。量子計算也是國家“十四五”裡面重要的攻關的方向之一,如果真的實現了,量子計算機來到現實,就像是關係型資料庫來到資料庫的世界一樣,它把過去的資料庫全部擊潰了,是劃時代意義的東西。

觀眾:

資料在記憶體上面進行加密,我在程式設計的時候,怎樣選擇?比如說我選擇go,C++,我有可能保證我的記憶體,我選擇RAST,一方面架構設計,一方面落地到語言也是戰略性選擇。

主持人:蓋國強

所以我說那種方式做得非常極端,事實上服務端資料的加解密,那個比較會放在單獨晶片裡面去做,拿RAST寫了個外掛丟進去,還是有問題。

觀眾:

相容性還是有問題?

嘉賓:劉偉

不止相容性。因為把客戶的資訊解析和加密都放在客戶端,任何一個語言要用它,你的客戶端的得自己負責解析和加密,以及整套的加密演算法。

觀眾:

事實上形成硬體加密?

嘉賓:劉偉

最終在服務端在硬體的空間裡面做解密比較,那塊空間常規程式設計手段管不到。

主持人:蓋國強

不知道是不是解答了你的疑問。這是目前軟體領域實現的一些東西,其實在OpenGauss即將釋出的版本里,區塊連結串列實現了。Oracle在21的版本里實現了區塊連結串列,是靠單庫來實現的;現在高斯透過三副本來做健全。如果未來國產資料庫大家一起能幹點新鮮的事,而不是基礎的事,也挺值得期待的。