奧推網

選單
科技

董宇:資料庫行業背景及發展趨勢分析

圖片來源@視覺中國

文 | 鈦資本研究院

中國資料庫市場將迎來高增長態勢,原因有四點:首先是政策利好,國家大力支援國產資料庫廠商的發展;其次是需求拉動,國產化和數字化轉型帶動需求的爆發式增長;同時,供給端傳統、初創和跨界各型別廠商厚積薄發,產品和技術經歷了多年工程實踐的打磨走向成熟;此外,國內企業對基礎軟體的付費意願和IT支出佔比在逐年提升,有利於市場的長期發展。

可以預見的是:

未來,中國資料庫多場景現狀與融合需求長期並存,雲資料庫(包括公有、非公有各種形式)成為主流;開源成為產業網際網路時代資料庫廠商的破局之刃;人工智慧延伸DBA的能力半徑,最佳化資料庫效能,是資料庫下一步發展的目標。

資料庫市場現狀如何?未來有什麼發展趨勢?在哪些細分方向值得投資?最近,鈦資本投研社邀請南虹資本VP董宇進行分享,他主要負責南虹資本數字化、新材料、新能源方向,擁有復旦大學本科、碩士學位。南虹資本由市場團隊和國有公司共同發起成立,是集科創投資、資產管理於一體的綜合平臺,聚焦於先進技術與產業升級的科技創新投資領域。本次分享主持人是鈦資本董事總經理王勇,以下為分享實錄:

行業背景

資料庫是按照一定資料模型和組織形成的,具有冗餘度小、獨立性高和拓展性強的特點。資料庫全稱為資料庫管理系統(DBMS),正如其名,它是負責維護資料庫底層的管理系統,而負責維護管理系統的人則被稱為DBA。資料庫管理系統由執行緒和記憶體池組成,如果客戶要看資料庫中的資料,它會透過例項(Instance)來實現,而不是直接讀取硬碟上的檔案。資料庫系統之上還有一層應用系統,就是我們平常看到的互動介面,平常使用者在這個介面上進行操作,給資料庫發動一個指令,資料庫系統就會把例項發放給資料庫進行讀取工作,再經過一系列後臺分析,將資料提取到使用者面前。

根據統計,資料庫全球市場規模大概在八百億美元左右。比較突出的是,資料庫在全球範圍內市場集中度非常高,近五年內全球top5企業常年佔市場份額的80%以上,而位列top3的微軟、甲骨文和亞馬遜常年佔比更是達到70%左右。

整個資料庫行業的產業鏈上游主要是硬體廠商,比如國內的中興和華為。中游分為DB(資料庫底層開發商)、資料庫DBMS(管理系統開發商),以及為他們配套實施服務的服務商。下游分為應用開發商和行業使用者。整個資料庫行業有多種參與方式,比如華為同時參與了上游的硬體,又開發推出了中游的華為雲資料庫DBMS系統。

行業背景

資料庫誕生於20世紀60年代,經歷近十年蝶變,到了70年代,IBM提出了商用的關係型資料庫,此後,這種商用資料庫經過包括Honeywell、IBM、微軟等主流廠商的迭代更新,逐漸推廣於市場。隨著資料化趨勢的發展和大資料時代的到來,資料庫逐漸從燈光邊緣來到舞臺中心,成為了大資料時代最為重要的基礎設施之一。自商業化後,長期以來,商用關係型資料庫始終處於本地化部署階段,直到2010年以後,資料庫逐漸發展出了以下三大新趨勢:第一,資料庫的多元化。隨著人們的需求逐漸多元化,一些非關係型的資料庫得到了蓬勃發展,可以適應更多應用場景。第二,資料庫上“雲”。隨著雲技術、通訊和網路技術的大發展,資料庫逐漸從本地部署向雲上轉化。第三,資料庫的開源。最早的資料庫是以閉源為主,後來逐漸有更多開源的資料庫入場。

發展趨勢

什麼是關係型資料庫?最常見的就是我們常用的excel,非常直觀地用二維的行列來排布資料。非關係型資料庫即儲存形式不是二維結構的資料庫,從實時性來看,資料庫還分為兩類:一個是事務性的資料庫,特點是要求有互動行為,對於響應的時間要求比較高;另一種是非事務性資料庫,單純把這些資料儲存在裡面,後續再進行分析。

發展趨勢

但它有幾點問題:一點資料庫的靈活性較差,資料只能以規定的形式來填取,一旦一個數據庫成型之後,想更改它的形式非常困難;二是它的資料儲存方式非常講究資料關係,對海量資料的處理非常不友好。

隨著資料行業的大發展,資料要求的應用場景越來越多,出現了不以二維結構而是其他一些關係來儲存資料的資料庫,這些統稱為非關係型資料庫。它們的特點是格式靈活。由於不透過關係處理資料,所以它的響應速度和效能比較優秀。

但是非關係型資料庫也有一些問題:第一,它的邏輯比較難,比如圖資料庫就是以圖形或者網路作為儲存的結構,以網路結構勾結起資料之間的關係,在理解和學習上需要投入較高成本;第二,不適合進行復雜操作,由於不是透過強關係性來儲存,在調取複雜查詢的時候,需要從一個表跳到另外一個表,再跳到後一個,以此類推,效率比關係型資料庫要低。

第一個發展趨勢是資料庫的多元化。當下,關係型資料庫仍然是市場主流。

以Redis鍵值資料庫為例,經典應用場景是微博上的發帖功能,因為微博是個超大規模應用,經常會出現高併發的狀態,所以適用鍵值資料庫。其他的資料庫也都有自己特定的應用場景。

關係型資料庫有一個比較權威的評價社群叫做“DB-Engines”。作為一種比較成熟的資料庫形式,關係型資料庫還衍生出了諸如分散式資料庫、雲關係資料庫等分支形式。但該類資料庫近年發展面臨挑戰,在2022年8月受關注程度最高的前20個數據庫產品中,非關係型資料庫佔了9個,相關技術更是發展迅速,正逐漸取得市場認可。

關係資料庫中的資料,彼此之間的關係一目瞭然,理解起來輕而易舉。由於它的儲存效能比較好,所以有易於維護、便於理解、使用方便等優點。

通常來說,傳統的本地資料庫是把資料庫以及DBMS這些軟體都部署在本地的伺服器上。

常見的非關係型資料庫包括鍵值資料庫、文件型資料庫、時序資料庫和圖資料庫。

它主要有兩種模式:一個就是透過虛擬機器映象在雲上獨立執行,資料庫實際上是一種比較常見的私有云形式;另外一種就是將資料庫的硬體系統和DBMS的大部分功能都交由雲資料庫廠商來提供,而使用者只需獲得訪問許可權,透過網路去訪問資料庫的服務。隨著雲計算技術以及通訊技術的發展,雲資料庫已經步入了商業化程序。根據統計,本地資料庫每年的增長只有4%左右,而云資料庫每年的平均增長大概為16%。

據統計,截至2021年,全球本地化部署的和雲資料庫系統的DBMS的收入情況方面,Oracle常年處於霸主地位,2019年之前一直保持第一。但繼2020年微軟憑藉微軟雲的增長奪走魁首之位後,2021年,亞馬遜也憑藉亞馬遜雲AWS超過Oracle躍居第二。國內有三個廠商進入排名榜單,分別是位列第7的阿里雲和位列第9的華為雲以及第12的騰訊雲。傳統本地部署資料庫的佔比排名都有所下滑,新興雲資料庫廠商排名上升。這是雲資料庫的大勢所趨。

為什麼會有這樣的發展趨勢?因為本地部署的資料庫存在一些不足之處:最突出的一個缺點就是成本高。資料庫跟倉庫有一定的相通之處,用倉庫來打比方,本地化部署的資料庫其實相當於廠商租用倉庫的用地,這是一筆投入;還要在裡面安裝各種的貨架、服務設施,這是初始投入;同時還需要為這樣的一個數據中心配備員工,為一些系統在使用的時候提供電力系統,整體來說初期投入很大、決策很重,而且後續的運營也需要持續投入,成本比較高。第二點是可靠性需要冗餘,需要額外的部署儲存作為備用。第三點是擴容和迭代比較困難,資料庫本身是本地部署的資料庫,有硬體系統和軟體系統,硬體系統要擴容的話要買更多的伺服器。另外一點就是因為老系統用著比較舒服,導致沒有那麼強的動力去更新發展,導致在擴容和迭代方面比較困難。

相比之下,雲資料庫就有不少優勢。

第二個發展趨勢是雲資料庫。

由於冗餘的備份都是由雲資料庫廠商來提供服務,因此這一方面的成本又進一步下降。既能滿足需求又成本低,就逐漸產生了資料庫上雲的大趨勢。但云資料庫也有的一些問題,其中最大的問題就是其成熟程度。本地化的資料庫,從商業化到現在經歷了近50年的發展,有大量的功能和程式碼的豐富積累,功能比較完善,而云資料庫廠商由於業態、業務形式都比較新穎,因此它的工藝積累不如已經成熟的本地化部署方案。而且在升級和迭代方面,其系統的相容性也不如本地化部署。

雲資料庫就是把資料庫和大部分的DBMS管理軟體、總環管理系統放在了雲端。

首先,什麼是閉源資料庫?大家所熟知的一些商業化資料都是閉源的,原始碼對於這些廠商來說屬於商業機密,不對客戶開放。開源資料庫正相反,其資料庫程式碼向公眾開放。

它有幾個特點:第一,由於開源的授權費沒有商業化資料庫那麼高,成本相對來說要低一些。第二,也是最重要的一點,它的原始碼完全公之於眾,客戶在使用的時候能夠清晰地看到裡面資料的情況,對資料的流向、指令瞭如指掌,不用擔心資料庫裡面是否存在“走後門”的情況,可以滿足自主化和資訊保安的需求。第三,由於傳統的商業資料庫集中度比較高,對於使用者來說是比較強勢的一方,它本身不提供額外的定製化開發,僅由第三方服務商提供應用層面的二次開發;而開源資料庫不僅可以自行開發,還可以在DBMS程式碼層面直接進行開發。

開源資料庫收費方式遵循開源資料庫的開源許可證,一般由一家公司來運營,以MySQL為例,它的程式碼在一個開源平臺上面公佈,由各個成員單位和成員進行定期維護。它的準則是,如透過開源的程式碼二次開發的資料庫產品也是開源系統,就不用收費,反之則要收取一定的授權費用。

它最大的特點是伺服器硬體和維護服務是雲資料庫廠商提供的,初始成本投入比較小,而且不需要提供太多的維護。

DB-Engines在2022年統計過,發現開源資料庫的許可證數量在2021年反超了商業化閉源資料庫的許可證數量,並在2022年8月呈逐漸擴大態勢。現在就數量來說,開源的資料庫比閉源的資料庫更多。

回到國內市場,我國資料庫市場也是以關係型資料庫為主,根據信通院的測算,2020年資料庫市場行業的整體規模大概是二百四十億,根據IDC的統計,2021年關係型資料庫大概有一百八十億,佔比70%左右。但我國比較特殊的一個特點是上雲的系統比本地化部署的系統要更多。

IDC對國內的資料庫市場份額進行的統計顯示,實際上,國內廠商如阿里、騰訊和華為在雲資料庫市場合計佔比已經超過了70%。就本地化部署模式來說,雖然Oracle還是佔有最大的比例,但從2019年的資料來看,海外四大廠商的市場份額已經從原來的接近70%降到40%多,而國內的如華為的本地部署模式的資料庫的份額有一定程度的上升。

國內資料庫有幾個特點:第一,

第三個發展趨勢是資料庫開源。

那麼就出現一個問題,它們現有的資料庫還有相當比例的Oracle和IBM老資料庫,但新系統又是各種國產廠商的資料庫,為了統合原有的商業化資料庫和開源資料庫,只能在上層的應用層面來進行修改,這就形成了所謂的重應用和輕資料庫的模式。

第二,

開源資料庫已經成為了資料庫行業發展的趨勢。

國產資料庫有58%是基於MySQL這類開源的資料庫二次開發得來。事實上,國內資料庫的市場規模在全球的佔比其實並不高,只有5%,但是國內資料庫的廠商數量在全球佔比相當高,達32%,遠超過國內資料庫市場規模佔比。這顯示出小資料庫廠商現在也處於蓬勃發展的狀態。

同時,

比較重視應用層面而輕資料庫,大部分的存量資料庫還是Oracle和IBM的資料庫,但是隨著“去IOE”積極推進,國有四大行的新構建的核心繫統已經改為國產的資料庫。

主要原因在於資料庫涉及到資料安全。政企、金融這類資料高度敏感的客戶有監管合規的要求,需要把那些資料庫部署在本地的伺服器上面,而不是放在雲伺服器上面。除了混合雲模式以外,還有把雲模式以及本地部署的原有的資料庫打通,產生的一種組合形式。

國產的資料庫大部分是關係型資料庫。

國內的資料庫在雲資料方面是私有云、公有云、混合雲多種模式並存,未來是以組合形式為主。

A:在雲資料庫方面,國內其實已經有幾個比較大的廠商了,但是需要指出的是,三大廠商現在的資料庫還是以關係型資料庫為主。全球大趨勢是關係型資料庫並不能夠滿足所有場景的各種需求,我認為隨著國家的資料化和資訊化的進一步建設,必定會產生新的應用場景,需要國產資料庫提供比較好的持續性資料庫的服務。其次,國內現在正處於一個重應用而輕資料庫的階段,雖然國內現在的資料庫類別多元,但國內廠商普遍IT能力還不足。所以,他們需要第三方服務商來幫他們部署實施開發上層的應用程式管理系統,來打通不同的資料庫。這個第三方就是開源的資料庫,三大廠商的雲資料庫系統並不能滿足所有的需求,肯定會有定製需求,也會有一些客戶想要一套相當於本地部署的二次開源的資料庫。總結來說,在非關係型資料庫上,國產還是有一定機遇的。

問答

A:Mongo DB兼具幾種屬性。第一,它是一個開源的資料庫。第二,它是一個非關係型技術資料庫。文件型資料的應用場景實際上和傳統的資料庫有一定差異,國外的這些資料庫也在避開單純的關係型資料庫,跟傳統的商業化資料庫進行比拼。這其中有幾個思路,一個是做開源的系統,像MySQL其實就已經跑出來了,它是一個比較典型的情況。第二個就是像Mongo DB做非關係型資料庫,能夠得到更加有差異化的一些應用系統。另外一個非關係型資料庫怎麼做,因為要上雲系統,對於廠商的資質要求還是比較大的,所以能上雲做公有云的玩家還是比較少的。舉個開源的例子,像MDB,有一個運營主體和社群,吸引大家來貢獻自己的程式碼,但它也不是完全免費,而是基於二次開發、商業收授權費的模式,這一點對國內有一定的參考意義。

Q1:現在國內資料庫大廠也有開源的資料庫了,那麼中小初創企業資料庫還有機會嗎?

A:功能受限的主要原因是因為這些雲資料庫廠商,除了微軟以外,其實本身以前都沒有做資料庫。一些老資料庫在一些過程當中的程式碼量遠遠超過新生的幾個資料庫,我覺得單純就是靠時間的積累造成的。以MySQL為例,雖然說從1996年就開始了,但是在當時,它的系統非常簡陋,功能也非常受限,而且穩定性也很差。MySQL是不斷迭代更新才得到了比較滿意的、有一定基礎功能的開源資料庫。這一點本身不是問題,隨著技術的進步、包括各個雲服務廠商的資料積累,遲早會拿出解決方案。

Q2:美國這幾年基於傳統的幾大勢力,新出來Snowflake,以及開源玩法Mongo DB這兩種,您覺得這對於中國來說有借鑑意義嗎?

A:實際上國內60%的關係型資料庫還是基於開源資料庫二次開發得來的。但據信創的要求,這種也算國產化,因為它的程式碼是公開的,不會存在黑箱子的情況,全部程式碼都能夠被國內掌控,所以認為是國產的也行。國產現在走得比較快,我覺得只要國內的資料庫應用市場能做大做強,是能培養出一個徹頭徹尾的、更好的國產產品的。

Q3:在資料庫的B端方面,您剛才提到了佔比最高的是功能受限,請問具體原因和表現是什麼?資料庫混合部署的雲資料庫對於多型別的非關係容納性,解決方案是怎樣的?

A:有一個模式叫多模型資料庫,如果說一個數據庫融合既有時序型資料庫,也有圖資料庫,就稱為多模型資料庫,它支援不止一種資料庫,這也是現在發展方向之一。不過這一發展方向全球也有不少在做的企業,有些已經能把關係型資料庫也一起囊括進去,這樣同一個DBMS可以平行管理三套甚至更多的資料庫結構型別。這一點也是算是發展趨勢之一。只不過這也有一個替代的邏輯,就是不在DBMS這一層進行統一,也可以在應用層面進行統一,因為大家在做不同的資料邏輯介面的時候,還是會發現一些問題。這是一個重點的研發趨勢。

Q4:目前國產化的進度如何?

隨著資訊化、數字化程度的加深,資料庫已經可以視為企業的一種重要的基礎設施。技術的進步和發展,令資料庫呈現如下的趨勢:結合細分場景的多樣發展是必然選擇,使用者簡單化需求驅動的一體化融合也不容忽視;DBaaS解決彈性伸縮問題,為供應商和企業提供更多的想象空間;湖倉一體,架構創新,同時實現海量大資料的聯機交易和聯機分析。此外,開源開源模式成為產業網際網路時代資料庫廠商的破局之刃,人工智慧延伸DBA的能力半徑,最佳化資料庫效能。

從中國資料庫市場格局來看,多型別資料庫百花齊放,關係型佔據絕對主流,NoSQL資料庫更多地基於開源模式,產生二開和服務的費用。未來,藉助政策東風,國產廠商厚積薄發,市場版圖快速擴張。公有云資料庫增速放緩,仍有一定滲透空間。以NewSQL/NoSQL/SQL on Hadoop為典型路線的初創廠商不斷湧現,成為中國資料庫市場增長率最快的賽道,預計未來五年有10倍以上的成長空間。鈦資本將持續陪同行業領先者擴張、發展,不斷攀登商業高峰。