一個演算法模型搞定千萬種場景,人工智慧領域出現一匹黑馬

明敏發自凹非寺

量子位 | 公眾號 QbitAI

不知不覺，AI技術的滲透，已經開始超出人們的想象。

去醫院照個CT，都有AI作為雙重保障，透過

影片畫面動作識別

，確定病人在進入機器前已經得到有效保護。

還有流水線產品是否有瑕疵，公共場所人們是否戴了口罩，工人是否佩戴安全帽、後廚是否達到“明廚亮灶”、應急通道是否有違停車輛等生產、生活中常見的場景，也都已經在

用AI來識別檢測

了。

更讓人意想不到的是，如上千差萬別的場景，可以只用

一個預訓練大模型

來搞定。

而且不用收集大量樣本資料集，

零資料

即可啟動、

小樣本

就能調優。

僅需半個月，就可以完成模型訓練並投入使用。

要知道，在傳統演算法訓練模式下，一般是“一套演算法對應一個場景”，換個識別物件，就需要重頭收集樣本資料、開發訓練了。

這就導致一套演算法上線，往往是幾個月的長戰線模式，背後需要投入很高的人力物力成本。

而在數字化改革的浪潮下，千行百業湧現出越來越多的細小場景，傳統“一套演算法對應一個場景”的演算法訓練模式遇到前所未有的挑戰。

在此需求和背景下，用一個演算法模型就能解決所有場景問題無疑是一劑解決問題的良方，那到底是誰率先拿出了可以

“單挑”1000萬個場景組合

的預訓練大模型？

又為什麼會在此刻走入我們的視野？

AI 2。0時代開啟，行業玩家技術路線已備好

這可以從

基礎設施、行業需求

兩個方面來解答。

首先在基礎設施上，我國構建的影片大資料系統經比較完善。

目前，全國幾億臺攝像裝置，可以構成一個空前巨大的影片大資料庫。

但是這些裝置中，

僅有20%是智慧的

。

這意味著收集到的海量資料，實際被應用的並不多。

而且其中的大部分演算法，都集中在人臉識別、車牌識別等高頻應用場景上。

在低頻場景中能識別的物件非常少，準確性也不夠高。

與此同時，當AI發展步入深水區後，各行各業對於視覺識別的需求越來越高，碎片化場景扎堆湧現。

也就是第二方面影響因素——

行業需求

。

正如開頭提到的諸多場景，如後廚、CT室、施工現場等，在數字化浪潮的驅動下，這些細小場景也都迫切尋求智慧化支援，它們共同組成了一個

佔比80%的長尾場景

。

問題在於，這些細小場景自身特點鮮明，很難用一個訓練好的演算法一網打盡。

比如後廚需要識別灶臺上東西的擺放是否正確，工地則需要識別工人是否佩戴安全帽。在識別物件型別、物體屬性、關係和行為上，這兩個場景幾乎沒有共同之處。

如果使用傳統的“煙囪式”演算法平臺呢？

可行性並不高。

可以用

城市管理

的場景舉例說明。

它最大的特點就是碎片化，從馬路牙子是否有破損、樹木是否倒伏、車輛是否違停到窨井蓋是否缺失等，幾乎場景內每一個點，都是一個定製化需求。

如果使用傳統演算法模式，演算法廠商需要根據每一個點來設計算法，單個演算法的費用可能就會高達幾十萬。

而且還需要需求方自己去採集樣本圖片包，採集量少則幾千，多則幾萬張。

然後演算法公司才能拿著這些圖片去訓練演算法，整個開發週期可能長達幾個月，最後才能實現交付。

假如訓練出的演算法不夠好，還要繼續再次進行迭代，可能又要等一個多月的時間才能再次交付。

這樣的

時間成本、金錢成本

，客戶是難以承擔的。

但與此同時，當AI發展步入深水區後，各行各業對於視覺識別的需求越來越高，碎片化場景在扎堆湧現。

顯然要解決這樣的碎片化場景的應用，必須要尋找一條新的技術路線。

在這樣的背景下，預訓練大模型技術橫空出世。

預訓練大模型從根本上改變了人工智慧的技術邏輯，意味著“作坊式”模式的終結，“

AI工業化

”模式的到來，是開啟人工智慧2。0時代的具有里程碑意義的技術變革！

人工智慧1。0 時代，對每一個識別的場景（目標）都要訓練一個對應的演算法模型，每個模型的訓練都要有大量的樣本並標註，也就是“一套演算法對應一個場景”。

人工智慧2。0時代，透過海量資料進行預訓練形成一個具有通識能力的大模型，以“大規模預訓練﹢微調”正規化滿足多元化需求，也就是“1個模型適用N個場景”。

去年，隨著美國Open-AI 公司的GPT-3預訓練大模型的釋出，海量資料預訓練對演算法能力的提升肉眼可見，從而在人工智慧領域掀起一股熱潮，儼然成為一個新的賽道。

聯匯科技

，從預訓練大模型賽道上跑出來的一匹黑馬。

聯匯科技是國內最早自主研發大規模預訓練演算法模型的公司之一。

同時聯匯科技還發布了首款基於視覺語言預訓練大模型的OmVision視覺認知平臺，為視覺智慧產業提供了全新的AI視覺認知基礎工具平臺。

OmModel——業界領先的多模態預訓練大模型

OmModel是業界領先的多模態預訓練大模型。

它透過大規模自監督學習的多模態人工智慧演算法，融合語言和視覺模態理解，完成基於行業的億級圖片、萬級影片、十億級圖文大規模預訓練，實現用更小的標註樣本數量，融合更多的模態資訊，獲得更為精準的視覺AI模型，從而實現了本文開頭描述的一個模型應對千萬種場景的超強能力。

OmModel預訓練大模型提供了具有超強通識能力的解決方案，以“

預訓練大模型+下游任務微調

”的方式，有效地從大量標記和未標記的資料中捕獲知識，解決模型通用性差的問題，極大地擴充套件了模型的泛化能力，使模型更加“融會貫通”、“舉一反三”。

同時，隨著資料規模和模型規模的不斷增大，模型精度也將得到進一步提升。

聯匯科技首席科學家趙天成博士表示：

高門檻、高成本一直是人工智慧產業化落地的最大障礙。

而人工智慧的最終目的是要能為百行千業賦能，這就要求人工智慧的應用落地門檻要足夠低，成本也要控制在合適的範圍內。

現在我們找到了解決這個問題的鑰匙，就是透過預訓練大模型，重新定義演算法的生產流程，用一個演算法模型搞定千萬種場景，解決大量碎片化應用場景的問題，讓人工智慧更易用，實現真正的普惠AI，用“普惠AI+行業”的融合創新賦能更多企業與使用者。

OmModel預訓練大模型是預先用海量多模態資料，透過自監督訓練出一個對生活中大多數人、物、行為、屬性等具有強大通識認知能力的認知模型。

OmModel預訓練大模型目前具有

20000多種目標、300多種屬性、200多種行為

的強大通識能力，到年底更可以達到

50000多種識別目標

。

而且它還具有強大的文字語言理解能力，我們可以透過文字描述，對擬識別的場景進行定義，透過目標、屬性、行為三要素的靈活搭配組合，就可以生成千萬種不同功能的演算法應用；徹底打破了傳統視覺識別演算法“樣本採集、樣本標註、訓練調參”的生產模式。

比如在城市管理的場景下，OmModel可以自動識別道路上幾乎一切物件，樹木、人、腳踏車、人的動作等都能搞定。

當我們要生成一個演算法的時候，只要輸入相應的文字描述即可。

如“騎腳踏車的男人”或者“道路上的垃圾”就可以馬上生成相應的演算法。

而且，用預訓練大模型，能夠透過更少的引數量，實現和行業知名大模型同等或者更好的效能。

平均演算法模型的識別精準度可以

提高40%

，而訓練資料量可以

降低90%

。

開發週期由平均幾個月縮短為幾天，還可以擁有更快的推理速度，從而有效覆蓋大量長尾應用場景。

OmModel技術的落地載體：OmVision視覺認知平臺

趙天成博士告訴量子位：

基於OmModel預訓練大模型技術，我們還進一步開發了OmVision視覺認知平臺，OmVision是一個全新概念的‘

0樣本、0基礎、0程式碼

’的機器視覺基礎軟體工具平臺，一般技術人員都可以用這個平臺，來生產和執行視覺演算法。

一般意義上的演算法生產都是要由演算法工程師來完成的，但由於演算法的實際應用場景涉及千行百業，演算法工程師對現場的需求理解往往不到位，造成了生產演算法的不懂業務，懂業務的一線人員不懂演算法的“死結”。

因此理想的辦法最好是降低演算法生產的專業技術門檻，讓各個行業的一線人員自己來生產演算法，從而徹底開啟這個“結”。

OmVision視覺認知平臺

正是基於這一思路的大膽嘗試。

OmVision視覺認知平臺，徹底顛覆了傳統“演算法生產”和“演算法應用”分離的方式，首次提出了“演算法來自應用”的理念，重新定義了演算法生產“三部曲”策略。

第一、0樣本冷啟動。

第二、小樣本訓練。

第三、線上調優。

具體來看，OmVision平臺可分為

Om Studio

和

OmVision OS

兩個部分。

OmVision Studio演算法工廠

是演算法生產系統，提供基於預訓練大模型的演算法訓練SaaS服務，為企業客戶可提供低門檻的演算法生產工具，該部分主要負責“三步曲”策略中的0樣本冷啟動和小樣本訓練。

讓普通工程師免程式碼訓練複雜演算法，像樂高搭積木一樣在工廠中按需搭建功能

OmVision OS是基於預訓練大模型的視覺作業系統

，實現演算法的個性化線上調優，以及多場景視覺協同預測，並根據演算法的需要，靈活高效地排程GPU算力資源，構建起高效能視覺識別執行平臺，滿足業務的需求。

簡單理解，它能夠讓每個攝像裝置都擁有智慧大腦，可以根據場景協同預測。

“三部曲”中的

線上調優

，主要就是透過這一系統完成。

它能依託大模型的通識能力，對每一路影片流訊號進行協同判斷和識別，極大提高演算法的環境抗干擾能力。

還能根據實際場景對演算法進行可持續的、針對性環境調優迭代，實現“用得越久、精度越高”。

同時，由於每個演算法應用均基於大模型的認知能力，因此在OS上對每路流增加演算法數量時，不會明顯增加GPU資源消耗，可大幅度降低演算法執行的算力成本。

部署方面，系統支援雲端部署、彈性擴容、效果可視，支援影片接入標準、演算法相容標準、告警輸出標準、交付驗收標準“四個標準”，與第三方廠商影片雲、演算法服務低程式碼快速對接，實現和影片匯聚平臺的有效融合。

那麼這個OmVision到底憑什麼實現瞭如此好的效能？其幕後打造者又是誰？

90後CMU科學家在杭州煉出OmVision

而該系統高效靈活開發應用部署的背後，離不開一個組合——

90後CMU博士+行業資深廠商。

這裡提到的廠商，是誕生於杭州的聯匯科技。

或許名字看上去並不熟悉，但它其實從十多年前就開始深入音影片分析與處理行業，是業內經驗豐富的資深玩家。

90後CMU博士趙天成，為聯匯科技的首席科學家。

他曾多次擔任國際頂尖會議和期刊的審稿人和區域主席，在國際頂級會議和期刊上發表論文30餘篇，多次獲得最佳論文獎，並且2018年獲得微軟研究院Best & Brightest PhD榮譽。

2019年，他於

卡耐基梅隆大學

獲得計算機博士學位。

畢業回國後，他便作為牽頭人，開啟了OmModel預訓練大模型的研發工作。

實際上，OmModel預訓練大模型的誕生，與趙天成博士個人在學界、產業界多年的觀察有著千絲萬縷關係。

要知道OmModel的籌備，最早可以追溯到2019年。

那一年BERT剛剛提出，學術界大佬們都在專注實現更強自然語言理解能力的語言大模型研究。

而這時的趙天成已經意識到，預訓練大模型，或許不必侷限於一種資料模態型別，而且大模型帶來的影響力也遠遠不止自然語言處理的突破，

作為多模態與人機互動領域的資深學者，他想到這一點其實並不稀奇。

早在2016年，趙天成同導師Maxine Eskenazi教授發表的《Towards end-to-end learning for dialog state tracking and management using deep reinforcement learning》是最早利用深度學習打通自然語言模態與資料庫模態的工作之一，當年獲得最佳論文獎。

2018年後，他便開始接觸視覺語言預訓練大模型方面的研究，提出了包括多模態視覺對話系統、大規模稀疏向量視覺語言匹配演算法等一系列成果。

後面隨著大模型風潮逐漸興起，趙天成意識到，如果將自然語言與視覺理解結合起來，那將顛覆以往計算機視覺領域的應用方式，讓AI 機器視覺從視覺感知邁向視覺認知。

這是我們看到的一個巨大機會。

趙天成想到：一旦實現了視覺認知能力，讓機器像人一樣擁有了認知萬事萬物的能力，並能用文字語言來定義和關聯視覺場景，就能解決我們現在的很多問題。

比如怎樣在一萬個小時的新聞聯播素材中，找到撒貝南在天安門前採訪群眾的片段？

怎麼從攝像頭實時影片訊號中，快速定義需要識別的目標？

要實現這樣的視覺認知能力，就需要用海量音、視、圖、文等多模態資料來進行訓練，構建一個大規模多模態預訓練模型。

順著這樣的思路，趙天成率領團隊開始了多模態資料分析演算法的研究。聯匯科技的OmModel視覺語言預訓練大模型，也在這樣的契機下應運而生。

走在人工智慧2。0變革前列

當前，我們正處於人工智慧從1。0時代邁向2。0時代的關鍵時代轉折點。

OmModel預訓練大模型在數字安防、工業視覺、自動駕駛、醫學影像、虛擬現實、新一代影片會議終端、數字文娛等場景的圓滿落地，構成了OmModel豐富的應用層。

隨著機器視覺等更多關鍵核心技術突破和特定應用場景融合加速，在城市大腦、智慧製造、智慧家居、智慧交通、智慧旅遊、智慧教育等領域的泛在通用場景的規模化落地，也只是時間問題。

聯匯用低成本、零門檻的方案，為行業內許多中小企業提供智慧化升級的方案，使得人機通力合作模式深入到千行百業中去，讓技術變得更為普適。

由此也就不難理解，為什麼聯匯科技會跑在人工智慧2。0時代的前列。

在和趙天成博士的交流中，他表示AI需要進化，也需要普惠，我們透過技術和產品讓人工智慧2。0更易用，讓“AI+行業”的融合創新賦能更多企業與使用者。

每一次AI技術與應用的精進，都由“破風者”帶動。

自主、完善、富有韌性的產業生態，更加需要企業自主發揮能力，走在行業的最前沿，去面對技術無人區的挑戰和商業價值的兌現。

人工智慧產業更是如此。

對於人工智慧2。0的未來，趙天成博士表示：

技術的價值是讓每一個行業、每一個企業都能受惠於技術的美好，人工智慧是源自技術底層的賦能，我們在做的事情是讓AI無處不在，以更具溫度的力量去理解、去重構、去進步。

— 完 —

量子位 QbitAI · 頭條號簽約

奧推網

一個演算法模型搞定千萬種場景,人工智慧領域出現一匹黑馬

相關文章閱讀