魚羊 豐色 發自 凹非寺
量子位 | 公眾號 QbitAI
AI時代,究竟會是怎樣的時代?
有一種觀點是,當AI重新定義一切,推動一系列新技術、新產品、新應用在地球上掀起一場新的“物種大爆發”,那麼
AI本身,反而會隱匿不見
。
就像水,像電,像一切最終成為人們生活基礎的科學技術那樣。
以此定義,我們離這樣的時代又有多遠?
當AI與電力的結合,催生出正在顛覆汽車工業面貌的智慧駕駛。
當AI創作的文字、圖畫,乃至程式,越來越頻繁地引發人與機器之爭,又悄悄普及成為人們手中的生產力利器。
當小到
一支筆
,都能被裝進繁複的演算法,卻又
並未更改
人們習以為常的使用方式。
現在,這個時代的序幕,或許早已向你我揭開。
一支筆的AI之旅
90後的童年裡,有一句廣告詞人人耳熟能詳:哪裡不會點哪裡。
彼時,這樣的“筆”並不能脫離配套的書本單獨發揮作用:
其原理是用帶有感光裝置的儀器,去感應特定印刷品中的OID光學辨別編碼。
但到了10後的童年時代,一句略帶誇張的廣告語,卻已
真正成為現實
:
還不只是能搞定查詞這種小事。
即使是大段文字,輕掃兩下,這樣的裝置也能以毫秒為時間單位,給出逐句對照的翻譯結果。
甚至脫離開紙質材料,面對
電子螢幕
,這支筆也照樣能發揮作用。
事實上,當有道詞典筆的產品代號來到最新的P5,使用者們對
一支筆“橫掃”一切這事兒
都有點習以為常了:
於是,這支筆進化出了“超大智慧視窗”,學會了
“一目十行”
。
△ 是真的可以掃10行
配合全面屏設計,一屏可以同時顯示4行英文和2行中文。
翻譯論文、外語資料三下即可搞定一個摘要。如果遇上pdf版,還能免去刪換行的煩惱。
△複製pdf文件時刪到人呆滯的換行
沒什麼學習成本,正常該怎麼用筆就怎麼用。
無論是用筆的過程中出現角度變化,還是掃描出現重複,都不影響最後的識別效果。
也就是說,站在終端使用者的角度來說,伴隨著AI技術潮起的節奏,拿一支筆當詞典這事兒,變得越來越簡單,也越來越自然了。
△超大智慧視窗可以同時掃描翻譯最多十行文字,與此前產品對比明顯
但技術這件事兒一個有趣的地方就在於:
表象越簡單輕鬆,背後值得說道的事情,反而越多。
站在AI時代的大幕之前,其中一切,對於作為觀察者的我們而言,不外如是。
小硬體裡的深科技
不妨還是以在詞典筆身上實現
“一目十行”功能為例
,扒一扒一個小硬體裡,如今能承載多少前沿科技。
從特殊印刷的OID,到連電子螢幕也照樣能掃,從掃譯一個單詞、單行到“一目十行”,一支筆裡最主要的演算法變化,便是
OCR
(光學字元識別)
。
一般來說,筆掃場景下的OCR演算法,無論是單詞識別還是“一目十行”,都比拍照識別、截圖識別等情況更為複雜。
因為筆尖攝像頭看到的影象,往往是這樣的:
以有道詞典筆為例,尤其是當P5這樣的產品推出,為做到“一目十行”,在筆尖配上基於90°廣角鏡頭的“超大智慧視窗”後,
麻煩事兒也更多了
:
大視窗讓可視範圍更大,意味著光照等條件可能更不均勻,輸入影象的清晰度反而會降低;
使用者掃描的方式隨著大視窗變得更自由,則輸入文字影象會更容易扭曲;
使用者可能會掃描進更多多餘的內容,需要演算法能判斷文字結構,精準去重。
……
演算法如何解決?
△有道詞典筆P5多行掃描處理流程
就從識別流程來看,當用戶一次掃了多個“段落”之後,系統
首先面臨的是拼接問題
。
也就是將掃描的n張照片拼成完整的一張。
這個過程中,使用者用筆的角度可能會變化,會中途停頓……這些都會讓筆頭“看”到的圖片出現
扭曲、內容重複
。
對此,有道的研發團隊主要從OCR演算法本身,以及硬體角度進行了最佳化:
演算法上,採用單應性變換進行矯正。
具體來說,先透過模型計算相鄰兩幀影象的重合係數,然後採用多尺寸模板匹配策略,加入NEON平行計算,又快又準地得到兩幀影象重疊區域
(下圖綠色部分)
。
接著,透過有道自研的自適應影象加權融合演算法,便能自然地將兩幀影象融合了。
不過對於可能出現的
上下抖動情況
,融合時會出現不同程度的融合模糊。
這時,就需要針對存在上下偏移的重疊區域,進行融合區變形,之後再做加權融合,消除豎直方向上的投影偏差。
硬體上,則是進一步地讓ISP對掃描攝像頭採取了實時圖片矯正,讓它根據持筆的角度最佳化採圖質量,保證多角度下的識別效果。
基於以上,這支詞典筆便可以滿足不同使用者的掃描速度、角度和習慣,即使手抖,依然可以獲得清晰的拼接影象。
但對於“一目十行”來說,拼接還只是第一個問題,
第二個問題,是實現結構化OCR
,也就是要對文章的段落、分隔欄等結構進行判斷識別。
為了兼顧速度和準確性,有道主要基於先進的目標檢測方法,採用自頂向下的策略,設計並研發了掃描場景的段落檢測方法。
得益於解耦檢測頭和分類頭的策略,以及先進的標籤匹配方式,該演算法具有很強的魯棒性,支援教材、報紙等多樣化場景。
識別出結構,接下來就是
文字檢測
,如將不完整的行進行過濾。
在這裡,研發人員在AI晶片的加持下,重新設計出了一個基於分割的字元級文字檢測方法,讓檢測更加精準。
由於字元級標註難以獲取,他們還用上了半監督學習方法來訓練檢測模型。
以上步驟完成後,就可以開始
文字識別
了。
目前,有道的OCR系統可以支援橫豎斜混合排版識別、手寫識別、簡繁公式識別、100+種語言文字的混合識別,同時也支援身份證、票據等垂直場景。
最後一步,便是
文字融合
,透過定位和拼接的方式將識別出來的文字進行語義資訊以及結構資訊上的融合。
重複掃描的內容就在這裡被消除。
至此,一支詞典筆才在軟體方面煉就了“一目十行”的能力。
總的來看,最大的亮點便是透過文字去重、去冗餘欄及冗餘行等,
做到了讓使用者掃描時不用刻意對齊
,保證了良好的使用體驗。
再來看
硬體
,該方面也存在諸多挑戰,主要集中在
筆尖設計
上。
通常來說,經過多年發展,在詞典筆這樣的品類中,較為成熟的筆尖功能觸發方案,是機械感應方案。
但由於實現“一目十行”需要大視窗的筆頭,新的問題產生了:遮擋太多,影響掃描效果。
有道的研發人員想到的是,
用壓感觸發來替代機械觸發
。
問題是,要把壓感方案做到一個小小筆頭上,還要儘量減少對鏡頭的遮擋。這樣的方案,在有道詞典筆P5之前,業界屬實沒有先例。
為了最佳化橫樑的遮擋以及跌落測試最佳化,團隊一次次調整結構最佳化方案,甚至推到重來,確保感測器不受遮擋,能夠準確識別到掃描的資訊。
最後的解決方案,某度程度上來說也是一種無奈的妥協:
把感測器放到了筆頭兩側而非橫樑上,技術難度上升的同時,成本也增加了——原來只需要一個感測器,現在需要兩個。
△是的,感應器藏在這裡,不在“筆尖”
這也是為什麼,這樣一個小硬體,從立項到正式完成,
耗時整整16個月
。
不過好在,經過這麼多努力和折騰,“一目十行”的功能終於實現了。
“一目十行”之外,現在的有道詞典筆還搭載了有道首創的
詞典筆OS作業系統
,使用者可以根據需求下載不同的應用,讓詞典筆變換成“隨身聽”、“錄音筆”等更多形態,從而實現詞典筆的“個性化”。
AI時代的“物種大爆發”
沒想到吧,看似簡簡單單一支筆、一個功能,封裝進的AI和硬體黑科技,值得討論之處卻著實不少。
而可以預見的是,在真正的AI時代,黑科技不僅僅是實驗室中酷炫卻不可及的AlphaGo、GPT-3,而更多會在人們所能感知或不能感知的角落,生根發芽。
這一方面,是軟硬體技術成熟落地的標誌。
另一方面,其實也是因為在各個細分領域,總有人試圖把事情做到極致。
正如有道工程師們所經歷的那樣:初版Demo早在去年6月就已經完成,但就因為尺寸太大,影響使用效果,研發團隊雖然很“崩潰”,但仍一致決定,把方案推倒重來,重新從壓感方案做起。
這樣對產品體驗精益求精的追求,反饋到消費者的層面上,就是產品帶來的更高效率、更多實用性。
如此看來,站在一個普通人的角度,AI時代有關新產品、新應用的“物種大爆發”,著實值得期待。
你覺得呢?
— 完 —
量子位 QbitAI · 頭條號簽約