作為國產CPU的代表之一,龍芯這兩年已經將架構轉向自研的LoongArch指令集,號稱100%自主,現在還在不斷擴充套件LoongArch的應用領域,今天龍芯宣佈支援了NCNN神經網路計算框架,各項效能比通用實現普遍提升一倍以上。
據龍芯介紹,近期經過龍芯中科與NCNN社群的共同努力,在NCNM中使用龍架構(LoongArch)向量最佳化實現了大部分運算元,
得益於龍架構向量的高效實現,最佳化後NCNN在平臺上各項效能測試比通用實現普遍提升一倍以上。
基於龍架構向量最佳化開啟前後的NCNN各項效能對比
(豎軸為耗時高度,越高耗時越久,效能越低)
NCNN作為業界首個為移動端最佳化的神經網路前向計算框架,在2017年首次開源,是騰訊優圖實驗室第一次對外公開深度學習的研究成果。
目前多應用在影象方面,例如人像自動美顏,照片風格化,超解析度,物體識別等等。NCNN計算框架,因其高效能、無第三方依賴、跨平臺支援大部分常見CNN網路的特點,
是許多開發者在移動端、嵌入式裝置上部署深度學習演算法的首選框架。
本次最佳化共產出3萬多行程式碼,成果將應用於龍芯AI邊緣計算場景,完成基於龍架構平臺的特徵識別、影象處理、人臉識別等模型的部署和推理,如門禁系統、手勢識別、口罩檢測等等。
依託於NCNN計算框架優秀的低耦結構,開發者只需關注運算元在龍架構平臺上的高效實現,無需考慮整個系統結構問題,實現更高效的開發與部署工作。
前期,
NCNN與龍芯CPU進行了較為全面的適配和效能最佳化,共同打通了AI應用和國產CPU硬體間的壁壘。
可搭載NCNN框架的龍芯AI邊緣計算場景
龍芯表示將與NCNN社群保持密切合作,繼續根據龍架構平臺向量特點不斷最佳化運算元,推進龍架構生態成果落地更多場景、服務更多領域、歡迎社群廣大開發者與龍芯中科一道共建自主開放的龍架構生態體系。