奧推網

選單
科技

...「Heartex」獲2500萬美元A輪融資,幫助資料科學家管理資料標註流程

據外媒TechCrunch報道,美國資料標註公司「Heartex」近期完成2500萬美元A輪融資,由Redpoint Ventures領投,Unusual Ventures、Bow Capital和Swift Ventures跟投。據悉,本輪融資資金將用於提升產品以及人才拓展。

軟體工程師Michael Malyuk、Maxim Tkachenko和Nikolay Lyubimov於2019年在舊金山創立Heartex,旨在創立資料標籤平臺,為機器學習模型提供更加準確的訓練資料。

Label Studio後臺管理頁面

據McKinsey 2021 AI領域調查報告,2021年企業AI使用率上升至56%,高於2020年的50%,常用於產品開發、營銷銷售和戰略財務的業務中,且由此帶來的稅前利潤增長從2020年的22%上升至27%。當越來越多的企業使用AI模型輔助業務決策,那訓練資料是否準確客觀很大程度上也影響了其結果的可參考性。Heartex聯合創始人兼CEO Michael Malyuk表示,一定程度上,部分演算法的開發研究已經到了收益遞減的地步,而最佳化資料標籤是提升演算法模型更具價效比的選擇。

模型透過標籤來學習資料之間的關係,比如為廚房水槽的圖片標註“廚房水槽”的標籤,再基於模型學習,判斷未標註圖片是否屬於廚房水槽這一類。但其中的問題,不僅是資料格式有影象、影片、音訊、文字等不同型別,難以統一處理,還是專業領域標準門檻較高,比如法律合同、醫學影像、研究文獻等材料,人類註釋者也難以保證沒有疏忽。

Malyuk認為,最可行的解決方案就是讓具備專業知識的內部團隊負責註釋和管理訓練資料。目前,Heartex主要產品Label Studio面向資料工程師,支援不同行業、資料格式、AI模型的標籤管理,同時提供資料質量管理、分析報告等功能。Heartex使用者可以在後臺管理不同註釋者的標籤註釋情況,判斷標籤是否準確,並監控標籤質量。

Label Studio標籤管理頁面

在資料隱私方面,Malyuk表示,Heartex的資料平臺和管理控制平臺是分離的,可以保證客戶儲存資料的私密性,也不收集任何客戶資料,並開源Label studio核心程式碼以供檢查。

目前,Label Studio面向個人及非盈利團體免費,軟體可以直接從GitHub中下載安裝,主要付費使用者是企業內部資料團隊。Malyuk透露使用Heartex的資料科學家超過十萬名,既有小型初創企業,也有全球100強,但並未透露具體收入。

不少初創企業都已經注意到資料標籤領域的巨大機會。除了36氪之前關注的AIMMO,還有Labelbox、Scale AI和Snorkel AI,以及Google和Amazon旗下的Google Cloud和SageMaker 所提供的資料標籤產品。與其他產品不同的是,Heartex並不提供資料標註服務,而是提供標註管理平臺。