奧推網

選單
科技

機器學習模型預測研究的潛在影響力

《自然-生物技術》發表的一篇論文Learning on knowledge graph dynamics provides an early warning of impactful research指出,一個機器學習模型可用於預測科學文獻中已發表研究的未來“影響力”。這個模型的打分可用來預測任意年份發表的“前5%的論文”,或能補充當前依賴論文引用量指標的文獻計量分析系統。

有許多系統都被用來評估研究人員的科研產出,包括基於他們所著論文引用量的指標。隨著機器學習的興起,我們可以從研究人員產出的更多角度去評判他們發表研究的潛在影響力。為此,研究團隊推出了一個機器學習模型,該模型能預測以時間為尺度的“PageRank”(網頁排名)分數——類似於用來給網頁重要性排名的指標,並提議將該模型用於評估研究人員的產出。

為實現這個想法,美國麻省理工學院的James Weis和Joseph Jacobson建立了一個名為DELPHI(Dynamic Early-warning by Learning to Predict High Impact,透過學習預測高影響實現動態預警)的模型,並用科學研究圖譜加以訓練。作者使用的資料集包含1980-2019年期間發表的1687850篇具有唯一性的論文,從中得到了論文發表後1-5年與每例論文、作者、期刊、網路相關的29個特徵。作者再用每篇論文的特徵訓練一個機器學習模型,讓這個模型給出影響力“預警”分數。

在一次回顧性盲法研究中,作者的模型準確識別出了1980-2014年期間20項具有重大影響的生物技術中的19項。這個模型還預測,2018年在42本生物技術領域期刊發表的50篇論文可能會躋身未來排名的前5%,或能以資料驅動的方式發現並讓經費流向那些“深藏不露”的好研究。在將這類模型應用於其他研究領域前,仍需開展進一步測試,將該方法在生物技術以外領域的表現與常規影響力指數相比較,比如領域歸一化的引用分數。

從動態知識圖中收集、構建、計算和學習科學影響力的預警訊號。來源:Weiset al。

©Nature