奧推網

選單
科技

英偉達推出大模型雲服務!為生物學研究開啟AI加速之門

智東西(公眾號:zhidxcom)

作者 | ZeR0

編輯 | 漠影

智東西9月21日報道,今日凌晨,NVIDIA(英偉達)在GTC大會上宣佈推出NVIDIA BioNeMo LLM服務和框架,以便製藥公司、生物技術初創企業和前沿生物研究人員加速開發用於生成、預測和理解生物分子資料的AI應用。

NVIDIA BioNeMo框架用於訓練和部署超算規模的大型生物分子語言模型,幫助科學家更好地瞭解疾病,併為患者找到治療方法。該大型語言模型(LLM)框架將支援化學、蛋白質、DNA和RNA資料格式。除語言模型框架之外,NVIDIA BioNeMo還提供一項雲API服務,該服務將支援越來越多的預訓練AI模型。

NVIDIA今日還宣佈與麻省理工學院和哈佛大學旗下的博德研究所(The Broad Institute)合作,為Terra雲平臺提供快速分析海量醫療資料所需的AI和加速工具。這將惠及該平臺的25000多名使用者,這些使用者包括來自學術界、初創企業和大型製藥公司的生物醫學研究人員。

#FormatStrongID_1#

以前,使用自然語言處理模型來處理生物資料的科學家一般會訓練相對較小、需要自定義預處理的神經網路。而透過BioNeMo,科學家可將其擴充套件為具有數十億引數的LLM,捕捉分子結構、蛋白質溶解度等資訊。

NVIDIA BioNeMo是NVIDIA Clara Discovery藥物研發框架、應用和AI模型集的一部分,可實現大規模自監督語言模型的GPU加速訓練。這一針對特定領域的框架支援以SMILES化學結構標記表徵的分子資料、以及以FASTA氨基酸和核酸序列字串表徵的分子資料,使基於生物分子資料的大規模神經網路訓練更為輕鬆。

藉助該框架,科學家能夠使用更大的資料集來訓練大規模語言模型,打造出效能更強大的神經網路。

NVIDIA BioNeMo LLM服務將為開發者提供4個預訓練語言模型:

1

ESM-1

這一最初由Meta AI Labs釋出的蛋白質LLM能夠處理氨基酸序列,最終生成用於預測各種蛋白質特性和功能的表徵。它還提高了科學家理解蛋白質結構的能力。

2

OpenFold

這是由學術界和產業界共同成立的Openfold聯盟建立的sota蛋白質建模工具,它將可以透過BioNeMo服務提供其開源AI工作流程。

3

MegaMolBART

這一基於14億分子訓練而成的生成式化學模型可用於反應預測、分子最佳化和新分子的生成。

4

ProtT5

該模型是在慕尼黑工業大學RostLab的帶領下合作開發的,NVIDIA也是該專案的參與者之一。PortT5將ESM-1b等蛋白質LLM的功能擴充套件到序列生成。

這些模型針對推理進行了最佳化,並將透過NVIDIA DGX Foundry上執行的雲端API提供搶先體驗。

未來,使用BioNeMo LLM服務的研究人員將能透過fine-tuning以及p-tuning等新技術,在幾小時內完成LLM模型的自定義,提高應用的準確性。相比原來動輒數百萬個樣本的資料集,p-tuning訓練方法只需包含幾百個樣本的資料集。

OpenFold聯盟創始成員、哥倫比亞大學系統生物學系助理教授Mohammed AlQuraishi如此評價NVIDIA BioNeMo框架:“該框架使整個醫療和生命科學行業的研究人員都能利用快速增長的生物和化學資料集。這樣就能更輕鬆地發現和設計出精準針對疾病分子特徵的治療方法。”

#FormatStrongID_18##FormatStrongID_19##FormatStrongID_20##FormatStrongID_21##FormatStrongID_22#

NVIDIA宣佈與麻省理工學院和哈佛大學旗下的博德研究所(The Broad Institute)合作,為Terra雲平臺提供快速分析海量醫療資料所需的AI和加速工具。

博德研究所希望透過提供一個開放的雲平臺,將研究人員相互聯絡起來,並將研究人員與其實現科學突破所需的資料集和工具連線起來,從而實現新一代生物醫學合作研究。

此次合作旨在將NVIDIA在AI領域的專長和醫療計算平臺與博德研究所的全球知名研究人員、科學家和開放平臺建立連線,重點關注3大關鍵領域:

1

、在

Terra

平臺上提供

NVIDIA Clara Parabricks

Parabricks是一款用於測序資料二級分析的GPU加速軟體套件,現可用於6個新的Terra工作流程。NVIDIA Parabricks GPU加速的工作流程為研究人員提供更快的週轉時間和更低的成本,以進行廣泛的基因組資料分析。

使用者現可使用Clara Parabricks,在1個多小時內完成全基因組的分析,而在基於CPU的環境中這項工作需要24個小時才能完成,並且,使用Parabricks計算成本降低一半以上。

2

、構建大型語言模型(

LLM

):

為深入探究人類生物學,研究人員將使用今日釋出的用於生物學LLM模型的AI應用框架NVIDIA BioNeMo,來開發DNA和RNA的基礎模型。雙方團隊還將基於此次合作,共同建立新的模型,將其新增至BioNeMo集合中,並在Terra平臺上提供。

3

、為基因組分析工具包(

GATK

)帶來更加強大的深度學習:

NVIDIA正致力於為10多萬名研究人員所使用的行業標準工具——博德研究所的GATK工具包打造新的深度學習模型,幫助研究人員識別與疾病相關的基因變異。這將助力新藥研發人員研究新的療法。

博德研究所的研究人員還能夠訪問用於醫學影像AI的開源深度學習框架MONAI以及用於加快資料準備工作的GPU加速資料科學工具包NVIDIA RAPIDS。後者可用於基因組單細胞分析。

“生命科學領域正處於一場資料革命之中,研究人員迫切需要一種將機器學習引入生物醫學的新方法。”博德研究所首席資料官Anthony Philippakis說,“我們希望透過此次合作,進一步踐行「資料共享與合作流程」的使命,進而擴充套件基因組學研究。”

結語:醫療生態系統需要更先進的計算工具

“整個醫療生態系統都需要更先進的計算工具,以便我們在理解疾病、發展診斷學和提供治療方案的方面取得突破。”NVIDIA醫療業務副總裁Kimberly Powell談道。

可以看到,無論是推出NVIDIA BioNeMo LLM服務,還是擴大與博德研究所的合作,NVIDIA都在透過大型語言模型與先進計算工具的結合,為生命科學研究引入更高效的方法,最終為人類消除疾病、促進健康做出貢獻。