◎本報記者 張佳星
近日,京東健康旗下“京醫千詢”醫療大模型宣布開源,成為國內醫療行業首個全面開源的垂類大模型。
當前,大語言模型在諸多應用中展現出巨大潛力,但在醫療決策支持方面,仍面臨缺乏專家級認知等問題。如何讓人工智能(AI)習得更專業的醫學思維方式?如何使醫療AI在輔助診療時靈活運用人類在醫學領域的經驗?“京醫千詢”團隊研發出一種新方法,能有效捕捉臨床醫生的決策路徑,將其數據化,進而為模型訓練提供大量醫學專家推理的模擬數據。這一新方法近日發表于arXiv預印本網站。
“病人不會按照教科書和指南得病。”京東健康探索研究院高級研究員劉慧說,臨床醫學是基于循證知識和實踐經驗的綜合科學,除了指南、教科書上的“顯性”知識,醫生還需要不斷實踐思考,做出個性化的診療決策,積累“隱性”經驗和能力。
“AI的訓練過程與人才培養的過程相似。”論文第一作者、京東健康探索研究院首席科學家王國鑫告訴科技日報記者,在臨床實踐中,醫生不斷累積接診經驗,在思維方式上產生質變,“悟”出心得,這在本質上就是數據訓練。因此,高水平的醫療數據是AI訓練的基石。
團隊基于京東互聯網的場景沉淀,并與線下醫院合作,為大模型訓練匯集基礎數據。然而,將經驗數據化非常困難。一方面,醫療決策往往具有模糊性、不確定性等特點,模型難以有效反映專家判斷方式的復雜性;另一方面,獲取真實世界的專家級臨床推理數據面臨挑戰,因為它需要捕捉專家思維的細微差別,而這些細微差別往往難以量化。
鑒于臨床數據難以復制臨床實踐的動態性和模糊性,團隊研發出一種用來模擬醫學專業人員認知推理過程的方法。這種方法為多階段訓練方法,結合了連續預訓練、監督微調和強化學習等多個階段,專門針對臨床場景定制,顯著提升了跨多個模型的復雜推理能力。
“新方法再現了臨床決策的動態和迭代特性。”王國鑫介紹,團隊在大量模擬醫學推理數據集上訓練“京醫千詢”,使其推理能力更貼近于臨床實踐。團隊成功將新方法轉化為一種可訓練的方法,在各種醫療基準測試中顯著提高了幾個開源基礎模型的性能。
團隊還將模型及其訓練數據作為開源資源公開,進一步降低了醫療AI應用的開發門檻,讓更多醫療機構、開發者可以基于“京醫千詢”快速開發出適合自身需求的醫療AI應用。同期開源的還包括一個基于真實世界數據的大規模、可更新的臨床實踐評估數據集。
“我們希望開源能推動AI模型不斷取得新突破。”王國鑫說,目前看來,AI模型的能力上限仍在不斷提升。除了要能在“大數據”中抽提價值,AI還需要從“小數據”中獲得學習能力。隨著AI助手的普遍應用,AI醫生能與人類醫生一起成長,積累更多“悟”的經驗,推進AI驅動的醫療決策研究。
業內也在不斷發展相關技術能力,例如,通過思維鏈生成技術增強醫學模型的推理能力。業內專家認為,推理過程模擬是模擬人的邏輯思考能力,不僅可以應用于醫療領域,也可以用于文章創作、科學研究等領域。這種新方法有望在創造性活動中提升AI的能力。
(責任編輯:梁艷)