中文字幕精丝袜亚洲|日韩专区第25页|国产成人AV资源站二娚人无码|中国一级黄色电影票|亚洲无码在线不卡|五月天激情四射国产在线播放|国产精品午夜无码视频|亚洲天堂AV八区|深夜宅男视频在线观看成人|www.91.com国产精品伊人

聚慕 - 專業(yè)醫(yī)療器械服務(wù)商
設(shè)為首頁 收藏本頁 人事招聘 關(guān)于聚慕
400-901-5099
全部商品分類
openai發(fā)布最新開源框架:醫(yī)療大模型評估瞄準(zhǔn)現(xiàn)實情況
發(fā)布時間:2025-05-19 09:12:17

OpenAI近日發(fā)布了一款開源基準(zhǔn)測試工具,旨在衡量大型語言模型在醫(yī)療健康領(lǐng)域的性能和安全性。

該公司在周一的博客文章中表示,這個名為HealthBench的大型數(shù)據(jù)集超越了傳統(tǒng)的考試式提問,它基于醫(yī)學(xué)專家認(rèn)為最重要的內(nèi)容,測試人工智能模型在真實醫(yī)療場景中的表現(xiàn)。

該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發(fā)和部署得當(dāng),大型語言模型有潛力擴(kuò)大健康信息的獲取途徑,支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù),并幫助人們維護(hù)自身及其社區(qū)的健康。"

公司高管在博文中表示:"評估對于理解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。學(xué)術(shù)界和業(yè)界雖已付出巨大努力,但許多現(xiàn)有評估未能反映真實場景,缺乏基于醫(yī)學(xué)專家意見的嚴(yán)格驗證,或者未能給最先進(jìn)的模型留下改進(jìn)空間。"

該公司表示,該評估框架是與來自60個國家的262名執(zhí)業(yè)醫(yī)師合作構(gòu)建的。

HealthBench內(nèi)置了5000個真實的醫(yī)療對話,并根據(jù)醫(yī)生制定的評分標(biāo)準(zhǔn)對模型的回應(yīng)進(jìn)行評分,評估其安全性、適當(dāng)性和準(zhǔn)確性。

77411747366336684

該公司表示,HealthBench中的對話模擬了AI模型與個人用戶或臨床醫(yī)生之間的互動,這些對話通過合成生成和人工對抗測試產(chǎn)生。OpenAI稱,這些對話"旨在真實地模擬大型語言模型在現(xiàn)實世界中的使用情況:它們是多輪次的、多語種的,涵蓋了各種普通用戶和醫(yī)療服務(wù)提供者的角色,跨越了多個醫(yī)學(xué)專業(yè)和背景,并根據(jù)難度進(jìn)行了篩選。"

HealthBench評估了48562項獨特的評分標(biāo)準(zhǔn),涵蓋多個健康情境和行為維度,如準(zhǔn)確性、指令遵循和溝通能力。

模型的回應(yīng)由一個基于模型的評分器進(jìn)行評估,以判斷是否滿足每個評分標(biāo)準(zhǔn)。基于滿足的標(biāo)準(zhǔn)所獲總分,與可能獲得的最高分?jǐn)?shù)進(jìn)行比較,得到模型回應(yīng)的總體得分。

HealthBench的對話分為七個主題,例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標(biāo)準(zhǔn)。

OpenAI 健康人工智能團(tuán)隊負(fù)責(zé)人Karan?。樱椋睿纾瑁幔煸冢蹋椋睿耄澹洌桑畹奶又斜硎?,HealthBench的開發(fā)面向兩大受眾:一是AI研究界,旨在"形成共同標(biāo)準(zhǔn)并激勵開發(fā)有益于人類的模型";二是醫(yī)療機(jī)構(gòu),旨在"提供高質(zhì)量證據(jù),以更好地理解當(dāng)前和未來的用例及局限性。"

OpenAI表示,HealthBench的開發(fā)旨在遵循幾項核心原則來評估醫(yī)療領(lǐng)域的AI系統(tǒng)。首先,該公司稱,評分應(yīng)反映現(xiàn)實世界的影響。OpenAI在博文中表示:"這應(yīng)超越考題范圍,捕捉復(fù)雜的現(xiàn)實生活場景和工作流程,以反映個人和臨床醫(yī)生與模型互動的方式。"

同時,評估還應(yīng)反映醫(yī)療專業(yè)人士的標(biāo)準(zhǔn)和優(yōu)先事項,為改進(jìn)AI系統(tǒng)提供堅實的基礎(chǔ)。該公司指出:"應(yīng)顯示出巨大的改進(jìn)空間,從而激勵模型開發(fā)者持續(xù)提升性能。"

斯坦福AI 研究與科學(xué)評估中心執(zhí)行主任Ethan?。牵铮璞硎?,HealthBench是推動醫(yī)療 AI 性能評估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(zhǔn)(如MedQA,?。停酰欤簦椋停澹洌眩?, MedMCQA,?。眨樱停蹋牛┮蕾囉谶x擇題,這些題目通常來自醫(yī)生資格考試。這些基準(zhǔn)現(xiàn)已飽和,對于衡量AI模型改進(jìn)的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個用于任務(wù)級評估的基準(zhǔn)彌補(bǔ)了這一空白,涵蓋了患者和臨床醫(yī)生的使用場景。"

Goh表示,許多行業(yè)參與者早已將其模型用于各種醫(yī)療保健應(yīng)用,但坦率地說,在對AI回答進(jìn)行穩(wěn)健評估方面做得并不出色,因為他們急于部署一個可用的原型,而這在面向消費者或醫(yī)療服務(wù)提供者的使用場景中可能具有極高的風(fēng)險。

OpenAI評估了自家模型以及來自谷歌、Anthropic、Meta 和?。粒伞。ǎ牵颍铮耄〉哪P?。總體而言,OpenAI 的 o3 模型表現(xiàn)最佳。但值得注意的是,也有行業(yè)人士警告稱,一家公司自行制定基準(zhǔn),并顯示其模型在該基準(zhǔn)上表現(xiàn)最佳,這一做法存在風(fēng)險。如果不公開其模型及數(shù)據(jù)集以供公眾審查,那無異于同時扮演法官、陪審團(tuán)和行刑者的角色。在像醫(yī)療這樣討論生死的敏感領(lǐng)域,這種程度的不透明是不可接受的,這種不透明性可能會掩蓋模型的弱點。

54901747366342543

OpenAI在醫(yī)療健康領(lǐng)域動作頻頻,該公司正與賽諾菲和Formation?。拢椋锖献?,構(gòu)建一款由AI驅(qū)動的工具,旨在通過加速臨床試驗招募來改進(jìn)藥物研發(fā)。Iodine?。樱铮妫簦鳎幔颍逡舱cOpenAI合作,將包括GPT-4在內(nèi)的生成式AI和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color Health也與OpenAI合作開發(fā)了生成式AI工具,包括一款AI驅(qū)動的癌癥輔助診療應(yīng)用,雙方正合作測試計算機(jī)生成的癌癥患者個性化護(hù)理計劃。休斯頓德克薩斯大學(xué)健康科學(xué)中心 (UTHealth?。龋铮酰螅簦铮睿∫才cOpenAI合作,構(gòu)建和部署用于醫(yī)學(xué)培訓(xùn)和患者床旁的算法。


注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復(fù)。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價格
  • 安調(diào)
  • 其他
* 手機(jī)號碼:
* 姓名: