午夜剧场一区二区无码在线观看,1024手机金沙少妇福利基地,欧美第二页

新聞欄目

相關(guān)推薦

openai發(fā)布最新開(kāi)源框架：醫(yī)療大模型評(píng)估瞄準(zhǔn)現(xiàn)實(shí)情況

發(fā)布時(shí)間：2025-05-19 09:12:17

ＯｐｅｎＡＩ近日發(fā)布了一款開(kāi)源基準(zhǔn)測(cè)試工具，旨在衡量大型語(yǔ)言模型在醫(yī)療健康領(lǐng)域的性能和安全性。

該公司在周一的博客文章中表示，這個(gè)名為ＨｅａｌｔｈＢｅｎｃｈ的大型數(shù)據(jù)集超越了傳統(tǒng)的考試式提問(wèn)，它基于醫(yī)學(xué)專(zhuān)家認(rèn)為最重要的內(nèi)容，測(cè)試人工智能模型在真實(shí)醫(yī)療場(chǎng)景中的表現(xiàn)。

該公司在博文中寫(xiě)道：＂通用人工智能（ＡＧＩ）的決定性影響之一是改善人類(lèi)健康。如果開(kāi)發(fā)和部署得當(dāng)，大型語(yǔ)言模型有潛力擴(kuò)大健康信息的獲取途徑，支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù)，并幫助人們維護(hù)自身及其社區(qū)的健康。＂

公司高管在博文中表示：＂評(píng)估對(duì)于理解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。學(xué)術(shù)界和業(yè)界雖已付出巨大努力，但許多現(xiàn)有評(píng)估未能反映真實(shí)場(chǎng)景，缺乏基于醫(yī)學(xué)專(zhuān)家意見(jiàn)的嚴(yán)格驗(yàn)證，或者未能給最先進(jìn)的模型留下改進(jìn)空間。＂

該公司表示，該評(píng)估框架是與來(lái)自６０個(gè)國(guó)家的２６２名執(zhí)業(yè)醫(yī)師合作構(gòu)建的。

ＨｅａｌｔｈＢｅｎｃｈ內(nèi)置了５０００個(gè)真實(shí)的醫(yī)療對(duì)話(huà)，并根據(jù)醫(yī)生制定的評(píng)分標(biāo)準(zhǔn)對(duì)模型的回應(yīng)進(jìn)行評(píng)分，評(píng)估其安全性、適當(dāng)性和準(zhǔn)確性。

77411747366336684

該公司表示，ＨｅａｌｔｈＢｅｎｃｈ中的對(duì)話(huà)模擬了ＡＩ模型與個(gè)人用戶(hù)或臨床醫(yī)生之間的互動(dòng)，這些對(duì)話(huà)通過(guò)合成生成和人工對(duì)抗測(cè)試產(chǎn)生。ＯｐｅｎＡＩ稱(chēng)，這些對(duì)話(huà)＂旨在真實(shí)地模擬大型語(yǔ)言模型在現(xiàn)實(shí)世界中的使用情況：它們是多輪次的、多語(yǔ)種的，涵蓋了各種普通用戶(hù)和醫(yī)療服務(wù)提供者的角色，跨越了多個(gè)醫(yī)學(xué)專(zhuān)業(yè)和背景，并根據(jù)難度進(jìn)行了篩選。＂

ＨｅａｌｔｈＢｅｎｃｈ評(píng)估了４８５６２項(xiàng)獨(dú)特的評(píng)分標(biāo)準(zhǔn)，涵蓋多個(gè)健康情境和行為維度，如準(zhǔn)確性、指令遵循和溝通能力。

模型的回應(yīng)由一個(gè)基于模型的評(píng)分器進(jìn)行評(píng)估，以判斷是否滿(mǎn)足每個(gè)評(píng)分標(biāo)準(zhǔn)?；跐M(mǎn)足的標(biāo)準(zhǔn)所獲總分，與可能獲得的最高分?jǐn)?shù)進(jìn)行比較，得到模型回應(yīng)的總體得分。

ＨｅａｌｔｈＢｅｎｃｈ的對(duì)話(huà)分為七個(gè)主題，例如緊急情況、處理不確定性或全球健康。每個(gè)主題都有其專(zhuān)屬的評(píng)分標(biāo)準(zhǔn)。

ＯｐｅｎＡＩ　健康人工智能團(tuán)隊(duì)負(fù)責(zé)人Ｋａｒａｎ?。樱椋睿纾瑁幔煸冢蹋椋睿耄澹洌桑畹奶又斜硎?，ＨｅａｌｔｈＢｅｎｃｈ的開(kāi)發(fā)面向兩大受眾：一是ＡＩ研究界，旨在＂形成共同標(biāo)準(zhǔn)并激勵(lì)開(kāi)發(fā)有益于人類(lèi)的模型＂；二是醫(yī)療機(jī)構(gòu)，旨在＂提供高質(zhì)量證據(jù)，以更好地理解當(dāng)前和未來(lái)的用例及局限性。＂

ＯｐｅｎＡＩ表示，ＨｅａｌｔｈＢｅｎｃｈ的開(kāi)發(fā)旨在遵循幾項(xiàng)核心原則來(lái)評(píng)估醫(yī)療領(lǐng)域的ＡＩ系統(tǒng)。首先，該公司稱(chēng)，評(píng)分應(yīng)反映現(xiàn)實(shí)世界的影響。ＯｐｅｎＡＩ在博文中表示：＂這應(yīng)超越考題范圍，捕捉復(fù)雜的現(xiàn)實(shí)生活場(chǎng)景和工作流程，以反映個(gè)人和臨床醫(yī)生與模型互動(dòng)的方式。＂

同時(shí)，評(píng)估還應(yīng)反映醫(yī)療專(zhuān)業(yè)人士的標(biāo)準(zhǔn)和優(yōu)先事項(xiàng)，為改進(jìn)ＡＩ系統(tǒng)提供堅(jiān)實(shí)的基礎(chǔ)。該公司指出：＂應(yīng)顯示出巨大的改進(jìn)空間，從而激勵(lì)模型開(kāi)發(fā)者持續(xù)提升性能。＂

斯坦福ＡＩ　研究與科學(xué)評(píng)估中心執(zhí)行主任Ｅｔｈａｎ?。牵铮璞硎荆龋澹幔欤簦瑁拢澹睿悖枋峭苿?dòng)醫(yī)療?。粒伞⌒阅茉u(píng)估邁向正確方向的一步。Ｇｏｈ在ＬｉｎｋｅｄＩｎ的帖子中提到，許多先前的基準(zhǔn)（如ＭｅｄＱＡ，?。停酰欤簦椋停澹洌眩粒。停澹洌停茫眩粒。眨樱停蹋牛┮蕾?lài)于選擇題，這些題目通常來(lái)自醫(yī)生資格考試。這些基準(zhǔn)現(xiàn)已飽和，對(duì)于衡量ＡＩ模型改進(jìn)的作用不大（即ＡＩ模型的得分已接近１００％）。ＨｅａｌｔｈＢｅｎｃｈ通過(guò)一個(gè)用于任務(wù)級(jí)評(píng)估的基準(zhǔn)彌補(bǔ)了這一空白，涵蓋了患者和臨床醫(yī)生的使用場(chǎng)景。＂

Ｇｏｈ表示，許多行業(yè)參與者早已將其模型用于各種醫(yī)療保健應(yīng)用，但坦率地說(shuō)，在對(duì)ＡＩ回答進(jìn)行穩(wěn)健評(píng)估方面做得并不出色，因?yàn)樗麄兗庇诓渴鹨粋€(gè)可用的原型，而這在面向消費(fèi)者或醫(yī)療服務(wù)提供者的使用場(chǎng)景中可能具有極高的風(fēng)險(xiǎn)。

ＯｐｅｎＡＩ評(píng)估了自家模型以及來(lái)自谷歌、Ａｎｔｈｒｏｐｉｃ、Ｍｅｔａ　和?。粒伞。ǎ牵颍铮耄〉哪Ｐ?。總體而言，ＯｐｅｎＡＩ　的　ｏ３　模型表現(xiàn)最佳。但值得注意的是，也有行業(yè)人士警告稱(chēng)，一家公司自行制定基準(zhǔn)，并顯示其模型在該基準(zhǔn)上表現(xiàn)最佳，這一做法存在風(fēng)險(xiǎn)。如果不公開(kāi)其模型及數(shù)據(jù)集以供公眾審查，那無(wú)異于同時(shí)扮演法官、陪審團(tuán)和行刑者的角色。在像醫(yī)療這樣討論生死的敏感領(lǐng)域，這種程度的不透明是不可接受的，這種不透明性可能會(huì)掩蓋模型的弱點(diǎn)。

54901747366342543

ＯｐｅｎＡＩ在醫(yī)療健康領(lǐng)域動(dòng)作頻頻，該公司正與賽諾菲和Ｆｏｒｍａｔｉｏｎ?。拢椋锖献?，構(gòu)建一款由ＡＩ驅(qū)動(dòng)的工具，旨在通過(guò)加速臨床試驗(yàn)招募來(lái)改進(jìn)藥物研發(fā)。Ｉｏｄｉｎｅ?。樱铮妫簦鳎幔颍逡舱cＯｐｅｎＡＩ合作，將包括ＧＰＴ－４在內(nèi)的生成式ＡＩ和大型語(yǔ)言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外，Ｃｏｌｏｒ?。龋澹幔欤簦枰才cＯｐｅｎＡＩ合作開(kāi)發(fā)了生成式ＡＩ工具，包括一款ＡＩ驅(qū)動(dòng)的癌癥輔助診療應(yīng)用，雙方正合作測(cè)試計(jì)算機(jī)生成的癌癥患者個(gè)性化護(hù)理計(jì)劃。休斯頓德克薩斯大學(xué)健康科學(xué)中心　（ＵＴＨｅａｌｔｈ?。龋铮酰螅簦铮睿∫才cＯｐｅｎＡＩ合作，構(gòu)建和部署用于醫(yī)學(xué)培訓(xùn)和患者床旁的算法。

注：文章來(lái)源于網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系刪除

上一篇：四川出臺(tái)新政促進(jìn)醫(yī)藥健康產(chǎn)業(yè)發(fā)展，支持口腔疾病防治創(chuàng)新

下一篇：fda內(nèi)部將于6月30日前全面部署生成式ai，加速審評(píng)流程