openai-says-chatgpt-doctors-outperforms-humans-clinical-tasks
OpenAI表示其新推出的醫生專用ChatGPT在臨床任務中表現優於人類
ChatGPT for Clinicians 旨在節省醫生的時間,OpenAI 表示其在該 AI 巨頭自行設計的測試中得分高於人類醫師。
2026-04-23 來源:decrypt.co

簡要

  • OpenAI推出了專為臨床醫生設計的ChatGPT版本,旨在支援文件處理和醫學研究等臨床任務。
  • 該平台對經認證的美國醫生、執業護士、醫師助理和藥劑師免費開放。
  • OpenAI表示,根據其內部基準測試,該聊天機器人在某些臨床任務中表現優於人類醫生。

OpenAI週三推出了一款免費的臨床醫生專用ChatGPT版本,適用於醫生、執業護士、醫師助理和藥劑師,此舉深化了該公司進軍醫療保健領域的步伐,該領域正飽受人員短缺、行政超載和職業倦怠之苦。

這款名為「臨床醫生專用ChatGPT」(ChatGPT for Clinicians)的產品,旨在處理文件處理、醫學研究和會診等耗時任務,這些任務佔用了臨床醫生與病患相處的時間。目前,該服務僅限於美國境內經認證的執業人員使用,未來計劃推廣至國際市場。

此項宣布正值AI在醫學領域的應用急劇增長之際。根據OpenAI引用的美國醫學會2026年調查顯示,目前有72%的醫生在臨床實踐中使用AI,較一年前的48%大幅增加。該公司表示,其平台上的臨床醫生使用量在過去一年中增加了一倍多,數百萬人每週都在使用ChatGPT。

該工具的功能包括一個基於數百萬同行評審資料的臨床搜尋功能、用於醫學文獻回顧的深度研究模式、用於轉診信函和預先授權申請等任務的可重複使用工作流程範本,以及在平台上研究臨床問題時賺取繼續醫學教育學分的能力。

對話內容將不會用於訓練OpenAI的模型,符合條件的帳戶可透過業務夥伴協議(Business Associate Agreement)獲得HIPAA合規支援。

伴隨此次發布,OpenAI同步推出了HealthBench Professional,這是一個新的基準測試,旨在評估AI在真實臨床任務中的表現,涵蓋會診、文件處理和醫學研究三大類別。

該公司報告指出,在臨床醫生專用ChatGPT工作區中運行的GPT-5.4,在該基準測試中獲得了59.0分——高於人類醫生(即使擁有無限時間和網路存取權,得分也僅為43.7),也高於來自Anthropic、Google和xAI的競爭模型。

然而,這些結果帶有一個重要的但書:OpenAI既是該產品的開發者,也是用於評估該產品的基準測試的制定者。

為了開發該工具,該公司表示他們與數百名醫師顧問合作,並審查了超過70萬個模型回應。在預測試中,醫生在近7,000次對話中,將99.6%的回應評為安全且準確。

OpenAI一直小心翼翼地將該工具定位為一種支援系統,而非取代臨床判斷的工具——這項區別將在產品更廣泛推廣時,受到監管機構和懷疑者的密切關注。

醫療保健是AI工具的一個快速擴張市場。除了OpenAI的數據顯示臨床醫生使用ChatGPT的次數在過去一年中增加了一倍多之外,麥肯錫的數據也指出,50%的醫療保健領導者表示他們的組織已經實施了生成式AI,高於2024年第四季的47%和2023年第四季的25%。同時,波士頓顧問集團(BCG)的研究顯示,60%的消費者已經將AI用於個人健康。