Google醫療大模型Med-PaLM 2在發表前，已經「偷偷」在醫療診所實習很久了！多項診斷與真人醫生相當

Google對外發表才2個月的醫療大模型Med-PaLM 2，已經「偷偷」在醫療診所實習很久了。

《華爾街日報》爆料，早在今年4月（也就是Med-PaLM 2對外發表前），Med-PaLM 2就開始在多家診所內測試。負責的工作包括回答醫療問題、總結文件或處理醫療大資料等。

基於Google當下最先進的大語言模型PaLM 2以及大量醫療資料訓練，Med-PaLM 2是第一個在MedQA測試集中達到「專家」水準的AI大模型。

Google曾經表示，在醫療領域，Med-PaLM 2的效果優於Bard、Bing、ChatGPT等通用大模型。

實際上，Google最新被曝光的這一動作，也被視為和微軟競爭的一個方面。

畢竟ChatGPT爆紅引發了醫療系統對於AI提升工作效率的新一輪思考，而基於GPT-4能力的AI工具，被曝已經為130個診所、600名以上醫療工作者提供服務。

所以，Google在AI醫療的新一輪發力，進展如何？

Med-PaLM 2能力如何？

Med-PaLM 2基於Google當下最先進的大語言模型PaLM2，PaLM 2具備3400億參數、3.6萬億tokens。

它的前身Med-PaLM是首個在美國醫療執照考試（USMLE）中取得「及格」以上分數的AI模型，在MedQA資料集上的得分為67.2。Med-PaLM 2將這一分數提升了19%，達到86.5。

並且在MedMACQA、PubMedQA和MMLU幾個臨床方面的資料集上性能接近或超過SOTA。

在1000多個實際醫療場景問答中，Med-PaLM 2在9項基準測試中，有8項表現良好，相較於人類醫生回答更被認可。和普通醫生的回答相比，Med-PaLM 2有72.9%的回答被認為是和醫生回答相對一致的。但這些資料距離Med-PaLM 2能被完全投入到實際醫療場景中應用，還有一段距離。

參與Med-PaLM 2研發的Google技術高管葛立格·柯拉多(Greg Corrado)也表示，目前這一技術的應用仍處於早期階段。它還沒有到達能讓人放心使用的程度。最明顯的就是Med PaLM 2在回答問題的準確性和穩定性上，表現依舊不是很好。

比如上面的測試中Med PaLM 2唯一一項沒有被認可的基準測試，就是「資訊準確性/相關性」。今年世衛組織也對LLM回答的不穩定性表示擔憂。

除此之外，AI在醫療領域的應用上，資料問題非常關鍵，這涉及到患者的個人隱私。此前DeepMind開發的醫療軟體就被發現，違法使用了160萬份患者診斷記錄。但在這個部份，Google聲明所有資料將由醫療機構負責保管，Google是無法拿到的。

儘管在實際應用落地中存在諸多困難，但不可否認，AI醫療領域現在已成為科技巨頭們緊盯的一塊重要陣地。

正如Google曝光郵件中所寫的那樣，Med-PaLM 2等醫療大模型的應用，能夠給醫療資源緊張地區提供很大說明。

近年來，如微軟、Google、IBM等科技大廠也在持續關注AI醫療方面的實際使用。在這輪大模型浪潮之前，AI檢測心電圖、X光片已在一些醫院中投入應用。而ChatGPT一來，AI醫療有了更多實質性進展。

像是微軟和醫療軟體公司Epic合作，開發了一種基於ChatGPT的工具，可以向患者自動發送資訊。還有Carbon Health也基於GPT-4推出了一種AI工具，可以根據醫生病人之間的對話，自動生成診斷記錄。

據介紹，這個工具可以在4分鐘內完成諮詢的總結，比醫生自己操作快12分鐘。

目前這個AI工具已經被130+家診所、超過600名醫療人員使用，三藩市的一家診所表示在使用了這個工具後來就診的病人數量增加了30%。

但在大廠們熱烈推進AI醫療應用時，不少人對於這種應用還表示比較擔憂，畢竟醫療是需要非常謹慎嚴肅以對的領域。

有人就表示，LLM產生的「幻覺」非常多，他不相信LLM能幫他完成研究。

還有資料隱私方面的擔憂，更是老生常談了。

不過如果僅僅是讓AI幫助醫生完成一些重複性的基礎性工作，有人覺得這還是值得提倡的。

即使LLM有幻覺，但是在產生筆記上還是非常成熟的。

資料來源：