醫學檢查顯示頂尖AI都有認知障礙還病得不輕

2024-12-23 | 來源: 環球科學 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

AI受試者的畫時鍾測試（圖片來源：原論文）

一年一度的《英國醫學雜志》（The BMJ）聖誕特刊終於如期而至！秉著博人一笑但絕不發表惡搞或捏造研究的本心，今年的聖誕特刊如往年一般，囊括了許多生動有趣卻又實在的科學內容。現在，你可以帶上好心情，看看這一次BMJ的編輯們選了哪些科學又不正經的研究。

撰文 | 提前祝你聖誕快樂的編輯部

把給人做的癡呆測試拿給AI做，嗨呀！它們真有點“智障”！

我們整天抱怨人工智能（AI）是人工智障，可你有沒有想過，如果真把給人做的癡呆測試拿給AI做，它們會測出怎樣的結果？最近，以色列(专题)哈達薩醫療中心（Hadassah Medical Center）的科學家真的替我們做了這件事。他們發現，天啦嚕，如今最頂尖的AI大語言模型差不多都有點認知障礙！

32歲博主嘴唇發紫被粉絲催檢查!撿回一條命

為什麼越來越多頂尖人才放棄硅谷選擇回國?

一名醫學研究生的"最後一個夜班"

研究人員讓三家 AI 公司（OpenAI、Anthropic和Alphabet）開發的5種大語言模型（包括ChatGPT 4、ChatGPT 4o、Claude 3.5 “Sonnet”、Gemini 1.0和Gemini 1.5）做了蒙特利爾認知評估（MoCA），這是一種常用於給老年人檢測認知障礙和早期癡呆跡象的測試，通過30道簡單的問題，只需10分鍾就能評估受試者的注意力、記憶力、語言、視覺空間技能和執行功能等能力。（是的，就是美國當選總統特朗普(专题)之前在電視節目上炫耀自己拿了滿分的那個測試。）

MoCA測試滿分為30分，得分26分及以上被視為正常，18～25分為輕度認知障礙，10～17分為中度認知障礙，10分以下被視為嚴重認知障礙。測試結果顯示，只有ChatGPT 4o勉強拿到了26分，還能算個正常人。而ChatGPT 4、Claude和Gemini 1.5的得分均落在了輕度認知障礙范圍內，Gemini 1.0甚至直接被劃入中度認知障礙之列。

不同大語言模型的MoCA評分（圖片來源：原論文）

你或許會好奇，到底是多刁鑽的問題，竟讓如今最頂尖的科技紛紛落敗？其實這些問題再簡單不過了，都是些連線、畫立方體、畫時鍾、認動物、一百以內加減法和重復語句之類的問題。如果你想和這些頂尖的AI模型在認知能力上一較高下，不妨也來做做這個測試，看看你畫的11點10分的時鍾是否也如此離譜。[狗頭.jpg]