大語言模型(LLM)應用服務的評測現況與展望─資策會 FIND科技報─智邦公益電子報
enews.url.com.tw · January 22,2026大語言模型(LLM)應用服務的評測現況與展望
FIND研究員:宋經天
現今大語言模型的評測其實充滿了侷限與爭議。以現存公開的評測資料集來說,例如 MMLU、ARC 等,因為長期被公開使用,愈來愈容易被模型「學會」或間接接觸到相關內容。這導致許多模型在排行榜上不斷刷新紀錄(圖1),看起來能力持續提升,但實際上很難真的確定這些分數是否能真實反映模型的推理能力與理解力。換句話說,公開測試愈普及,模型的高分就愈不具備說服力,而這種評測方式愈來愈難回答最核心的問題:模型是否真的能在未知情境下展現足夠的可靠性?

圖 1:模型在公開的評測資料集上表現得越來越好
資料來源:https://arcprize.org/blog/3-month-update
有研究發現,當這些公開的題目實例做了些許變動後來進行重新測試,這時模型表現大幅降低。在 GSM-Symbolic 測試中,將原來 GSM8K 的題目做了些微的變動,再來看看模型的回應。發現到即使邏輯步驟一樣,模型在這些變體上的正確率通常會比在原 GSM8K 測試題上的分數低很多。
這說明了模型在 GSM8K 上的好成績,可能一部分是因為「見過類似的數字結構、類似的題型、類似的詞句」。換句話說,它之所以能答對,可能是依賴資料集裡的模式而不是對題目結構或背後邏輯的正確理解。所以當僅改變一些看似小的參數(例如把 5 改成 17 或把「男孩」改為「女孩」等),它就可能會回答失敗。這就是「只是記住」或「模式‐匹配」,而不是真正的理解。
而另一種方法則是去查驗模型是否真的理解意義來回應,也就是加入無關但看似相關的詞句(No-Op clauses),來看看對模型是否造成影響。GSM-NoOp 是在題目中加上一些似乎有用但實際上對解題沒有幫助的陳述。雖然這些外加的陳述不影響解答過程,但模型卻常常被誤導,將它們當作要處理的部分,最後造成操作錯誤或解題錯誤。加入這些無關資訊後,模型的準確率往往大幅下降,有些模型的正確率下降甚至超過 60% (圖2)。

圖2:原來 GSM8K 的題目做了些微的變動便造成正確率的下降
資料來源:Mirzadeh, I., Alizadeh, K., Shahrokhi, H., Tuzel, O., Bengio, S., & Farajtabar, M. (2024). Gsm-symbolic: Understanding the limitations of mathematical reasoning in large language models. arXiv preprint arXiv:2410.05229.
這也很明顯凸顯了模型不是真正理解哪些資訊是必要的、哪些只是噪音。模型並沒有穩健地判斷或過濾無關訊息,只是把所有看起來「可能重要」的訊息套進去計算或操作。
因此,對於公開的評測資料集,模型可能在不經意間記住問答的內容而取得很好的分數,但沒有正確學習到真實的樣態反映,所以在實際場域上線之後,仍然沒辦法產生符合預期的反應。也造成公開資料集的評測也逐漸不具代表性。
除此之外,當我們建置大語言模型應用服務時,模型的表現只是其中一個部分。要把一個應用成功推向上線,背後還包含了許多技術與設計。例如檢索增強生成(RAG)讓模型能即時結合外部知識,避免憑空捏造;提示設計與調整則會深刻影響輸出的準確度與完整性。換句話說,一個應用是否成功,不能只看模型在基準測試中的分數,而必須檢視整體系統在真實情境下的效能。
正因如此,業界逐漸探索新的評測方式,試圖補足傳統評測基線(Benchmark)的不足。例如在不同產業裡,逐步建立專屬的任務導向測試,用來模擬醫療、金融或客服的實際場景,這種做法比單純的問答更能揭露模型在特定領域的適用性。同時,人類主觀體驗的引入,也成為不可或缺的一環,因為使用者在意的不只是模型是否答對,而是輸出的流暢度、可信度與解釋性。
持續評測可避免系統偏差
此外,由於模型與檢索資料庫都會隨時間不斷更新,持續評測也變得愈來愈重要,避免系統在演進過程中出現退化或新的偏差。
展望未來,大語言模型應用的評測方向將不再停留在模型層面的單點分數,而是逐步走向系統化與場景化。所謂系統化,就是同時把模型、檢索、提示工程與基礎設施納入一體化的評測框架;而場景化則是針對不同產業與實際應用,建立更貼近真實需求的測試案例。
隨著這些方法逐漸成熟,人機結合的混合評估方式,也會發揮更大的價值,讓自動化指標與上線服務後審查互相補足。最終,評測的重心將從追逐排行榜名次,轉向檢驗整體服務品質,這才是能真正推動大語言模型應用服務持續進化的關鍵。
參考資料來源:
- https://arcprize.org/blog/3-month-update
- https://arxiv.org/abs/2410.05229
ChatGPT 大解密:原來大家都在用它做這些事!
FIND研究員:董定融
你可能每天都在用 ChatGPT,但你知道全世界的人都用它來做什麼嗎?一份最新的研究報告幫我們打開了 ChatGPT 的「後台」,讓我們看看大家都在問些什麼有趣的問題。
最驚人的發現:它其實是「生活智慧王」,不是「工作狂」!
大家可能以為,這麼厲害的 AI 肯定是上班族用來處理工作的神器,但結果恰恰相反!
研究發現,ChatGPT 上超過 70% 的對話都跟工作「無關」。「非工作」的比例一路往上衝,這代表 ChatGPT 已經從一個酷酷的科技工具,變成了大家生活中不可或缺的「好朋友」。我們用它來解決生活中的各種疑難雜症,遠比用它來辦公事多得多!
誰最愛用?年輕人是主力,男女生都愛!
那到底都是哪些人在用 ChatGPT 呢?
首先,它已經不再是科技宅男的專屬玩具了。原文告訴我們一個有趣的故事:一開始用它的男生確實比較多,但隨著時間過去,現在男女生的用戶比例已經差不多一樣了,幾乎是 1:1!這也證明了它有多受歡迎。
年齡方面,主力軍就是年輕人!特別是 18-25 歲的青年人,他們貢獻了差不多一半的對話量。當然,許多上班族也用它來提高工作效率,尤其是那些需要常常動腦的專業工作者。
大家最愛問的三大問題
所以,那 7 億用戶到底都在問些什麼?答案高度集中在三件事上。下面這張圖就像一張「熱門問題排行榜」,讓我們一探究竟:
- 找生活小撇步 (實用指南, 28.3%):這是最大宗的用法!從「如何規劃旅行?」、「情人節禮物該送什麼?」到「幫我的籃球隊想個有趣的隊名」,各種生活大小事都問它。其中光是請它當「家教老師」的用法就佔了 10%!
- 請它幫忙寫東西 (寫作輔助, 28.1%):這是上班族和學生的最愛。不過最有趣的是,大家並不是叫它「從頭寫」,而是把自己的草稿丟給它,請它幫忙「修改」得更好,像是把一封 email 寫得更有禮貌,或是把報告的語氣改得更通順。
- 查資料 (資訊查詢, 21.4%):這就像一個會聊天的超級 Google。大家用它來查歷史事件、問某個名人是誰,或是找食譜,因为它能直接給答案,省去了自己逛網頁的時間。

圖1:顯示各類用途詳細組成的堆疊長條圖
圖片來源:Chatterji et al. 2025
它到底是「幫你想」還是「幫你做」?
科學家還做了一個有趣的分析:大家到底是把 ChatGPT 當成一個「聽指令的工具人」(例如:幫我寫封信),還是當成一個「給你建議的軍師」(例如:你覺得這封信該怎麼寫比較好?)
結果發現,大多數人把它當成「軍師」!
你看下面這張圖,「詢問」(Asking) 的比例明顯高於「執行」(Doing)。這代表我們更喜歡跟它討論、問它的想法,然後自己做決定。我們並不是想讓 AI 取代我們思考,而是希望它能成為一個好夥伴,幫助我們激發更多靈感、做出更好的判斷。

圖2:顯示用途類別與用戶意圖的交叉分析圖
圖片來源:Chatterji et al. 2025
結論
總結來說,ChatGPT 早就不是一個只會寫作業或報告的機器人了。它更像是我們生活中的一個超級助理、一個點子產生器、一個什麼都懂的家教老師。它正在悄悄改變我們學習新知和解決問題的方式,未來一定會變得更厲害、更好玩!
參考資料來源: Chatterji, A., Cunningham, T., Deming, D., Hitzig, Z., Ong, C., Shan, C., & Wadman, K. (2025, September 15). How people use ChatGPT. OpenAI.
AI音樂革命來了,台灣的機會在哪?搞懂這三件事,你就是贏家
FIND研究員:董定融 ???? 當AI開始寫歌,全世界的音樂產業規則正在被改寫。這篇文章,帶你從全球巨頭的牌局,看懂台灣到底該怎麼玩,以及你的機會在哪裡。 ▶️ 第一章:巨頭們在玩什麼? >
生成式AI企業應用的現實分歧與反思
FIND研究員:林佑彬 生成式 AI 正在快速改變企業的工作流程,從客戶服務、自動化作業到知識管理,各行各業都在思考如何透過人工智慧達成降本增效。然而,導入AI並非一條直線通往成功的道路,背後涉及流程整合、使用者體驗、內部治理與組織文化等多重挑戰。 >









