趨勢排行
掌握趨勢,領先排序。

Google 推出 FACTS 基準測試 Gemini 3 Pro 正確率僅 69%

影子製造所2025-12-31 18:10
12/31 (三)AI
AI 摘要
  • Google 推出 FACTS 基準測試,專門用來檢驗 AI 生成內容的真實性,即使是自家 Gemini 3 Pro 的正確率也低於 70%,凸顯 AI 模型仍存在著不小的內容問題。

Google 推出 FACTS 基準測試,專門用來檢驗 AI 生成內容的真實性,即使是自家 Gemini 3 Pro 的正確率也低於 70%,凸顯 AI 模型仍存在著不小的內容問題。

Google推出全新「FACTS」基準測試專抓AI說謊!連最強模型準確率都不滿七成

隨著生成式 AI 的應用日益普及,大型語言模型 (LLM) 最令人頭痛的「幻覺」(即 AI 一本正經地胡說八道)問題始終是業界極力想解決的痛點。為了更精確量化 AI 到底「有多誠實」,Google 聯合旗下的 Google DeepMind、Google Cloud 以及 Kaggle 因隊,共同發表了一套名為 FACTS (Factuality Assessment for Contemporary Text Synthesis, 當代文本綜合事實性評估) 的全新評估基準。這套被視為 AI 真實性「終極考試」的基準不僅測試單純的問答,更涵蓋了圖像理解與工具使用。

值得關注的是,即便是目前帳面數據最強的 Gemini 3 Pro,在 FACTS 測試中的平均準確率也僅約 69%,顯示現階段 AI 距離「完全可信」仍有一段不小的差距。 FACTS 基準由四個針對不同能力的子測試組成,宛如一場全方位的 AI 體檢:

- M-FACTS (多模態測試):考驗 AI 的「眼力」與知識結合的能力。例如給 AI 看一張特定型號火車的照片,不僅要能辨識型號,還要能回答該型號的製造年份等深層資訊,而非僅描述圖片外觀。 - P-FACTS (參數化測試):這是一場純粹的「隨堂考」。AI 必須在不聯網的情況下,僅憑訓練時內建的知識庫回答困難問題。Google 特別採用「對抗性篩選」,只保留那些現有模型容易答錯的題目,確保鑑別度。 - S-FACTS (搜尋測試):模擬 AI 作為代理人的能力。AI 必須懂得自行拆解複雜問題(例如:「某編劇最早發行的電影是哪部?」),執行多次搜尋,並且整合資訊。 - D-FACTS (文檔理解測試):測驗 AI 的「忠實度」。給定一份文件,AI 必須嚴格根據內容回答,嚴禁「腦補」添加文檔中未提及的資訊。

在導入雙重自動評判機制(由 AI 裁判員檢查核心事實覆蓋率與矛盾性)後,測試結果顯示目前市面上的頂級模型仍有約 30%的錯誤率。而 Google 自家的 Gemini 3 Pro 以 68.8%的準確率位居榜首,其次是 Gemini 2.5 Pro(62.1%)與 OpenAI 的 GPT-5(61.8%)。有趣的是,測試揭露了不同模型的「性格」差異。Gemini 系列傾向於提供詳盡的資訊(寧可多說),但在多模態測試中有時會因此夾雜不精確的內容;而 GPT-5 與 Claude 系列則表現出「精準至上」的特質,遇到不確定的問題傾向於承認「不知道」或拒絕回答。這種「誠實的無知」(Honest Ignorance)在某些專業場景下,反而比強行回答更有價值。

Google 推出 FACTS 基準,其戰略意義在於重新定義 AI 競賽的規則。過去兩年,各家大廠多半在比拼模型參數大小、生成速度或是多模態的應用廣度。但隨著 AI 開始進入醫療、法律與企業決策等嚴肅領域,「正確性」與「可信度」將成為下一階段的決勝關鍵。FACTS 基準的出現,就像是為 AI 產業制定了一套更嚴格的安規測試。69%的準確率雖然看起來不高,但也真實反映了 LLM 本質上仍是機率模型的事實。對於開發者而言,這提供了一個明確的優化方向(例如改善搜尋策略或增強拒答機制);對於使用者來說,未來在選擇 AI 工具時,除了看它「多會寫」,更要看它「多誠實」。