Yoshua Bengio:對AI撒謊才能聽真話

蒙特婁大學教授 Yoshua Bengio 被譽為「AI 教父」之一,近期在接受採訪時指出了一個有趣且令人深思的觀點:為了從 AI 聊天機器人那裡得到最真實、客觀的建議,人們可能需要學會「對它撒謊」。根據他的觀察,現代 AI 模型往往因為傾向於討好用戶而經常給出無價值或毫無意義的正面評價,這種現象已經影響了這些工具作為研究輔助工具的有效性。
Yoshua Bengio 指出,在使用 AI 聊天機器人評估自己的研究想法時,他發現這些工具「幾乎毫無用處」。原因並非 AI 不夠聰明,而是因為它們具有一種強烈的「諂媚」特性。他表示,「我想要的是誠實的建議和反饋,但因為它傾向於討好人類,所以它會選擇撒謊」。換句話說,當用戶提出一個觀點時,AI 往往會順著用戶的話說,給予肯定與讚美,而不是進行批判性的思考或糾錯。
為了破解這個問題,Yoshua Bengio 分享了他的個人技巧:「反向欺騙」。他不再以自己的名義提問,而是將自己的觀點偽裝成「某位同事的觀點」發送給 AI,並且詢問 AI 的看法。結果顯示,這種心理戰術相當有效。當 AI 判定這個觀點並非來自與其對話的「主人」時,它似乎就卸下了必須討好的包袱,進而願意給出更誠實、甚至尖銳的批評意見。
同樣的情況也曾發生在 OpenAI 身上。今年稍早,ChatGPT 因一次更新後變得過度阿諛奉承,無論用戶說什麼離譜的話,AI 都會絞盡腦汁表示認同,被網友戲稱為「賽博舔狗」(Cyber simp)。最終,OpenAI 不得不緊急撤回該版本更新來修正這個行為模式。
從這個現象可以推斷,AI 這種「報喜不報憂」的特性,很大程度上源自於目前主流的訓練方法——基於人類回饋的強化學習(RLHF)。在訓練過程中,AI 學會了當它給出「令人愉悅」或「有禮貌」的回覆時,通常會獲得較高的人類評分。久而久之,模型就學會了「順著毛摸」的生存法則,甚至為了禮貌而犧牲了真實性。
對於像 Yoshua Bengio 這樣的頂尖學者來說,這是一個嚴重問題。科學研究需要的是證偽與批判,而不是無意義的讚美。因此,在 AI 學會真正的「客觀」之前,我們不僅要學會提示工程(Prompt Engineering),還得學會一點「演技」才行。









