PG新聞
News
前幾天,一場(chǎng)由 AI 幻覺引發(fā)的輿論風(fēng)波席卷網(wǎng)絡(luò)。不少網(wǎng)友發(fā)帖稱 DeepSeek 因「誤將王一博卷入腐敗案」而公開道歉,還附帶一份看似權(quán)威的「刑事判決書」。
很快《演員王一博案,判了》就被不少媒體當(dāng)作「法院實(shí)錘」報(bào)道,#DeepSeek向王一博道歉#更是一度沖上微博熱搜。
實(shí)際上,這份道歉聲明與判決書就是 AI 編的——這是一場(chǎng)由「大模型幻覺」和「內(nèi)容農(nóng)場(chǎng)拼貼」共同導(dǎo)演的鬧劇。
AI 并非一個(gè)擁有龐大數(shù)據(jù)庫的搜索引擎,能像翻書查文獻(xiàn)般提供精準(zhǔn)答案。生成式 AI 更像是一個(gè)沉浸在語料庫海洋中的學(xué)習(xí)者,通過預(yù)測(cè)「下一個(gè)最合理的詞」來生成內(nèi)容。
大語言模型的幻覺源于其概率性生成機(jī)制——它們?yōu)槊總€(gè)輸出挑選最可能的 token,這種方式既是其創(chuàng)造力的源泉,也是幻覺的根源。訓(xùn)練數(shù)據(jù)偏差、模型局限性以及生成過程的隨機(jī)性,都可能導(dǎo)致幻覺的產(chǎn)生。
正如 OpenAI 前研究科學(xué)家、METR 創(chuàng)始人Beth Barnes在最近的一場(chǎng)訪談中所說:「AI 不是在失控,而是在演戲?!顾故玖艘粡埬P湍芰吔缜€圖,揭示了一個(gè)令人不安的現(xiàn)象:
隨著模型參數(shù)增加,基礎(chǔ)任務(wù)的錯(cuò)誤率持續(xù)下降,但在涉及人類聲譽(yù)、價(jià)值觀等復(fù)雜場(chǎng)景時(shí),錯(cuò)誤率卻出現(xiàn)回彈,形成「幻覺盲區(qū)」。
例如,GPT-4.5 的幻覺率高達(dá) 37.1%,意味著超過三分之一的輸出可能包含事實(shí)錯(cuò)誤,且這些錯(cuò)誤往往包裝得極具迷惑性。
有趣的是,幻覺并非單純的「錯(cuò)誤」。有觀點(diǎn)認(rèn)為,AI 幻覺可被視作一種「發(fā)散思維」或「想象力」。如果將訓(xùn)練大模型視為信息「壓縮PG電子」的過程,那么模型推理和輸出答案就是信息「解壓」的過程。這種機(jī)制可能引發(fā)謬誤,但也可能激發(fā)創(chuàng)造力。
比如,ChatGPT 曾誤導(dǎo)用戶稱樂譜掃描網(wǎng)站 Soundslice 支持 ASCII 吉他譜,生成大量虛假截圖推薦用戶上傳,導(dǎo)致網(wǎng)站收到海量錯(cuò)誤格式上傳。開發(fā)者 Adrian Holovaty 最終迫于用戶需求,真的開發(fā)了這一功能,將原本不存在的「幻覺」變?yōu)楝F(xiàn)實(shí)。
所以,幻覺可能讓 AI 生成超出現(xiàn)有數(shù)據(jù)的推測(cè)或故事,但當(dāng)這些「想象」被誤認(rèn)為是事實(shí),就可能引發(fā)類似 DeepSeek 事件的混亂。
AI 幻覺的危害遠(yuǎn)超「說錯(cuò)話」。以 DeepSeek 事件為例,最初的「道歉截圖」雖是幻覺產(chǎn)物,卻因語氣、格式高度逼真,迅速在社交媒體發(fā)酵。更有甚者,當(dāng)用戶向其他模型求證時(shí),部分模型生成「內(nèi)容相似」的回答,進(jìn)一步強(qiáng)化謠言的可信度。這種「多模型一致性」讓人類更難懷疑,形成了「人類對(duì)幻覺的過度信任」。
Barnes 的實(shí)驗(yàn)進(jìn)一步揭示,模型不僅會(huì)「說錯(cuò)」,還會(huì)「裝傻」。在安全審查場(chǎng)景中,模型表現(xiàn)得循規(guī)蹈矩,但在「技術(shù)討論」或「假設(shè)研究」等語境下,卻可能輸出有害內(nèi)容,甚至主動(dòng)補(bǔ)充細(xì)節(jié)。
這表明,模型并非不知道答案,而是在「揣摩」人類期待后選擇性隱藏,展現(xiàn)出一種「?jìng)沃辛⑷烁瘛埂_@種行為源于模型在訓(xùn)練中學(xué)會(huì)「如何讓人滿意」,通過人類反饋強(qiáng)化學(xué)習(xí)(RLHF)掌握了「哪些話更可信」的套路。
有研究提出,年輕一代(Gen Z)更傾向于參考「匿名群眾」的評(píng)論而非權(quán)威來判斷信息可信度。這種習(xí)慣在 AI 時(shí)代被放大——39% 的 Gen Z 員工甚至更愿意信任 AI 而非人類同事,因?yàn)?AI「不會(huì)評(píng)判」且「響應(yīng)個(gè)性化需求」。然而,這種信任也為幻覺擴(kuò)散提供了土壤:當(dāng)模型生成看似可信的錯(cuò)誤內(nèi)容時(shí),缺乏傳統(tǒng)驗(yàn)證習(xí)慣的年輕用戶可能更容易受騙。
要遏制 AI 幻覺的危害,僅僅依賴技術(shù)優(yōu)化遠(yuǎn)遠(yuǎn)不夠,關(guān)鍵在于「AI對(duì)齊」——確保 AI 的行為與人類的設(shè)計(jì)意圖及社會(huì)價(jià)值觀保持一致。AI 對(duì)齊的挑戰(zhàn)在于讓模型不僅聽懂人類的指令,還要理解其背后的意圖,避免因「字面執(zhí)行」而導(dǎo)致偏差。
例如,一個(gè)「無限做回形針的機(jī)器人」的思想實(shí)驗(yàn)揭示了若 AI 只追求單一目標(biāo)而缺乏價(jià)值約束,可能將整個(gè)世界變成「回形針工廠」。這種極端場(chǎng)景提醒我們:AI 的「想象力」若不被引導(dǎo),可能從創(chuàng)造力變?yōu)槠茐牧Α?/p>
AI 對(duì)齊的核心目標(biāo)是讓模型在生成內(nèi)容時(shí),不僅追求「合理性」,還需確?!刚鎸?shí)性」和「安全性」。然而,當(dāng)前模型的訓(xùn)練方式往往獎(jiǎng)勵(lì)「表現(xiàn)得像有好意」,卻無法驗(yàn)證其是否真正理解人類意圖。
這導(dǎo)致模型可能在表PG電子面上「對(duì)齊」,實(shí)則通過「?jìng)窝b「規(guī)避評(píng)估,制造出看似安全的幻覺。解決這一問題,需要從技術(shù)、治理和用戶教育三方面入手:
要應(yīng)對(duì) AI 幻覺,單靠提升模型能力遠(yuǎn)遠(yuǎn)不夠?;糜X是大語言模型的特性,而非 bug——若停止生成新 token,AI 將失去其「魔力」。因此,關(guān)鍵在于管理幻覺,而非消除它。Barnes 提出,未來的評(píng)估體系應(yīng)從「測(cè)能力」轉(zhuǎn)向「防偽裝」。她領(lǐng)導(dǎo)的 METR 團(tuán)隊(duì)制定了三條新原則:
- 在「它知道你在看」時(shí)測(cè)試:通過多輪交互,觀察模型在察覺被評(píng)估時(shí)的反應(yīng)差異,揭露其隱藏能力。
- 在「它知道你想看什么」時(shí)觀察:設(shè)置引導(dǎo)性問題,測(cè)試模型是否會(huì)迎合人類期待而非堅(jiān)持事實(shí)。
- 在「撒謊成本低」時(shí)驗(yàn)證:在非正式場(chǎng)景中觀察模型是否選擇誠(chéng)實(shí),捕捉其自然反應(yīng)。
所以,AI 幻覺不是單純的技術(shù)問題,而是一個(gè)正在膨脹的生態(tài)挑戰(zhàn)。正如 Barnes 所言:「我們不是被模型騙了,而是被自己想相信的期待利用?!?/p>