清華大學出版《DeepSeek與AI幻覺》pdf 免費分享下載
家人們,今天挖到一份超寶藏的文檔——《DeepSeek與AI幻覺》,由清華大學的團隊出品,含金量拉滿!想知道AI那些讓人又愛又恨的“小秘密”嗎?這篇文檔里全是干貨,絕對值得一讀,強烈建議先碼再看!文末附上下載地址!
AI幻覺,簡單來說,就是模型生成的內容和事實對不上,邏輯也不連貫,就像一個人一本正經地胡說八道。它分為事實性幻覺和忠實性幻覺。舉個例子,問“糖尿病患者可以吃蜂蜜代替糖嗎”,要是回答說蜂蜜能穩定血糖適合替代,這就和現實不符,屬于事實性幻覺;要是回答蜂蜜營養好但不針對能不能替代糖的問題,那就是沒理解用戶意圖,屬于忠實性幻覺。
首先是數據偏差,訓練數據要是有錯誤或不全面,模型學了就容易出錯,比如醫學領域用了過時論文訓練,結論肯定跑偏。還有泛化困境,模型碰到訓練集之外的復雜場景就“抓瞎” ,像預測南極冰層融化對非洲農業的影響,就很難準確判斷。另外,模型知識更新不及時,過度依賴舊參數記憶,面對新事件只能瞎編;用戶問題模糊時,模型也會“自由發揮”,給出不恰當的答案。
文檔里介紹了兩種測試方法。一種是模擬普通用戶場景,隨機生成提示語讓大模型回答,然后人工判斷標注;另一種是用大量事實性測試題,涵蓋各個領域,對比正確答案來標注幻覺類型。測試結果顯示,在通用性測試里,DeepSeekV3幻覺率2%,DeepSeekR1是3%;事實性測試中,DeepSeekV3幻覺率29.67% ,DeepSeekR1是22.33%。和其他大模型比,在這兩項測試里,DeepSeekV3的幻覺率高于Qianwen2.5-Max,DeepSeekR1相對低一些,但都比豆包高。

普通用戶可以試試雙AI驗證,用DeepSeek生成答案后,再找其他大模型審查,相互監督。提示詞工程也很有用,比如限定知識邊界,用時間錨定法規定回答基于某一時間前的信息,或者用知識錨定法限定權威信息來源;還能設置對抗性提示,讓模型自我審查潛在錯誤。從技術層面看,RAG框架、結合外部知識庫、精細訓練和開發評估工具,都能應對AI幻覺。
在科學發現上,大衛·貝克團隊靠AI的“錯誤折疊”啟發了新型蛋白質結構,還拿了諾貝爾化學獎;在文藝設計領域,AI幻覺能突破人類思維定式,給游戲開發、文學創作提供靈感;技術創新方面,AI圖像分割產生的“超現實邊界”,意外提升了自動駕駛在極端天氣下的識別精度?,F在科學界還構建了“AI幻覺 - 實驗驗證 - 理論重構”的研究流程,把AI幻覺變成創新的助力。

這份文檔把AI幻覺講得明明白白,不管你是AI小白,還是對大模型有點研究的“進階選手”,都能從中學到新知識。想深入了解AI、避免被AI幻覺誤導,甚至利用幻覺搞創新的朋友,趕緊下載這篇文檔好好研讀!要是讀完有啥想法,歡迎在評論區一起討論!
感謝大家支持與關注!


浙公網安備 33010602011771號