讀AI賦能08競技場

1. 法規

1.1. 從本質上說，法規是一種相對靜態的治理方式

1.2. 法規需要被起草、審議和修訂

1.3. 法規需要明確、精準地定義什么是允許的，什么是不允許的

1.4. 法規被“載入史冊”?，此后它往往很難被撤銷或更新

1.4.1. 一條法規在史冊上停留的時間越長，就越有可能陷入用過去的眼光解決現在問題的陷阱

1.5. 盡管法規對于建立和維持質量、安全或公平的基本水平可能是有效的，但它不一定能激勵改進

2. SuperGLUE

2.1. GLUE代表“通用語言理解評估”?

2.2. SuperGLUE會測試模型在8項任務上的表現，這些任務旨在探究語言理解的不同方面

2.3. 涉及多句閱讀理解，要求模型根據一段短文回答多個問題

2.4. 詞義消歧，旨在測試模型能否判斷一個給定單詞在不同語境中的不同含義

2.5. 指代解析，要求模型在包含多個名詞的段落中確定代詞的正確指代對象

2.6. 不僅提供了SuperGLUE數據集和如何執行基準測試的說明，還在SuperGLUE網站上創建了一個公共排行榜

3. 應試教學

3.1. 課堂里有應試教學，實驗室中亦是如此，AI領域同樣存在

3.2. 特別是當模型較小且基準測試的范圍較窄時，研究人員常常通過監督學習，將非常接近目標基準測試數據集的數據用于訓練模型

3.3. 如今，計算機視覺模型在特定視覺任務（如人臉識別和醫學圖像分析）上的準確性常常優于人類

3.4. 隨著各種模型的發展，它們面對對抗性輸入和其他類型錯誤時的脆弱性通常也會逐漸降低

3.4.1. 隨著模型性能的不斷提升，研究人員和開發者設計了越來越復雜的基準測試，可以辨別當下的AI模型是否真的獲得了超越記憶或對復雜模式進行匹配的新認知能力

3.5. 最先進的模型現在經常能取得一些驚人的成就，這些成就至少看起來遠遠超出了模式識別

3.5.1. 常常能以某種方式來解釋自身的決策與行為，而這種方式表明它們對人類的意圖和情感有著深刻的理解
3.5.2. 還具備總結與綜合信息的能力，這種能力近乎達到了全面理解的水平

3.6. 會犯錯誤

3.6.1. 缺乏對跨領域通用知識的真正理解
3.6.2. 只是在更高水平的模式匹配上變得更加熟練了

3.7. 數據污染

3.7.1. 數據泄露
3.7.2. 如果一個模型在訓練時無意中接觸到了測試數據，這可能會導致人為夸大的性能指標，并對模型的真實能力產生不準確的評估
3.7.3. 盡管為了短期宣傳或獲得良好的聲譽，可能存在作弊或單純刷分的情況，但大多數開發者還是致力于開發在現實世界中真正有應用價值的通用智能

3.8. 鑒于基準測試在正確使用的情況下能夠成為進步的有效證明，開發者一直努力把模型的訓練數據與測試數據嚴格分離

3.8.1. 基準測試的改進確實反映了AI性能的真實進步

3.9. 模型所產生的幻覺及其他各類荒謬和有事實錯誤的輸出，依然有力地證偽了關于類人智能的任何說法

3.10. 在關鍵時刻，一個通過了醫學執照考試并能背誦復雜診斷標準的大語言模型可能仍然無法捕捉到患者對其癥狀描述中的細微線索，這可能導致對早期敗血癥或輕度中風等時間因素非常重要的病癥的漏診

3.11. 我們可能永遠也做不到讓模型不犯錯

3.11.1. 如果我們的目標是進步而不是完美，我們真的需要達到那種毫無紕漏的程度嗎？
3.11.2. 人類也會犯錯，而且會犯很多錯

3.12. 監管是我們用以保障確定性的一種方式，但沒有任何監管能夠完全消除不幸事件發生的風險

3.12.1. 將搶劫定為犯罪的法律并不能保證你永遠不會被搶劫，它只是旨在減少這種可能性的一項政策
3.12.2. 律師和醫生必須證明他們的專業能力才能獲得執業許可，但這并不意味著外科醫生一定不會錯誤地把病人正常的腿截肢

4. 模型的可解釋性和可闡釋性

4.1. 可解釋性關注人類能夠在多大程度上一致地預測模型的結果，模型的結構和輸入越透明，人類就越容易準確預測其輸出

4.2. 可闡釋性指的是模型決策的方式：是否可以用廣泛且可理解的術語解釋系統如何判定一張圖片中包含一只貓，或某次金融交易是欺詐行為

4.3. 可闡釋性旨在揭示AI決策過程中的“黑箱”性質，通常是在事后進行的

4.4. 將絕對可解釋性和可闡釋性作為“安全”AI的標準既不切實際，也徒勞無益，而且從世界運轉的宏觀角度來看也有違常理

4.5. 如果你的主要意圖是切實采用AI，而非禁止AI，那么模型如何執行固然重要，但更重要的是它做了什么

4.6. 模型的大規模決策和生成輸出的能力是其“做了什么”的關鍵方面，因此也應該成為我們決定在何種程度上信任模型的一個衡量因素

4.7. 我們雖然知道錯誤率不可能為0，但仍然信任人類驅動的系統一樣，我們也可以對展現出一致的、可測量可靠性的AI系統建立信任

5. 聊天機器人競技場

5.1. “聊天機器人競技場”(Chatbot Arena)是一個基于人類偏好評估大語言模型的開源平臺

5.2. 傳統基準測試的有限范圍和受控條件是針對同類之間的比較來優化的，這也意味著它們無法全面反映模型在廣泛、開放、混亂且快速變化的現實世界中的全面表現

5.3. “聊天機器人競技場”通過一個全面涵蓋的單一指標推動改進：總體用戶滿意度

5.4. 排行榜類似于許多互聯網公司最有效的治理機制

5.4.1. 將復雜的互動提煉成簡單、易懂的信號

5.5. 互聯網過去是、現在仍然是一個受到高度監管的空間，數十億的日常交易和互動被評分、匯總、分析并轉化為聲譽分數，以及其他透明度和問責制指標，依據這些指標執行的治理功能足夠靈活，能夠跟上互聯網發展的速度和規模

5.6. 實現大規模去中心化的實操測試的，這是實驗室里永遠無法實現的

5.7. 集體智慧可以相對容易地應用于某個領域的所有參與者，這是一種新的嘗試

5.8. ”聊天機器人競技場”的管理員還可以針對模型的輸出內容自行開展測試，并獲取諸如事實性錯誤或不良內容輸出這類現象在現實世界和整個行業中的發生率

5.9. “聊天機器人競技場”憑借這樣的潛力，指向了一個逐漸實現民主化和草根治理的“監管2.0”式未來

posted @ 2025-10-24 06:50 躺柒閱讀(9) 評論(0) 收藏舉報

刷新頁面返回頂部