讀AI賦能07基準測試

1. 測試
1.1. 測試是普通公眾了解AI及其快速增長能力的最主要途徑
1.2. 在爭奪基準測試霸主地位的AI太空競賽中,只有最準確且無害的AI才能存活下來
1.3. AI領域的“競賽”不是一場瘋狂的搶占或瓜分,而更像是一場鐵人三項賽,只不過時間更長
- 1.3.1. 在‘AI軍備競賽’中,倫理可能是第一個犧牲品
1.4. 在短短10多年的時間里,人們見證了從1957年人造衛星首次環繞地球到1969年阿波羅11號登月的快速發展
1.5. 2013年DeepMind的DQN(一種基于深度學習和強化學習的算法)掌握老款雅達利游戲機上的游戲
1.6. 2016年AlphaGo擊敗圍棋世界冠軍李世石
1.7. 2020年AlphaFold在蛋白質結構預測方面取得重大突破
1.8. 如今能夠將冰島語的自然語言提示轉換為可用計算機程序的前沿模型,這些模型從未接受過關于冰島語或計算機編程的明確訓練
1.9. AI的發展并不會吸引那些憑直覺行事、隨興發揮或相信內心聲音的人
- 1.9.1. 這是一個主要由極端的數據極客所占據的領域,他們對測試的熱愛程度甚至超過了TikTok“網紅”樂于看到熱門話題走紅的程度
1.10. 圖靈測試為幾十年來日益復雜的AI評估奠定了基礎
-
1.10.1. 過去的70年里,AI的許多基礎研究和關鍵突破大多發生在高等教育研究實驗室而非商業環境中,這種傳統在AI強大的數據驅動測試文化中得以體現
-
1.10.2. 即使商業開發者在AI發展中開始發揮越來越大的作用,這種持續測試和評估的文化仍然存在,并以多種方式推動了整個領域的進步
1.11. 至少在AI領域,人們所討論的“競賽”不是一場瘋狂的搶占或瓜分,而更像是一場鐵人三項賽,只不過時間更長
1.12. 測試的主要作用不是限制、約束或以其他方式設定允許的行為范圍,相反,它旨在評估能力或表現
- 1.12.1. 一旦知道了自己的分數,你就會想要超越它,一旦你看到別人達到了某種熟練程度,你就想追平甚至超過他
1.13. 雖然測試和監管的目標都是標準化與可控制,但測試將關注點從合規性提升到了持續改進上
- 1.13.1. 這是一種游戲化的監管
1.14. 測試的真正目標不僅僅是確認“考生”知道正確答案,還在于展示它們已經獲得了能夠應用于廣泛場景的能力和專業知識
1.15. 雖然測試和監管的目標都是標準化與控制,但測試將關注點從合規性提升到了持續改進上
2. 基準測試
2.1. 衡量準確性或性能(比如模型正確識別圖像或預測句子中下一個單詞的能力)的基準測試是這種測試的核心,但也僅僅是個起點
2.2. 在整個計算機行業的發展中,基準測試一直發揮著關鍵作用
-
2.2.1. 基本上,每個組織都會開發一種標準化測試來衡量某種系統性能,這樣做的目標是創建可重復的流程,從而生成明確的、針對特定任務的指標
-
2.2.2. 測試者通過這種方式,可以將測試的結果與先前建立的基準值進行比較,了解自己與行業中其他參與相同基準測試的競爭者的差距
2.3. 與臨時測試和其他形式的內部驗證不同,基準測試通常由第三方(多是學術機構或行業聯盟)創建
- 2.3.1. 如果你參與一個基準測試,說明你本質上是同意按照其他人設定的規則來衡量并客觀地認證產品的某些屬性的,無論硬件還是軟件
2.4. 通過合作與競爭的結合,基準測試有助于提升透明度和使問責制度更規范
-
2.4.1. 基準測試既可以確定單個模型的能力,也體現了AI開發的整體進步
-
2.4.2. 即使你不是模型的開發者,也可以利用現有的基準測試對公開可用的模型進行獨立評估,以考察其性能或局限性
-
2.4.3. 雖然基準測試不像法規那樣具有法律約束力,但它們確實設定了許多AI領域的參與者都努力達到甚至超越的標準
-
2.4.4. 起到篩選的作用
-
2.4.4.1. 在基準測試中表現不佳的算法,通常在應用于現實世界之前就會被擱置
-
2.4.5. 基準測試是推動進步的動態機制
-
2.4.5.1. 測試確實具有明確的治理功能
2.5. 有衡量公平性的基準測試,試圖評估AI模型在不同人群中是否能夠做出公平的決策
2.6. 有衡量可靠性和一致性的基準測試,衡量系統容錯能力和抗攻擊能力的基準,評估AI系統的決策的可理解性和可解釋性的基準測試,以及評估安全性、隱私性、可用性、可擴展性、可訪問性及成本效益等方面的基準測試
2.7. 基準測試可以評估AI的常識推理能力,衡量它能否根據日常知識做出人類很容易做出的推斷
2.8. 有對話和交互基準測試,可以評估AI在多次交流中進行自然、情境感知對話的能力
2.9. Real ToxicityPrompts可以評估語言模型在回應某些提示時生成有害或不良內容的頻率
2.10. StereoSet可以測試模型表現出各種社會偏見的傾向,包括與性別、種族、宗教和職業相關的偏見
2.11. HellaSwag通過要求模型為場景補充合理的結尾來評估其常識推理能力
2.12. A12推理挑戰(ARC)使用超過7000個小學科學問題的數據集來測試模型的因果推理和閱讀理解能力
2.13. 基準測試并不能阻止模型出現不良行為(它只是一個測試)?,但它確實為開發者提供了一種一致的方式,評估他們通過修復、調整和采用新方法解決模型缺陷所取得的成效
- 2.13.1. 隨著時間的推移,基準測試可以推動重大改進,并作為這種進步的公開展示
2.14. 基準測試在衡量和推動AI領域的進步方面發揮了重要的作用
-
2.14.1. 一個受歡迎的機器翻譯基準測試BLEU(雙語評估替補)提供了一種簡單的數值測試,以評估谷歌翻譯在不同語言組合
-
2.14.2. 單詞錯誤率(WER)基準測試對語音助手(如亞馬遜的Alexa和蘋果的Siri)的錯誤率顯著下降起到了重要作用
2.15. 一個真正有效的基準測試可能因促成模型巨大的性能提升而使自己落伍,因為模型已經超越了該基準測試所設定的標準
- 2.15.1. 許多流行的技術性能基準測試的性能飽和
2.16. 盡管基準測試推動了大語言模型的改進,使其在現實場景中表現出越來越令人印象深刻的性能,但現實生活中的多項選擇題從來都不像考試中出現的那樣整齊有序
2.17. 基準測試有助于研究人員和開發者探索與AI相關的諸多問題,并更深入地了解AI系統的能力
浙公網安備 33010602011771號