開源人工智能:數字主權的基石
隨著人工智能正在重塑從教育到國防的方方面面,數字主權已不再是一個長期的愿景,而是一個迫在眉睫的現實需求。
為了確保各國能夠對影響其社會的人工智能系統進行治理、審核和建設,開源人工智能正成為實現自主可控、激發本土創新、重建公眾信任的關鍵支柱。
什么是數字主權?
數字主權是指一個國家或地區具備能力,依據自身的法律、價值觀和戰略利益,獨立地治理、控制和保護其數字基礎設施、數據與技術體系。
這包括對數字資產進行管理和維護的權力與技術能力,涵蓋數據的存儲與處理、技術基礎設施,以及在該國境內使用的各類數字服務。
人工智能中的數字主權引發了具體的問題;人工智能尤其依賴于全新的基礎設施規模與數據體系,并被視為一項變革性技術,預計將直接影響工作、安全、經濟、選舉流程等方面。
如果一項技術在對社會生活中的這些領域都產生了強烈影響,那意味著社會也需要具備塑造其發展路徑和應用方式的能力。
數字主權的關鍵維度
-
數據主權:確保在一國領土內生成的數據受該國法律和治理結構的約束。例如,歐盟的《通用數據保護條例》(GDPR)對歐盟公民的數據施加嚴格的保護標準,無論這些數據在何處被處理。
-
技術主權:在關鍵技術領域追求自給自足,減少對技術提供商的依賴。這包括在云計算、5G 網絡和人工智能等領域發展本國能力。
-
基礎設施主權:對支持數字服務的物理和虛擬基礎設施的控制,例如數據中心、通信網絡和云服務。像 歐洲的 AI 工廠提案 這樣的項目旨在建立一個聯合的數據基礎設施,以增強基礎設施主權。
-
監管主權:在一國司法管轄范圍內制定并執行數字活動相關法律的權力。這包括有關數據隱私、網絡安全和數字競爭的法規,而這些法規的實施能力依賴于前三個數字主權維度。
開源如何支持主權
開源人工智能模型具備可檢查性與可解釋性,使政策制定者、監管機構和公眾能夠深入理解其架構設計、決策邏輯以及潛在局限性。這種可見性是實現人工智能普惠治理的前提條件。通過開源機制,監管部門與研究機構可以系統性地評估 AI 系統的運行機制,并判斷其技術屬性是否符合公平性、安全性與合規性的政策要求。
隨著人工智能在社會各領域的廣泛部署,對可信、可問責的技術體系的需求愈發迫切。開源不僅提供了透明度,也為建立可監管、可審核、可驗證的 AI 治理體系奠定了技術基礎,是實現公共利益導向技術治理的重要路徑。
對于專有人工智能模型,各國普遍面臨顯著的戰略性風險:既無法審查其訓練數據來源,無法修復偏差,也無法確保訪問的持續性、訪問的可用性或成本的穩定性,由此加劇了對外部技術供應方的依賴。這種依賴關系,難以為國家的政策制定、關鍵基礎設施安全或創新能力建設提供穩固支撐。相比之下,開源(以及在一定程度上開源權重)模型為破解這一結構性困境提供了現實路徑。例如,德國在其數字戰略中明確提到了開源,將其作為減少對境外技術依賴、推動本國人工智能生態系統建設與自主能力提升的關鍵舉措。
像 OLMO2(一個相對較小的模型,其訓練方法和數據完全透明,性能與 OpenAI 的 o1-mini 相當)或 OlympicCoder(一個更小的模型,在復雜編碼任務上性能超過最新的 Claude 模型)這樣的開源項目,充分體現了協同創新在構建先進人工智能模型中的潛力。這些模型的設計架構、訓練流程及數據來源均實現了高度透明,為技術評估、治理合規和可信使用提供了可行路徑。
開源人工智能模型具備本地托管、靈活修改和自主治理的能力,這使國家或地區能夠基于本土數據訓練或微調模型,在自主可控的基礎設施上完成部署,并從語言、倫理價值到法律制度等方面制定符合本地文化價值觀與制度框架的政策。
開源如何支持每一個數字主權維度
每一個數字主權的維度都能直接受益于開源。
當政府或公益組織能夠在本地數據集上,根據國家法律框架對模型進行微調或再訓練,且數據無需離開司法管轄區時,數據主權便得以維護。共享這些數據集使得在符合法規的數據基礎上開發技術成為可能,例如 Common Pile v0.1,這是一個由許可和開放域文本組成的數據集。
技術主權則通過學術研究者和(本地)社區構建和維護AI核心能力而得以提升,從模型架構到訓練流程,而非單純依賴外部封閉的專有API。有助于推動國家級乃至區域級人工智能人才體系與技術基礎的獨立發展。
基礎設施主權則得益于可在本地硬件上部署的開源模型,包括端側設備或國家級數據中心,從而最大程度減少對外國控制的云基礎設施的依賴。像 SmolVLM 這樣的輕量模型展示了高性能人工智能系統可在資源有限的硬件環境下運行,為政府部門、公共機構及中小企業提供了在本地構建AI應用的可行路徑,同時保留對模型運行和數據控制的主導權。
最后,監管主權依賴于模型內部機制的可解釋性和透明度。在開源框架下,監管機構能夠對AI系統的決策過程、偏差風險與法律合規性進行有效審查,從而將法律規范具體落實到系統設計與實際運行層面,真正實現“可評估、可審計、可治理”的人工智能治理體系。
綜上所述,開源AI不僅是一種技術資源,更是實現主權的戰略推動力。
像 Hugging Face 的 Transformers 庫、Meta 的 LLaMA 模型和 Mistral 的模型等開源工具,已經賦能全球成千上萬的開發者,使其能夠根據本地需求進行實驗、部署和調整強大的 AI 模型。例如 Sarvam-M,這是一個面向印度語言的多語種模型。
開源人工智能顯著降低了技術進入門檻。它使研究人員、中小企業乃至公共機構不僅能夠使用前沿模型,更能夠基于開源工具鏈進行本地化改進與自主研發。這種“由下而上”的技術創新模式,激活了多層次創新生態,拓寬了本地人才參與全球技術演進的通道。
相較于封閉模型將技術能力集中于少數跨國科技公司手中,開源人工智能為國家和地區提供了打造自身人工智能技術能力的戰略機遇。這種能力的積累,不僅有助于形成符合本地價值觀與監管要求的人工智能系統,更是面向未來的關鍵競爭力,在人工智能深度塑造經濟、治理與社會結構的時代背景下,具有不可替代的長期戰略意義。
人工智能將塑造未來的規則、經濟和價值觀。開源確保這項力量是分布式的、透明的、可適應的,而不是集中在少數人手中。
對于任何致力于數字主權的政府或地區而言,投資開源人工智能并不是一種妥協,而是通向信任、獨立和共同進步的康莊大道。
英文原文: https://huggingface.co/blog/frimelle/sovereignty-and-open-source
譯者: Adeena

浙公網安備 33010602011771號