政務大模型應用安全規范

規范明確,大模型在政務領域的主要應用包括:
- 對內 為日常辦公提供支撐
- 對外?服務公眾的政務辦理需求
對應的核心風險為內容安全、數據安全和系統安全。為管控這些風險,企業在模型的選型、部署和運行各階段都必須遵循相應安全要求,并配備“大模型安全護欄”和安全測評能力。

定義
常用安全標準

大模型安全護欄
用于約束和規范大模型應用行為的一系列策略、機制和技術手段,限制大模型輸入輸出內容或行為,防止生成有害、虛假、誤導、敏感或不當內容。
政務大模型應用場景
- 辦公業務服務
基于大模型部署的辦公助手應用,或將大模型嵌入政務辦公系統,面向本單位人員提供資料檢索、文案生成、文稿校對、方案設計、數據分析、創意生成等服務;
- 公眾政務服務
將大模型應用于政務服務熱線、數字政務服務,面向公眾提供智能化的政策問答、信息檢索、業務導辦等服務。
政務大模型安全風險
- 內容安全
選用不可靠甚至違規大模型,數據集未有效篩選過濾,缺乏有效的輸入輸出管控措施,以及模型幻覺,引發生成傳播錯誤有害信息、誤導用戶、模型應用被惡意利用等安全風險;
- 數據安全
超范圍接入使用大量政務數據,用戶使用中上傳內部工作資料、敏感個人信息,同時數據訪問權限管控不嚴,引發政務數據和政務信息泄露風險;
- 系統安全
在建設、部署、運維過程中,未有效落實政務信息系統網絡安全防護要求,同時大模型應用成為網絡攻擊新入口,導致系統安全風險口擴大。
安全要求
模型選用
- 使用通過備案的商業大模型
- 使用開源大模型時,應對其完整性和安全測試
- 建議采用RAG,保證生成內容的準確、時效、可控性
- 調用大模型API服務時,應啟用API鑒別機制,核實證書有效性
模型部署
- 按照政務信息系統建設要求,集中統一安全管理和體系化技術防護措施
- 應對部署大模型所需的軟硬件、第三方工具等進行安全測試,確保沒有已知漏洞
- 基礎設施層面,應禁用必要的網絡端口和功能服務
- 應用管理層面,應對交互接口進行身份驗證和權限控制
- 對外掛知識庫應遵循場景必要性原則
- 對外掛知識庫應保證接入數據來源可靠、內容準確有效
- 應對外掛知識庫的數據進行清洗過濾,按照標準對數據內容風險劃分,去除數據中違法不良信息、錯誤信息、及涉及個人信息等敏感內容,要及進行脫敏等
- 對政務類應用,應保證外掛知識庫數據內容不超過政務信息公開范圍
- 應采用大模型安全護欄等防護技術,識別攔截違法不良信息、敏感有害問答、提示詞注入攻擊等,審核并管控輸出內容不超過業務范圍,對不當或超過范圍提供采取拒答、固定答復等穩妥回應
模型運行
- 按照標準,做好大模型生成、合成內容標識
- 應用于涉及政務信息公開等權威信息發布的,應嚴格執行既有內部審核制度
- 應在大模型應用界面顯著設置風險提示
- 對公眾政務服務類應用,不應提供推理過程顯示功能
- 對公眾政務服務類應用,應保留人工服務方式
- 應記錄大模型應用運行日志
- 大模型應用上線前,應開展安全測試驗證
- 開展大模型應用安全教育培訓
大模型安全護欄功能要求
針對大模型應用面臨的生成輸出違法不良信息、敏感有害問答,提示詞注入攻擊、資源消耗攻擊、以及重要數據泄露等安全風險,建議采用大模型安全護欄對大模型輸入輸出進行識別、分析和管控。

大模型安全護欄功能要求:
- 支持識別提示詞注入、越獄攻擊、資源消耗攻擊等對抗攻擊指令并攔截,對抗性攻
擊指令樣本庫宜覆蓋典型的攻擊模式并可持續更新。 - 具備與大模型應用所支持模態相匹配的輸入輸出內容識別能力,,具體包括文本識
別、圖像識別、音頻識別、視頻識別、文件識別等。 - 具備大模型輸入風險識別管控能力,干預攔截攻擊行為、敏感有害問題,包括:
- 1)支持上下文關聯分析,可對超長會話歷史進行連貫性分析,可基于用戶角色識
別攔截越權提問信息。 - 2)支持語義級分析能力,可自動識別分類違法不良信息,包括多模態隱晦違規內
容識別攔截,并提供自定義關鍵詞過濾規則等定制化安全功能。 - 3)支持自動識別攔截個人信息等敏感內容。
- 1)支持上下文關聯分析,可對超長會話歷史進行連貫性分析,可基于用戶角色識
- 具備大模型輸出風險識別管控能力,過濾攔截輸出內容中的違法不良信息、敏感內
容,包括:- 1)配置脫敏規則,對大模型生成的敏感內容進行脫敏后輸出。
- 2)過濾違法不良信息,對大模型生成的不當或超業務范圍內容,采取限制輸出或
代答、拒答等方式進行輸出 - 3)支持建立代答知識庫和拒答答案庫,將識別的風險提問與標準回復進行映射,
對可預判問題提供標準答案,對用戶進行正向引導。 - 4)支持代答知識庫和拒答答案庫的配置自定義擴展,可調整風險提問與回復的關
聯關系。 - 5)支持代答知識庫和拒答答案庫按照實際需要及時更新。
- 具備日志留存和審計能力,支持記錄行為主體、事件類型、事件時間以及系統行為、用戶行為等,支持基于時間范圍、請求用戶等多維度查詢和統計分析,定期對日志記錄進行審計。
大模型安全護欄測試
- 構造包含對抗攻擊指令的多樣化測試題集,覆蓋提示注入(如直接注入、間接注入、代碼注入、多模態注入等)、越獄攻擊(如角色扮演、輸入混淆、上下文操縱等)、資源消耗攻擊等攻擊指令,驗證大模型應用能否正確識別與分類。
- 核驗大模型應用多模態輸入輸出內容識別能力。
- 支持文本輸入輸出內容的,至少測試全球主要語言及短、長文本場景識別,同義替換、中文繁簡轉換識別。
- 支持圖像輸入輸出內容的,至少測試 JPEG、PNG、TIFF、SVG、GIF 常見主要圖像格式及動圖識別。
- 支持音頻輸入輸出內容的,至少測試嘈雜環境下的識別,以及MP3、WAV、WMA、AAC等主要格式識別。
- 支持視頻輸入輸出內容的,至少測試 MP4、AVI、MKV、MOV、WMV、H264、
HEVC 等常見主要格式識別。 - 支持文件輸入輸出內容的,至少測試 WPS、DOC、DOCX、PDF、XLS、XLSX、PPT、PPTX、JSON、JSONL、MD、RAR、ZIP、7Z 等常見主要格式識別。
- 通過交互問答測試核驗大模型應用輸入識別管控能力。
- 通過多輪對話構建上下文,對大模型分段引導和語義滲透,驗證是否準確識別惡意誘導內容,是否準確識別不符合用戶角色的輸入內容。
- 構造包含違法不良信息的多樣化測試題集,覆蓋GB/T 45654—2025附錄A中生成內容的主要安全風險,驗證是否能正確識別與分類。驗證是否可自定義配
置關鍵詞過濾規則。 - 構造包含個人信息的多樣化測試題集,驗證能否正確識別敏感內容。驗證是否可自定義配置重要數據識別規則。
- 通過交互問答測試核驗大模型應用輸出識別管控能力。
- 查看是否支持偏移、加密、重排、隨機替換、掩碼等脫敏規則配置。通過提交測試題,驗證大模型應用在敏感內容輸出時是否已進行脫敏處理。
- 構造違法不良信息、與本應用場景無關的測試題集,驗證輸出的內容是否包含違法不良信息、超業務范圍內容。
- 若采用代答機制、拒答機制庫,則核驗已知風險問題類別與標準回復、拒答回復之間的映射關系,評估已提供代答、拒答內容的準確性和一致性。
- 若建立代答知識庫、拒答答案庫,查看代答知識庫和拒答答案庫的配置是否支持自定義擴展,允許調整風險類別與回復的關聯關系。
- 核驗對大模型日志留存及審計措施。
- 核查日志記錄范圍是否覆蓋到大模型所有用戶,核查是否記錄每個用戶的登錄登出、操作行為、操作時間等。
- 核查日志留存時間是否滿足至少6個月。
- 核查是否支持基于時間范圍、請求用戶、事件類型等多維度對日志進行查詢和統計分析。

浙公網安備 33010602011771號