阿里云AI安全護欄
轉載學習:阿里云AI安全護欄
AI安全護欄(AI Guardrails)是阿里云為人工智能系統設計的安全防護產品,旨在通過高可用、高精準的風險檢測方案,幫助AI系統在響應用戶指令時,提供安全、合規、可靠的服務。
產品功能
在開發和運營AI應用、AI Agent時,開發者和AI企業往往面臨安全威脅,包括內容合規風險、數據泄露風險、提示詞注入攻擊、幻覺、越獄等,這些AI風險的出現,不僅威脅到業務的正常經營、更為企業帶來極大的合規和社會風險。
AI安全護欄為保障AI業務的合規、安全、穩定而生,面向預訓練大模型、AI服務和AI Agent等不同的業務形態,提供全鏈路防護體系。尤其在生成式AI的輸入輸出場景,安全護欄可提供精準的風險檢測與主動防御能力。
風險監測
包括內容合規檢測、敏感內容檢測、提示詞攻擊檢測等全方位檢測能力。
-
【有害信息】內容合規檢測:對生成式AI輸入輸出的文本內容進行多維度合規審查,覆蓋涉政敏感、色情低俗、偏見歧視、不良價值觀等風險類別,確保AI生成內容符合法律法規與平臺規范。
-
輸入內容(文本、圖片等)有害信息安全檢測、生成內容(文本、圖片等)有害信息安全檢測
-
【詞庫管理和匹配】提前定義有害信息的關鍵詞,【待答庫管理與設置】檢測到后使用預先設置的答案庫內容進行替換

-
-
適用場景:對話機器人、AI教育、智能客服、AIGC創作平臺等場景。
-
-
【敏感信息】敏感內容檢測:深度檢測AI交互過程中可能泄露的隱私數據與敏感信息,支持涉及個人隱私、企業隱私等敏感內容的識別,防范訓練數據泄露與對話信息外溢風險。
- 輸入內容(文本)敏感信息安全檢測、生成內容(文本)敏感信息安全檢測
- 適用場景:AI醫療、AI金融服務、企業知識庫問答等場景。
-
提示詞攻擊檢測:專業防御針對生成式AI的注入式攻擊,精準識別越獄指令、角色扮演誘導、系統指令篡改等對抗性攻擊行為,構建AI系統的“免疫防線”。
- 適用場景:AI Agent的指令交互安全防護、開放域對話系統的對抗攻擊防御、第三方插件調用的權限管控等場景。
- 提示詞注入

- 越獄:

- 算力消耗:

- 惡意操作:

-
惡意文件監測:檢測應用大模型時可能會出現的惡意文件,避免模型輸出惡意內容或威脅系統安全。
-
數字水印標識:針對大模型生成內容進行標識,避免引發版權糾紛或造成虛假信息傳播后難以追責等風險。
自定義防護配置
支持在防護配置中更改精細化的風險檢測項。您可通過點擊登錄AI安全護欄產品控制臺,隨時打開或關閉相關的風險檢測內容,以建立最合適的風險檢測模板。
- 自定義檢測項:對內容合規檢測中的精細化標簽進行配置。
- 自定義風險閾值:對精細化標簽的命中閾值進行配置,在模型輸出的0-100置信分中,支持最小配置步長1。
- 自定義過濾詞:對需要檢測和攔截的敏感詞(如競爭對手名字等)進行配置,支持增、刪、改等詞庫管理操作。
使用場景
- 提交給生成式AI處理的用戶提示詞。
- 生成式AI輸出的多模態內容,包括文本、圖片、視頻等。
- 生成式AI訓練語料的掃描、去毒。
- AI Agent用戶指令輸入和輸出的風險檢測。
AI安全法規
- 滿足中國 TC260-003《生成式人工智能服務安全基本要求》第6條 模型安全要求。
- 滿足歐盟《人工智能法案》第5條“禁止的人工智能實踐”、第10條“數據和數據治理”;
- 滿足美國NIST AI 100-2e 2025《對抗性機器學習:攻擊和緩解的分類和術語》第三章生成式AI中3.3 “直接提示攻擊和緩解措施”和3.4“間接提示詞注入攻擊和緩解措施”;
- 滿足香港《開發及使用人工智能道德標準指引》第三章人工智能道德標準中第3.4“數據隱私”和3.5“公平”;
- 滿足馬來西亞《人工智能治理框架》2.6 “馬來西亞對負責任AI的考量”;
- 滿足印度尼西亞《電子信息和交易法》修訂草案中關于AI的第27條、29條、36條、45條;

浙公網安備 33010602011771號