交個朋友吧

阿里云AI安全護欄

轉載學習：阿里云AI安全護欄

AI安全護欄（AI Guardrails）是阿里云為人工智能系統設計的安全防護產品，旨在通過高可用、高精準的風險檢測方案，幫助AI系統在響應用戶指令時，提供安全、合規、可靠的服務。

產品功能

在開發和運營AI應用、AI Agent時，開發者和AI企業往往面臨安全威脅，包括內容合規風險、數據泄露風險、提示詞注入攻擊、幻覺、越獄等，這些AI風險的出現，不僅威脅到業務的正常經營、更為企業帶來極大的合規和社會風險。

AI安全護欄為保障AI業務的合規、安全、穩定而生，面向預訓練大模型、AI服務和AI Agent等不同的業務形態，提供全鏈路防護體系。尤其在生成式AI的輸入輸出場景，安全護欄可提供精準的風險檢測與主動防御能力。

風險監測

包括內容合規檢測、敏感內容檢測、提示詞攻擊檢測等全方位檢測能力。

【有害信息】內容合規檢測：對生成式AI輸入輸出的文本內容進行多維度合規審查，覆蓋涉政敏感、色情低俗、偏見歧視、不良價值觀等風險類別，確保AI生成內容符合法律法規與平臺規范。
- 輸入內容（文本、圖片等）有害信息安全檢測、生成內容（文本、圖片等）有害信息安全檢測
  - 【詞庫管理和匹配】提前定義有害信息的關鍵詞，【待答庫管理與設置】檢測到后使用預先設置的答案庫內容進行替換
- 適用場景：對話機器人、AI教育、智能客服、AIGC創作平臺等場景。
【敏感信息】敏感內容檢測：深度檢測AI交互過程中可能泄露的隱私數據與敏感信息，支持涉及個人隱私、企業隱私等敏感內容的識別，防范訓練數據泄露與對話信息外溢風險。
- 輸入內容（文本）敏感信息安全檢測、生成內容（文本）敏感信息安全檢測
- 適用場景：AI醫療、AI金融服務、企業知識庫問答等場景。
提示詞攻擊檢測：專業防御針對生成式AI的注入式攻擊，精準識別越獄指令、角色扮演誘導、系統指令篡改等對抗性攻擊行為，構建AI系統的“免疫防線”。
- 適用場景：AI Agent的指令交互安全防護、開放域對話系統的對抗攻擊防御、第三方插件調用的權限管控等場景。
- 提示詞注入
- 越獄：
- 算力消耗：
- 惡意操作：
惡意文件監測：檢測應用大模型時可能會出現的惡意文件，避免模型輸出惡意內容或威脅系統安全。
數字水印標識：針對大模型生成內容進行標識，避免引發版權糾紛或造成虛假信息傳播后難以追責等風險。

自定義防護配置

支持在防護配置中更改精細化的風險檢測項。您可通過點擊登錄AI安全護欄產品控制臺，隨時打開或關閉相關的風險檢測內容，以建立最合適的風險檢測模板。

自定義檢測項：對內容合規檢測中的精細化標簽進行配置。
自定義風險閾值：對精細化標簽的命中閾值進行配置，在模型輸出的0-100置信分中，支持最小配置步長1。
自定義過濾詞：對需要檢測和攔截的敏感詞（如競爭對手名字等）進行配置，支持增、刪、改等詞庫管理操作。

使用場景

提交給生成式AI處理的用戶提示詞。
生成式AI輸出的多模態內容，包括文本、圖片、視頻等。
生成式AI訓練語料的掃描、去毒。
AI Agent用戶指令輸入和輸出的風險檢測。

AI安全法規

滿足中國 TC260-003《生成式人工智能服務安全基本要求》第6條模型安全要求。
滿足歐盟《人工智能法案》第5條“禁止的人工智能實踐”、第10條“數據和數據治理”；
滿足美國NIST AI 100-2e 2025《對抗性機器學習：攻擊和緩解的分類和術語》第三章生成式AI中3.3 “直接提示攻擊和緩解措施”和3.4“間接提示詞注入攻擊和緩解措施”；
滿足香港《開發及使用人工智能道德標準指引》第三章人工智能道德標準中第3.4“數據隱私”和3.5“公平”；
滿足馬來西亞《人工智能治理框架》2.6 “馬來西亞對負責任AI的考量”；
滿足印度尼西亞《電子信息和交易法》修訂草案中關于AI的第27條、29條、36條、45條；

posted @ 2025-07-27 10:46 PamShao 閱讀(298) 評論(0) 收藏舉報

刷新頁面返回頂部

Pam

Hang Shao