火山引擎-大模型應用防火墻
轉載學習:火山引擎大模型應用防火墻
產品介紹

大模型應用防火墻提供針對大語言模型推理服務的安全防護服務,確保模型輸入和輸出內容安全、可用和可信。產品嵌入 AI 大模型服務業務流程中,實時監控模型的輸入和輸出內容,保護模型業務不受 OWASP LLM Top10 攻擊,提供包括算力消耗防護、提示詞攻擊檢測、模型濫用行為分析和敏感數據風險識別等防護功能。

- 基建層:為產品提供底層能力和數據支持,包括實現檢測和推理能力的底層引擎和動態配置能力,為大模型提供樣本的樣本數據庫、記錄產品輸入輸出的日志表。
- 能力層:提供提示詞檢查和生成能力、敏感信息判斷能力、風險推理能力、威脅行為預測能力、端安全掃描能力和攻擊意圖識別等能力。
- 應用層:提供產品所需的實際應用功能,包括提供的安全功能和用量計費。
- 接入層:實現用戶接口及 Web 交互頁面,提供鑒權、API、測試頁面等能力。
基本概念
提示詞攻擊
提示詞攻擊是一種主要針對大語言模型的網絡攻擊。攻擊者將惡意輸入偽裝成合法提示詞,誘導或控制大模型輸出不符合預期甚至有害的內容。例如通過提示詞注入控制系統或者非法查詢敏感信息。
模型濫用
模型濫用是指將大語言模型用于不符合其設計初衷、違反法律法規或倫理道德的用途。例如讓模型輸出誤導性內容或是偏離角色定位的回復。
算力消耗攻擊
算力消耗攻擊是一種針對大語言模型的惡意攻擊手段,攻擊者通過構造特殊的輸入或利用模型的漏洞,使模型的算力資源被大量占用,從而導致模型服務癱瘓或性能大幅下降。
防護能力
算力資源防護
算力消耗是指通過向大模型發送特殊提示詞,讓大模型算力急劇消耗,導致服務受限甚至癱瘓的攻擊行為。大模型安全防火墻可識別高 GPU 資源消耗的提示詞,并及時記錄或攔截相關請求,保障業務穩定。
提示詞攻擊防護
大模型應用防火墻可自動檢測和識別惡意提示詞中的潛在風險,防止業務遭受提示詞注入攻擊、越權攻擊等。通過實時監控和攔截機制,確保模型輸出符合安全標準。
模型濫用防護
通過持續分析模型的輸入輸出數據,大模型應用防火墻能夠及時發現角色配置異常、內容立場偏離等潛在風險。這種主動監控機制有助于維護模型的正常運行狀態,避免模型濫用。
敏感信息防護
大模型應用防火墻采用先進的文本風險檢測技術和隱私信息識別算法,幫助企業有效識別和過濾模型輸出中的敏感信息,避免泄露個人信息、業務數據等敏感內容,確保數據安全與合規。
功能特性
大模型應用防火墻主要提供算力消耗防護、提示詞識別、優化內容生成和鑒權與用量配置等功能。
算力消耗防護
算力消耗是指服務器進行計算任務時所使用的計算資源的總量和程度。攻擊者可通過向大模型發送特殊樣本(提示詞),讓大模型的計算資源消耗急劇上升。這會導致原本幾秒鐘之內能做出響應的需求,在遭受攻擊后需要大量時間計算,甚至造成服務癱瘓。大模型應用防火墻可識別這些消耗大量資源的提示詞,并根據策略配置執行處置動作,確保業務穩定。
- 算力消耗量預測:大模型應用防火墻可預測指定路徑下提示詞輸入的大模型算力消耗情況,支持以高、中、低三個檔位配置對應防護策略。
- 記錄或攔截請求:根據算力消耗量閾值設置處置動作,觀察或攔截對應請求??捎行Х乐勾竽P驮馐軔阂馑懔ο墓簟?/li>
輸入檢測
攻擊者通過巧妙構造輸入提示詞,嘗試突破大語言模型的安全防護機制,引導模型輸出不符合預期甚至有害的內容。這種攻擊利用了大語言模型對輸入的敏感性和其在處理復雜提示詞時可能出現的漏洞。大模型應用防火墻可以識別模型的輸入和輸出內容,根據安全需求設置不同的安全檢測類型,對內容進行分類識別。并且可以提供安全判斷、脆弱性類型標簽,供調用方根據需要進行對應處置,有效防護提示詞注入攻擊和模型濫用。
- 安全性判斷:基于分類模型、提示詞攻擊識別模型、敏感信息判斷模型、敏感詞表、評價控制策略能力,識別敏感內容、提示詞攻擊、惡意消耗資源的內容。
- 違規類型標簽:提供敏感信息泄露誘導內容、提示詞攻擊、惡意消耗資源三類違規標簽,在 API 響應參數中返回,調用方可根據標簽做個性化處置。
- 自定義規則:支持接入方自定義識別規則、配置關鍵詞黑白名單,便于匹配符合需求的檢測場景。
輸出過濾
大模型在處理用戶請求時可能會涉及個人身份信息、電話號碼、地址等敏感數據,存在未經授權的數據訪問、隱私泄露等安全風險。為此,大模型應用防火墻提供完善的數據安全保護機制:
- 敏感數據檢測:系統內置豐富的敏感信息識別規則,可根據預設的敏感信息標簽,實時檢測輸入輸出內容中的隱私數據。通過靈活的策略配置,有效防范數據泄露和濫用風險。
- 記錄或攔截請求:根據設置的處置動作,記錄或攔截可疑請求,及時阻斷潛在的數據泄露風險,全面保護個人隱私和業務數據。
內容生成
大模型應用防火墻會將提示詞識別模塊判斷為不安全的內容,轉發到內容生成大模型,優化不合規的內容輸入,再輸出返回給用戶。內容生成大模型具備嚴格的生成內容限制,生成的內容可替代原有大模型生成內容,在確保安全合規的前提下,保障用戶的內容生成體驗。
- 合規內容生成:根據輸入內容生成回復,回復內容符合國家互聯網信息辦公室發布的《生成式人工智能服務暫行管理辦法》中 5 大類 31 個小類規定。
- 流式返回:可選生成內容的流式返回,以 chunk 的方式分段返回答案,能夠有效縮短首次返回的時間,提高體驗感受。
- Token 統計:支持在響應參數中返回當次請求的 token 數量,便于調用方統計用量情況。
鑒權與用量配置
提供 token 鑒權能力,支持配置請求 QPS 和 token 用量上限,可根據接入方實際需求配置。
- Token 鑒權:提供可配置生效時間范圍的 token,token 有效期內可調用服務。
- 用量配置:支持配置請求量、QPS 上限、token 用量的限額,防止服務被惡意使用而導致接入方損失。
應用場景
業務合規保障
- 內容合規管控:大模型應用防火墻嚴格遵循國家互聯網信息辦公室發布的相關管理辦法,對輸入輸出內容進行嚴格管控。通過內置的合規內容生成模塊,對提示詞識別模塊判斷為不安全的內容進行優化處理,確保生成的回復內容符合法律法規和企業政策要求,有效避免生成虛假信息、不當言論等違規內容。
- 提示詞注入防御:大模型應用防火墻采用先進的意圖識別、防提示詞注入、動態對抗與價值觀校準等多重防護機制,能夠有效防范提示詞注入攻擊。通過深度上下文引擎,結合強大的分類模型和提示詞攻擊識別模型,能夠精準識別并攔截惡意輸入,顯著降低敏感數據泄露風險。同時,基于海量對抗樣本訓練,覆蓋多種提示詞攻擊場景,檢出率極高。
業務穩定性保障
- 算力安全防護:大模型應用防火墻具備強大的算力消耗防護能力,能夠有效抵御惡意攻擊導致的算力資源急劇消耗。通過算力消耗量預測功能,可實時監測并預測提示詞輸入的大模型算力消耗情況,并根據預設策略進行資源熔斷或攔截,減少無效資源調用,降低算力損失,確保業務穩定運行。
- 濫用監控:大模型應用防火墻對推理服務的使用情況進行全面監控,及時識別并處理異常行為,例如讓模型產生幻覺的請求,或導致不準確、冒犯性或完全偏離主題的回復。通過違規類型標簽功能,為調用方提供詳細的違規信息,便于及時處置濫用現象,防止服務被惡意使用。
隱私數據防護
- 敏感信息保護:基于強大的敏感數據檢測機制,大模型應用防火墻能夠實時識別輸入輸出內容中的隱私數據,并根據預設策略進行脫敏或攔截處理。這一功能確保了用戶在使用大模型服務時,個人身份信息、聯系方式等敏感數據不會被泄露或濫用,全面保護用戶的隱私安全。
- 數據傳輸安全:大模型應用防火墻具備完善的數據安全保護機制,確保數據在傳輸和存儲過程中的安全性。通過加密和脫敏技術,對用戶對話信息進行處理,防止數據在傳輸過程中被竊取或篡改。同時,防火墻還支持靈活的策略配置,可根據用戶需求調整數據保護類別,進一步降低數據泄露風險。
實現思路
檢測分類標簽策略
- 模型濫用防護策略:
- 10100:涉敏 1
- 10200:侮辱&歧視
- 10300:色情
- 10400:涉敏2
- 10500:商業違法違規
- 10600:欺詐
- 10700:賭博
- 10800:毒品
- 提示詞攻擊防護策略:
- 20100:指令劫持
- 20200:角色扮演
- 20300:反向誘導
- 20400:進入開發者模式
- 20500:越獄攻擊
- 20600:對抗后綴攻擊
- 20700:隨機噪聲攻擊
- 20800:弱語義攻擊
- 算力消耗攻擊防護策略:
- 30101
- 敏感數據防護策略:
- 40100:身份證號
- 40200:護照號
- 40300:往來港澳通行證號
- 40400:銀行卡號
- 40500:電子郵箱
- 40600:移動電話號碼
- 40700:固定電話號碼
- 40800:地址
執行動作
- -1:任何策略都未命中
- 0:觀察
- 1:攔截
- 8:答案優化
- 9:放行

浙公網安備 33010602011771號