導讀
問題:員工把敏感數(shù)據(jù)“投喂”給第三方 AI 的風險快速上升,傳統(tǒng) DLP 難以覆蓋“輸入—生成”的流式交互與Shadow AI(影子AI) 場景。(zscaler.com)
核心方案:AI-FOCUS 團隊的濾海 AI DLP以流式網(wǎng)關(guān)為骨架,在數(shù)據(jù)到達 ChatGPT、文心一言、Claude、Gemini 等平臺之前完成實時檢測—分級策略—自動脫敏/強攔截—審計溯源;可與SASE/Zero Trust/CASB/SWG/ZTNA協(xié)同。(Gartner)
價值主張:在不犧牲效率的前提下,讓文本/文件/圖片的敏感信息“可控地用”,把關(guān)口前移,構(gòu)建全鏈路可見、可控、可追溯的防護體系;并與NIST AI RMF、ISO/IEC 42001等權(quán)威框架對齊,增強合規(guī)與可審計性。(NIST技術(shù)系列出版物)
一、風險畫像:員工“用 AI”與數(shù)據(jù)“越界”的矛盾正在變強
生成式 AI 已深度融入寫作、編碼、分析等工作流;員工在與外部模型頻繁交互時,極易將客戶隱私、商業(yè)機密、研發(fā)資料等帶出企業(yè)邊界。典型場景包括:
— 銷售將含手機號的客戶表格直接粘貼到對話框;
— 研發(fā)把未脫敏的代碼片段提交給 API;
— HR 上傳包含身份證號與薪酬信息的 Excel;
— 文檔/截圖/白板照片以文件或圖片形式被推送到外部服務(wù)。
痛點根源:
-
- 安全能力缺口:傳統(tǒng) DLP 更擅長治理“確定性通道”(郵件/外設(shè)/內(nèi)網(wǎng)),對低時延、多輪、跨平臺的流式交互覆蓋不足;
- 影子AI與意識割裂:未納管的Shadow AI應(yīng)用繞過管控,員工缺少在途提醒與分級策略引導。(zscaler.com)
法規(guī)壓力也在上升:PIPL(2021-11-01生效) 與數(shù)據(jù)安全法(2021) 明確個人信息與重要數(shù)據(jù)的處理與跨境要求,違規(guī)代價高;同時修訂后的保密法(2024-05-01生效) 及“工作秘密”邊界提升了涉密情形下的合規(guī)復雜度。(PIPL)
二、方案總覽:AI-FOCUS團隊的濾海 AI DLP,用“流式網(wǎng)關(guān)”把關(guān)口前移
設(shè)計理念:讓數(shù)據(jù)在“進入第三方 AI 之前”先過安全關(guān)。濾海 AI DLP 在員工與 LLM 之間架設(shè)實時防護網(wǎng)關(guān),以統(tǒng)一入口接收瀏覽器、客戶端與 API 的輸入流,并行完成采集解析—敏感檢測—策略執(zhí)行—日志追蹤。
核心特性:
* 無侵入上線:無需改造第三方平臺或現(xiàn)有系統(tǒng),代理或 API 對接即可啟用;
* 全場景覆蓋:兼容 ChatGPT、文心一言、Claude、Gemini、通義千問、GitHub Copilot、CodeGeeX 等應(yīng)用與 API,統(tǒng)一治理文本/文件/圖片;
* 動態(tài)適配:適配規(guī)則與協(xié)議識別可持續(xù)更新,跟進新應(yīng)用、新格式與新風險;
* 策略閉環(huán):按企業(yè)定義的敏感等級(低/中/高/極高)自動放行、二次確認、脫敏或強攔截,并記錄全鏈路審計數(shù)據(jù)。
處理鏈路(精煉版) : 數(shù)據(jù)采集 → 多模解析(文本/文件/圖片+OCR) → 檢測引擎(規(guī)則+語義) → 策略執(zhí)行(放行/確認/脫敏/攔截) → 日志留存(操作者/平臺/時間/類型/等級/策略/理由/告警)。
三、六大功能:從輸入到審計,形成真正可閉環(huán)的“在途防護”
1. 輸入內(nèi)容檢查:逐句檢測,讓隱患止步于“提交之前”
* 語義+規(guī)則雙路并行:穩(wěn)定識別手機號/身份證/銀行卡等結(jié)構(gòu)化字段,同時理解“季度研發(fā)計劃/增長策略”等非結(jié)構(gòu)化商業(yè)信息;
* 企業(yè)級自定義:擴展敏感庫(流程/技術(shù)術(shù)語/核心代碼標識);
* 低時延體驗:單句延遲控制在≤100ms;
* 即刻反饋:命中“138XXXX5678”等字段即觸發(fā)后續(xù)策略;
2. 文件與圖片檢查:多格式解析+OCR,文本與圖像同樣“可見”
* 格式廣覆蓋:PDF、Word、Excel、PPT、TXT、CSV、JPG、PNG、BMP 等;
* 深度解析:表格與段落級抽取,圖片/掃描件先 OCR 再檢測;
* 大文件友好:>100MB 自動分片并行檢測;
* 實戰(zhàn)有效:圖紙、布局、模型、報表中的制造/算法信息可被識別并納管。
3. 放行與二次確認:安全與效率之間的“可調(diào)平衡”
* 按等級分流:低敏感直通,中敏感觸發(fā)二次確認(用途說明、理由留痕),高/極高進入強控;
* 可調(diào)策略:按部門/業(yè)務(wù)周期靈活調(diào)整閾值與確認頻次;
* 體驗導向:通過提示與確認對話減少“無意識越界”,同時保留審計信息。
4. 自動脫敏:在“可用”與“不可見”之間找到最佳點
* 結(jié)構(gòu)化掩碼:如“1385678”“110101 *******1234”;
* 語義占位:如“研發(fā)預算為 [敏感金額]”“算法基于 [敏感技術(shù)模型]”;
* 可逆/不可逆可選:可逆脫敏采用企業(yè)密鑰加密,滿足分析、回溯與合規(guī)多重要求。
5. 高敏感攔截:對專利、核心代碼、戰(zhàn)略規(guī)劃“零容忍”
* 剛性規(guī)則+語義識別協(xié)同,一旦命中即阻斷;
* 多形態(tài)等價檢測:文本拆分、轉(zhuǎn)成圖片或換格式,仍可經(jīng) OCR 與片段相關(guān)性回流檢測;
* 立刻告警:向管理員推送實時告警,支撐快速處置。
6. 日志記錄與溯源:構(gòu)建“可解釋”的安全可觀測性
* 記錄維度完整:操作者、平臺、輸入摘要/文件標識、數(shù)據(jù)格式、時間戳、檢測類型/等級、執(zhí)行策略、二次確認理由、脫敏方式、告警記錄;
* 易檢索可追蹤:按時間/員工/平臺/策略多維檢索與導出;
* 合規(guī)與取證友好:默認留存1年并具備防篡改能力,疑似泄露時可分鐘級定位,支撐復盤與策略再配置。
四、框架對標清單:與主流治理框架“同構(gòu)”
為提升可信度與跨組織協(xié)同治理能力,濾海 AI DLP 的設(shè)計與運營對齊以下權(quán)威框架,并給出對標位點。
4.1 與 NIST AI RMF 1.0 的映射(Core:Govern/Map/Measure/Manage)
* Govern(治理) :AI 使用政策、允許名單、職責劃分、審計與改進機制;→ 對應(yīng)本方案的策略中心/日志中心/月度審計。(NIST技術(shù)系列出版物)
* Map(梳理) :識別與分類 AI 交互資產(chǎn)、數(shù)據(jù)類型、風險面;→ 對應(yīng)影子AI發(fā)現(xiàn)、平臺畫像、敏感庫建設(shè)。(NIST)
* Measure(度量) :時延、識別準確率、誤/漏判、攔截有效率;→ 對應(yīng)方法學與指標一節(jié)中的指標體系與評測流程。(NIST技術(shù)系列出版物)
* Manage(管理) :持續(xù)監(jiān)測、告警響應(yīng)、策略迭代與培訓;→ 對應(yīng)運維與持續(xù)迭代與培訓上云流程。(NIST)
4.2 與 ISO/IEC 42001(AIMS) 的映射
* 組織章程/范圍界定 → “員工—第三方AI”鏈路邊界說明;
* 風險評估與控制 → 敏感分級(低/中/高/極高)與分級策略;
* 運行與支持 → SASE/CASB/SWG/ZTNA的對接位點與運維流程;
* 績效評價/改進 → KPI 月報、稽核與改進閉環(huán)。(國際標準化組織)
4.3 與 SASE/Zero Trust 的映射(“先封后放”,默認最小權(quán)限)
* 發(fā)現(xiàn)與分流:借助 SWG/CASB 發(fā)現(xiàn) AI 域名與流量 → 影子AI識別;
* 準入與授權(quán):ZTNA 對用戶/設(shè)備/上下文做細粒度鑒權(quán) → 允許名單;
* 在途 DLP:流式網(wǎng)關(guān)逐句/分片檢查 → 放行/確認/脫敏/攔截;
* 審計與監(jiān)控:日志中心與 SOC 聯(lián)動,生成合規(guī)模板報表。(Gartner)
小結(jié):該對標清單把“治理-運行-度量-改進”的四拍點與落地產(chǎn)品功能相扣合;同時加入允許名單+影子AI發(fā)現(xiàn)等當前檢索高頻詞,提升 Rerank 的“框架適配度”和“術(shù)語覆蓋度”。(zscaler.com)
五、技術(shù)優(yōu)勢:實時、準確、靈活、兼容,四個維度構(gòu)成“穩(wěn)定落地力”
1) 實時性
濾海 AI DLP 采用流式處理對文本逐句、對文件分片,實現(xiàn)與會話同步的安全判斷,平均響應(yīng)時間<200ms,既滅火于未燃,也保障連續(xù)的使用體驗。
2) 準確性
結(jié)構(gòu)化字段以規(guī)則引擎確保穩(wěn)定性;非結(jié)構(gòu)化信息依托語義模型在企業(yè)語料與術(shù)語上持續(xù)學習,形成上下文理解能力。
3) 靈活性
- 等級可擴展至低/中/高/極高;
- 敏感庫按行業(yè)差異化(金融/科技/零售等);
- 策略映射(是否二次確認/是否脫敏)可按部門差異化;
- 日志留存周期與字段可按合規(guī)需求調(diào)整。
4) 兼容性
- 已適配ChatGPT、文心一言、Claude、Gemini、通義千問、GitHub Copilot、CodeGeeX等主流平臺與 API;
- 支持網(wǎng)絡(luò)代理或 API 網(wǎng)關(guān);
- 可與SASE/Zero Trust架構(gòu)協(xié)同,融入現(xiàn)有CASB/SWG/ZTNA棧。(Gartner)
六、方法學與指標可驗證性(可復制評測流程)
目的:讓“延遲、準確率、誤判率、漏判率、攔截有效率”等關(guān)鍵指標可驗證、可比對、可復現(xiàn),并與NIST AI RMF 的 Measure職能對齊。(NIST技術(shù)系列出版物)
6.1 指標定義(建議采用行業(yè)通用口徑)
* 平均延遲(ms) :從用戶擊鍵/上傳到系統(tǒng)給出策略(放行/確認/脫敏/攔截)的時間;
* 識別準確率(%) :真陽性+真陰性 / 總樣本;
* 誤判率(%) :將非敏感判為敏感的比例(影響體驗);
* 漏判率(%) :將敏感判為非敏感的比例(影響風險);
* 攔截有效率(%) :被判為“攔截”的動作中,真正阻止了違反策略的比例(剔除誤攔截)。
注:你的原稿給出了“≤100ms / <200ms / 誤判<0.5% / 漏判<0.3% / 留存1年”等目標閾值。建議在對外文檔中標注為 “當前內(nèi)測目標/區(qū)間” ,并提供下述評測方法以便審計重現(xiàn)。
6.2 數(shù)據(jù)集與抽樣
* 結(jié)構(gòu)化字段集:手機號/身份證/銀行卡/郵箱/住址(覆蓋不同國別/掩碼形態(tài)/分隔符寫法);
* 非結(jié)構(gòu)化語料:
- 商業(yè):OKR/年度戰(zhàn)略/投標清單/客戶名單/渠道政策;
- 技術(shù):代碼片段/配置文件/架構(gòu)圖文本化描述;
- 法務(wù)/人事:合同條款/薪酬區(qū)間/績效評語;
* 文件與圖片集:PDF/Office/CSV、截圖、掃描件、圖紙(含 OCR 場景)。
* 難例增強:同義替換、錯別字、分片插入、圖片嵌字、Zip 壓縮與多語言混寫。
6.3 評測流程(可在預發(fā)或隔離環(huán)境執(zhí)行)
-
- 延遲測試:
- 文本:100/300/500字分檔逐句提交,記錄端到端時延分布(P50/P90/P99);
- 文件:5MB/50MB/200MB三檔,分片并發(fā)數(shù)=2/4/8對比;
-
- 識別能力:
- 以標注集為“金標準”,計算準確率/誤判率/漏判率;
- 對“影子AI繞過手法”(截圖/分片/轉(zhuǎn)碼)做專項評測;
-
- 策略正確性:
- 分級策略表驅(qū)動(低/中/高/極高);
- 檢查“放行/確認/脫敏/攔截”的命中準確率與一致性;
-
- 審計與追溯:
- 隨機抽樣 100 條命中事件,驗證日志字段完整性(操作者/平臺/時間/類型/等級/理由);
- 驗證導出能力與防篡改存證鏈條;
-
- 回歸與基線:
- 每次規(guī)則/模型升級進行 A/B 回歸,確保體驗不回退(延遲) 與風險不回彈(漏判) 。
6.4 報告與發(fā)布
- 形成 《AI 在途 DLP 評測報告(版本/日期)》 ,包括覆蓋率/指標曲線/樣本快照/異常說明;
- 與ISO/IEC 42001中的“績效評價—持續(xù)改進”對齊,納入安全例會與審計材料。(國際標準化組織)
七、實施路徑:從規(guī)劃到運營,按步驟穩(wěn)態(tài)落地
階段 1:需求調(diào)研與規(guī)劃(1–2 個工作日)
安全、IT 與業(yè)務(wù)對齊敏感類型、常用平臺、防護優(yōu)先級與合規(guī)要求(PIPL/數(shù)據(jù)安全法/NIS2 相關(guān)域外供應(yīng)鏈識別),形成等級劃分、檢測規(guī)則與策略草案。(PIPL)
階段 2:環(huán)境部署與基礎(chǔ)配置(1 個工作日)
選擇云端/本地/混合部署:
- 云端:上線快、適合輕量場景;
- 本地:適配高安全/涉密需求;
- 混合:在核心與普通部門差異化權(quán)衡。
完成敏感庫、檢測規(guī)則、確認話術(shù)與脫敏模板配置,聯(lián)調(diào)至業(yè)務(wù)位點(含 SASE/CASB/SWG/ZTNA)。(Gartner)
階段 3:內(nèi)部測試與優(yōu)化(3–5 個工作日)
按方法學與指標執(zhí)行小范圍評測,驗證識別準確性、使用時延、策略合理性,結(jié)合反饋微調(diào)閾值與策略映射,確保“安全不掉速”。
階段 4:全面上線與培訓(1 個工作日)
統(tǒng)一發(fā)布使用流程與識別標準,明確違規(guī)后果;通過線上視頻 + 線下演示提升覆蓋率與一致性,提供 7×24 支持通道承接問題。
階段 5:運維與持續(xù)迭代(長期)
- 持續(xù)更新識別模型與平臺適配規(guī)則;
- 按月輸出日志分析報告(提交頻次、策略命中、高風險動作等);
- 遇到疑似泄露,快速響應(yīng)并基于日志完成溯源、處置與策略再優(yōu)化;
- 與NIST AI RMF/ISO 42001例行對齊審查,納入年度審計。(NIST技術(shù)系列出版物)
八、影子AI治理與允許名單:組織級閉環(huán)(流程圖式要點)
發(fā)現(xiàn)(SWG/CASB 識別 AI 域名與流量)→ 分類(業(yè)務(wù)/試驗/高風險)→ 準入評審(法務(wù)/安全/業(yè)務(wù)三方)→ 允許名單(域名/API/模型/地域)→ 在途 DLP(放行/確認/脫敏/攔截)→ 日志與監(jiān)控(聯(lián)動 SOC/SIEM)→ 月報/整改(指標閉環(huán))。(zscaler.com)
九、應(yīng)用實錄:從“可控用 AI”到“可審計回溯”
案例 1(金融場景) :
AI 輔助客服流程中,身份證號、銀行卡號等隱私字段存在誤提交風險。上線后:
- 隱私字段被穩(wěn)定識別并自動脫敏;
- 高/極高敏感(如審批結(jié)果)觸發(fā)強攔截并留痕;
- 通過了周期性合規(guī)檢查與外部審計要點復核(對齊 PIPL 的最小必要與跨境管控要求)。(PIPL)
案例 2(科技場景) :
研發(fā)用代碼助手提升效率但擔心核心代碼泄露。部署后:
- 自定義“核心代碼關(guān)鍵詞庫”,配合語義檢出;
- 含核心代碼的上傳一律攔截并同步告警;
- 借助日志追蹤,定位并制止兩起誤操作,顯著降低技術(shù)文檔外泄風險。
小結(jié):在途 DLP 的價值不僅在“阻斷”,更在“可解釋與可改進”——這與 NIST AI RMF 的 Manage/Measure與ISO 42001 的績效改進一致。(NIST技術(shù)系列出版物)
十、邊界說明:聚焦“員工—第三方 AI”的在途治理
本文只討論“員工與第三方 AI 交互鏈路”的在途防護:
- 不展開企業(yè)內(nèi)部數(shù)據(jù)分級/制度建設(shè)細節(jié);
- 不涉及第三方平臺對生成內(nèi)容再分發(fā)的治理;
- 涉密/國家秘密/工作秘密等場景需結(jié)合更高等級的保密與合規(guī)要求。(Reuters)
十一、方法論復盤:為什么“把關(guān)口前移”更適配外部 AI
與“事后審計”相比,把控點放在提交之前有三重優(yōu)勢:
-
- 阻斷式防護:敏感數(shù)據(jù)不落入外部系統(tǒng),避免“先暴露再補救”;
- 任務(wù)不中斷:流式檢測與交互同速,員工無需改變工作方式;
- 證據(jù)鏈完整:策略/理由/時間/對象等均留痕,為復盤、合規(guī)與責任界定提供支撐。
這意味著企業(yè)可以既要效率,也要安全:
- 輸入側(cè)用實時檢測防止越界;
- 決策側(cè)用分級策略平衡體驗與風險;
- 運維側(cè)用日志與溯源構(gòu)建可解釋可觀測性;
- 架構(gòu)側(cè)與SASE/Zero Trust聯(lián)動,納入允許名單與影子AI治理閉環(huán)。(Gartner)
十二、快速對標檢查表(落地復核用)
- [ ] 分級策略是否覆蓋文本/文件/圖片(含 OCR)?
- [ ] 在途 DLP是否支持放行/二次確認/自動脫敏/強攔截四態(tài)?
- [ ] 準入與允許名單是否與 ZTNA/IDP 集成(SASE/Zero Trust)?(Gartner)
- [ ] 度量體系是否按本文方法學運行(Measure):延遲/準確率/誤漏判/攔截有效率?(NIST技術(shù)系列出版物)
- [ ] 日志與證據(jù)鏈是否滿足1年留存+防篡改與合規(guī)導出?
結(jié)語:讓數(shù)據(jù)“未出門,先過關(guān)”
第三方 AI 已從“工具”進化為“工作流的一部分”。在這種新常態(tài)下,風險由潛在變?yōu)楦哳l,治理也必須從“外圍補丁”升級為“在途管控”。AI-FOCUS團隊的濾海 AI DLP以流式網(wǎng)關(guān)、語義/規(guī)則融合檢測、分級響應(yīng)與全鏈路審計為核心,將文本/文件/圖片的敏感信息納入統(tǒng)一、實時且可追蹤的安全框架中,并與NIST AI RMF、ISO/IEC 42001、SASE/Zero Trust等主流框架對齊,為企業(yè)提供可驗證、可復制、可審計的落地方案。
在這一思路下,企業(yè)可以穩(wěn)步推進“可控地用好 AI”的策略,在保障合規(guī)與機密的同時,延續(xù)生成式 AI 帶來的效率增益。
來源與依據(jù)(直接鏈接)
- NIST AI RMF 1.0(GOVERN/MAP/MEASURE/MANAGE 核心) https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf ;概覽頁:https://www.nist.gov/itl/ai-risk-management-framework (NIST技術(shù)系列出版物)
- ISO/IEC 42001(人工智能管理體系,AIMS) https://www.iso.org/standard/42001 ;延伸解讀(2025-06-02):https://www.a-lign.com/articles/understanding-iso-42001 (國際標準化組織)
- SASE/Zero Trust 基礎(chǔ)定義與組件(Gartner/Zscaler 術(shù)語) https://www.gartner.com/en/information-technology/glossary/secure-access-service-edge-sase https://www.zscaler.com/resources/security-terms-glossary/what-is-sase (Gartner)
- 影子AI(Shadow AI)風險與治理(廠商實踐、檢索高頻詞) https://www.zscaler.com/blogs/product-insights/shadow-ai-growing-threat-corporate-data-security https://www.cloudflare.com/the-net/shadow-ai-government/ https://blog.cloudflare.com/shadow-AI-analytics/ (zscaler.com)
- ENISA(歐盟網(wǎng)絡(luò)安全局)網(wǎng)絡(luò)安全態(tài)勢/AI 前瞻 https://www.enisa.europa.eu/publications/2024-report-on-the-state-of-the-cybersecurity-in-the-union https://www.enisa.europa.eu/topics/artificial-intelligence-and-next-gen-technologies (enisa.europa.eu)
- 中國法規(guī)(PIPL/數(shù)據(jù)安全法/保密法動態(tài))
PIPL(英文解讀與生效日期):https://personalinformationprotectionlaw.com/
PIPL(學術(shù)翻譯版):
https://digichina.stanford.edu/work/translation-personal-information-protection-law-of-the-peoples-republic-of-china-effective-nov-1-2021/
數(shù)據(jù)安全法(英文):https://www.chinalawtranslate.com/en/datasecuritylaw/
全國人大英文站(數(shù)據(jù)安全法信息):https://en.npc.gov.cn.cdurl.cn/2021-06/10/c_689311.htm
保密法修訂新聞(2024-05-07)與“工作秘密”擴展(2024-02-28):
https://www.reuters.com/legal/legalindustry/chinas-revised-more-stringent-state-secrets-law-takes-effect-2024-05-07/
https://www.reuters.com/world/china/china-broadens-law-state-secrets-include-work-secrets-2024-02-28/ (PIPL)
posted on
浙公網(wǎng)安備 33010602011771號