LLM應(yīng)用實(shí)戰(zhàn): 產(chǎn)業(yè)治理多標(biāo)簽分類
1. 背景
許久未見(jiàn),甚是想念~
近期本qiang~換了工作,處于新業(yè)務(wù)適應(yīng)期,因此文章有一段時(shí)間未更新,理解萬(wàn)歲!
現(xiàn)在正在著手的工作是產(chǎn)業(yè)治理方面,主要負(fù)責(zé)其中一個(gè)功能模塊,即按照產(chǎn)業(yè)治理標(biāo)準(zhǔn)體系,針對(duì)企業(yè)介紹及其專利數(shù)據(jù)進(jìn)行多標(biāo)簽分類。
本期的干貨就是分享關(guān)于如何基于LLM實(shí)現(xiàn)數(shù)量多、層級(jí)多的多標(biāo)簽分類的實(shí)戰(zhàn)經(jīng)驗(yàn),各位讀者可以參考借鑒。
2. 數(shù)據(jù)介紹
2.1 標(biāo)簽體系
產(chǎn)業(yè)治理方面的標(biāo)簽體系共計(jì)200+個(gè),每個(gè)標(biāo)簽共有4個(gè)層級(jí),且第3、4層級(jí)有標(biāo)簽含義的概括信息。
2.2 原始數(shù)據(jù)
- 企業(yè)官網(wǎng)介紹數(shù)據(jù),包括基本介紹、主要產(chǎn)品等
- 企業(yè)專利數(shù)據(jù),包括專利名稱和專利摘要信息,且專利的數(shù)據(jù)量大。
2.3 LLM選型
經(jīng)調(diào)研,采用Qwen2-72B-Instruct-GPTQ-Int4量化版本,占用顯存更少,且效果與非量化相當(dāng),具體可見(jiàn)Qwen2官網(wǎng)說(shuō)明。
3. 技術(shù)難點(diǎn)
- 團(tuán)隊(duì)無(wú)標(biāo)注人員,因此無(wú)法使用Bert類小模型完成多標(biāo)簽分類任務(wù)
- 涉及垂直領(lǐng)域,即使有標(biāo)注人員,也需要很強(qiáng)的背景知識(shí),方能開(kāi)展標(biāo)注
- 標(biāo)簽數(shù)量多,層次深,且項(xiàng)目對(duì)準(zhǔn)確率有要求
4. 方案設(shè)計(jì)
由于缺少標(biāo)注人員,且對(duì)標(biāo)注員的背景要求高,因此只能選擇LLM進(jìn)行任務(wù)開(kāi)展。
標(biāo)簽體系中每個(gè)標(biāo)簽的含義不夠具象,屬于總結(jié)性的,針對(duì)特定場(chǎng)景,LLM可能無(wú)法準(zhǔn)確分類。因此,可以考慮抽取特定領(lǐng)域的關(guān)鍵詞,作為基礎(chǔ)知識(shí),以實(shí)現(xiàn)RAG。
企業(yè)官網(wǎng)及專利數(shù)據(jù)量巨大,調(diào)用LLM存在耗時(shí)超長(zhǎng)的問(wèn)題,好在有2臺(tái)8卡的機(jī)器,可以做分布式推理,提高響應(yīng)性能。
總體的方案設(shè)計(jì)如下:
圖雖然簡(jiǎn)單明了,但其中的細(xì)節(jié)還是值得玩味的。
4.1 詞級(jí)匹配模塊
(1) 針對(duì)垂直領(lǐng)域,基于標(biāo)簽的含義及經(jīng)驗(yàn)知識(shí),人工整理標(biāo)簽可能涉及的關(guān)鍵詞,如智能汽車,可能存在智能駕駛、自動(dòng)泊車、變道輔助等,但人工整理的關(guān)鍵詞有限;
(2) 針對(duì)企業(yè)及專利數(shù)據(jù),采用LAC+Jieba分詞(注意,人工整理的詞表不進(jìn)行拆分),然后使用KeyBert+編輯距離進(jìn)行關(guān)鍵詞匹配(keybert底層模型采用目前效果最優(yōu)的xiaobu-embedding-v2),篩選出關(guān)鍵詞可能匹配的映射標(biāo)簽
4.2 分類RAG模塊
(1) 每類標(biāo)簽的第3層級(jí)下的第4級(jí)標(biāo)簽的個(gè)數(shù)有限,因此首先針對(duì)標(biāo)簽的前3層級(jí)進(jìn)行分類。取巧的地方在于先粗后精,即前3層級(jí)對(duì)應(yīng)的標(biāo)簽個(gè)數(shù)較多,因此拆分為N組,每組通過(guò)prompt調(diào)用LLM輸出一個(gè)結(jié)果,然后再針對(duì)輸出的結(jié)果進(jìn)行聚合,再調(diào)用一次LLM生成細(xì)粒度的標(biāo)簽
(2) 前3層級(jí)標(biāo)簽確定之后,再基于第4層級(jí)標(biāo)簽進(jìn)行末級(jí)標(biāo)簽確定
5. 功能特點(diǎn)
- 為什么使用關(guān)鍵詞進(jìn)行RAG?
答:關(guān)鍵詞雖然無(wú)法直接映射對(duì)應(yīng)的標(biāo)簽(客官可以想想為什么?),但關(guān)鍵詞有較強(qiáng)的背景提示,因此prompt中關(guān)鍵詞有值的標(biāo)簽篩選出來(lái)的概率更大一些
- 關(guān)鍵詞語(yǔ)義匹配為什么還需要增加編輯距離?
答:因?yàn)檎Z(yǔ)義相似度模型一般針對(duì)較短文本的比較,針對(duì)詞的比較效果較差,因此引入編輯距離,提高詞級(jí)匹配度
- 同一個(gè)關(guān)鍵詞對(duì)應(yīng)多個(gè)標(biāo)簽的場(chǎng)景如何解決?
答:通過(guò)底層的LLM進(jìn)行分辨具體應(yīng)該屬于哪一個(gè)
- 分類RAG是如何考慮的
答:由于標(biāo)簽數(shù)量較多,層級(jí)較深,而且LLM的輸入長(zhǎng)度有限,因此采用化繁為簡(jiǎn)(或先分后合)的方式,將整個(gè)標(biāo)簽體系先進(jìn)行分組,然后調(diào)用LLM輸出每個(gè)分組輸出結(jié)果,再對(duì)結(jié)果進(jìn)行整合,再次調(diào)用LLM進(jìn)行細(xì)粒度分類確認(rèn)
- 分類RAG先粗后細(xì)有什么好處?
答:粗粒度分類,LLM只能觀察到給定的一組標(biāo)簽,而看不到整體標(biāo)簽,粗粒度劃分好之后,細(xì)粒度再次確認(rèn),有助于提高分類的準(zhǔn)確性。
本qiang~的實(shí)驗(yàn)結(jié)果表明,準(zhǔn)確率可以從70%-80%,上升到85%-90%,當(dāng)然該實(shí)驗(yàn)只是針對(duì)該特定場(chǎng)景,但缺點(diǎn)是增加了LLM的響應(yīng)時(shí)間。
- 標(biāo)簽劃分N組后調(diào)用LLM,如何提高響應(yīng)性能?
答:由于部署的是Qwen2量化版,且有2臺(tái)8張卡可以使用,因此起了8個(gè)vllm進(jìn)程,用haproxy做請(qǐng)求轉(zhuǎn)發(fā),從而提高LLM的響應(yīng)性能。實(shí)驗(yàn)表明,7W+數(shù)據(jù),只需要耗時(shí)1天左右即可跑完結(jié)果,單節(jié)點(diǎn)非量化版本,可能需要幾個(gè)禮拜才能跑完。
- 具體效果層面如何?
答:基于這一套方案,針對(duì)每個(gè)標(biāo)簽進(jìn)行隨機(jī)采樣抽檢,準(zhǔn)確率能保持在85%-95%之間
- 為什么不增加fewshot呢?
答:此處的關(guān)鍵詞就類似于fewshot示例,若直接以公司或?qū)@鳛?/span>fewshot,首先所屬標(biāo)簽示例范圍較廣,不好整理,其次嚴(yán)重影響LLM的響應(yīng)時(shí)間,因?yàn)檩斎腴L(zhǎng)度變長(zhǎng)。
- 人工未整理的關(guān)鍵詞場(chǎng)景,如何確保分類準(zhǔn)確?
答:依賴于底層LLM能力,這就是為什么選擇Qwen2-72B的原因,當(dāng)前Qwen2-72B的效果屬于業(yè)界翹首。
6. 未來(lái)優(yōu)化點(diǎn)
如果想要進(jìn)一步提升準(zhǔn)確率,當(dāng)前方案已經(jīng)預(yù)留口子,即標(biāo)簽的詳細(xì)說(shuō)明及垂直領(lǐng)域關(guān)鍵詞的人工整理。標(biāo)簽說(shuō)明越詳細(xì),關(guān)鍵詞整理的越完備,分類的準(zhǔn)確性就會(huì)越高。
但引出的問(wèn)題是,關(guān)鍵詞的人工整理耗時(shí)耗力,如何進(jìn)一步減少人工整理,成為下一步的優(yōu)化方向。
7. 總結(jié)
一句話足矣~
本文主要是采用LLM實(shí)現(xiàn)產(chǎn)業(yè)治理領(lǐng)域的多標(biāo)簽分類任務(wù),包括具體的方案,LLM工程層面優(yōu)化,實(shí)現(xiàn)效果以及未來(lái)的優(yōu)化方向。
讀者可以參考這套方案,嘗試解決LLM實(shí)現(xiàn)多標(biāo)簽分類的任務(wù),尤其是標(biāo)簽種類繁多,且層級(jí)較深的情況。
如有問(wèn)題或者想要合作的客官,可私信溝通。
8. 參考
(1) Qwen2: https://qwen.readthedocs.io/zh-cn/latest/


本期的干貨就是分享關(guān)于如何基于LLM實(shí)現(xiàn)數(shù)量多、層級(jí)多的多標(biāo)簽分類的實(shí)戰(zhàn)經(jīng)驗(yàn),各位讀者可以參考借鑒。
浙公網(wǎng)安備 33010602011771號(hào)