<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      LLM應(yīng)用實(shí)戰(zhàn): 產(chǎn)業(yè)治理多標(biāo)簽分類

      1. 背景

      許久未見(jiàn),甚是想念~

      近期本qiang~換了工作,處于新業(yè)務(wù)適應(yīng)期,因此文章有一段時(shí)間未更新,理解萬(wàn)歲!

      現(xiàn)在正在著手的工作是產(chǎn)業(yè)治理方面,主要負(fù)責(zé)其中一個(gè)功能模塊,即按照產(chǎn)業(yè)治理標(biāo)準(zhǔn)體系,針對(duì)企業(yè)介紹及其專利數(shù)據(jù)進(jìn)行多標(biāo)簽分類。

      本期的干貨就是分享關(guān)于如何基于LLM實(shí)現(xiàn)數(shù)量多、層級(jí)多的多標(biāo)簽分類的實(shí)戰(zhàn)經(jīng)驗(yàn),各位讀者可以參考借鑒。

      2. 數(shù)據(jù)介紹

      2.1 標(biāo)簽體系

      產(chǎn)業(yè)治理方面的標(biāo)簽體系共計(jì)200+個(gè),每個(gè)標(biāo)簽共有4個(gè)層級(jí),且第34層級(jí)有標(biāo)簽含義的概括信息。

      2.2 原始數(shù)據(jù)

      1. 企業(yè)官網(wǎng)介紹數(shù)據(jù),包括基本介紹、主要產(chǎn)品等
      2. 企業(yè)專利數(shù)據(jù),包括專利名稱和專利摘要信息,且專利的數(shù)據(jù)量大。

      2.3 LLM選型

      經(jīng)調(diào)研,采用Qwen2-72B-Instruct-GPTQ-Int4量化版本,占用顯存更少,且效果與非量化相當(dāng),具體可見(jiàn)Qwen2官網(wǎng)說(shuō)明

      3. 技術(shù)難點(diǎn)

      1. 團(tuán)隊(duì)無(wú)標(biāo)注人員,因此無(wú)法使用Bert類小模型完成多標(biāo)簽分類任務(wù)
      2. 涉及垂直領(lǐng)域,即使有標(biāo)注人員,也需要很強(qiáng)的背景知識(shí),方能開(kāi)展標(biāo)注
      3. 標(biāo)簽數(shù)量多,層次深,且項(xiàng)目對(duì)準(zhǔn)確率有要求

      4. 方案設(shè)計(jì)

      由于缺少標(biāo)注人員,且對(duì)標(biāo)注員的背景要求高,因此只能選擇LLM進(jìn)行任務(wù)開(kāi)展

      標(biāo)簽體系中每個(gè)標(biāo)簽的含義不夠具象,屬于總結(jié)性的,針對(duì)特定場(chǎng)景,LLM可能無(wú)法準(zhǔn)確分類。因此,可以考慮抽取特定領(lǐng)域的關(guān)鍵詞,作為基礎(chǔ)知識(shí),以實(shí)現(xiàn)RAG

      企業(yè)官網(wǎng)及專利數(shù)據(jù)量巨大,調(diào)用LLM存在耗時(shí)超長(zhǎng)的問(wèn)題,好在有2臺(tái)8卡的機(jī)器,可以做分布式推理,提高響應(yīng)性能

      總體的方案設(shè)計(jì)如下:

       

      圖雖然簡(jiǎn)單明了,但其中的細(xì)節(jié)還是值得玩味的。

      4.1 詞級(jí)匹配模塊

      (1) 針對(duì)垂直領(lǐng)域,基于標(biāo)簽的含義及經(jīng)驗(yàn)知識(shí),人工整理標(biāo)簽可能涉及的關(guān)鍵詞,如智能汽車,可能存在智能駕駛、自動(dòng)泊車、變道輔助等,但人工整理的關(guān)鍵詞有限;

      (2) 針對(duì)企業(yè)及專利數(shù)據(jù),采用LAC+Jieba分詞(注意,人工整理的詞表不進(jìn)行拆分),然后使用KeyBert+編輯距離進(jìn)行關(guān)鍵詞匹配(keybert底層模型采用目前效果最優(yōu)的xiaobu-embedding-v2),篩選出關(guān)鍵詞可能匹配的映射標(biāo)簽

      4.2 分類RAG模塊

      (1) 每類標(biāo)簽的第3層級(jí)下的第4級(jí)標(biāo)簽的個(gè)數(shù)有限,因此首先針對(duì)標(biāo)簽的前3層級(jí)進(jìn)行分類。取巧的地方在于先粗后精,即前3層級(jí)對(duì)應(yīng)的標(biāo)簽個(gè)數(shù)較多,因此拆分為N組,每組通過(guò)prompt調(diào)用LLM輸出一個(gè)結(jié)果,然后再針對(duì)輸出的結(jié)果進(jìn)行聚合,再調(diào)用一次LLM生成細(xì)粒度的標(biāo)簽

      (2) 3層級(jí)標(biāo)簽確定之后,再基于第4層級(jí)標(biāo)簽進(jìn)行末級(jí)標(biāo)簽確定

      5. 功能特點(diǎn)

      1. 為什么使用關(guān)鍵詞進(jìn)行RAG

      答:關(guān)鍵詞雖然無(wú)法直接映射對(duì)應(yīng)的標(biāo)簽(客官可以想想為什么?),但關(guān)鍵詞有較強(qiáng)的背景提示,因此prompt中關(guān)鍵詞有值的標(biāo)簽篩選出來(lái)的概率更大一些

      1. 關(guān)鍵詞語(yǔ)義匹配為什么還需要增加編輯距離?

      答:因?yàn)檎Z(yǔ)義相似度模型一般針對(duì)較短文本的比較,針對(duì)詞的比較效果較差,因此引入編輯距離,提高詞級(jí)匹配度

      1. 同一個(gè)關(guān)鍵詞對(duì)應(yīng)多個(gè)標(biāo)簽的場(chǎng)景如何解決?

      答:通過(guò)底層的LLM進(jìn)行分辨具體應(yīng)該屬于哪一個(gè)

      1. 分類RAG是如何考慮的

      答:由于標(biāo)簽數(shù)量較多,層級(jí)較深,而且LLM的輸入長(zhǎng)度有限,因此采用化繁為簡(jiǎn)(或先分后合)的方式,將整個(gè)標(biāo)簽體系先進(jìn)行分組,然后調(diào)用LLM輸出每個(gè)分組輸出結(jié)果,再對(duì)結(jié)果進(jìn)行整合,再次調(diào)用LLM進(jìn)行細(xì)粒度分類確認(rèn)

      1. 分類RAG先粗后細(xì)有什么好處?

      答:粗粒度分類,LLM只能觀察到給定的一組標(biāo)簽,而看不到整體標(biāo)簽,粗粒度劃分好之后,細(xì)粒度再次確認(rèn),有助于提高分類的準(zhǔn)確性。

      qiang~的實(shí)驗(yàn)結(jié)果表明,準(zhǔn)確率可以從70%-80%,上升到85%-90%,當(dāng)然該實(shí)驗(yàn)只是針對(duì)該特定場(chǎng)景,但缺點(diǎn)是增加了LLM的響應(yīng)時(shí)間。

      1. 標(biāo)簽劃分N組后調(diào)用LLM,如何提高響應(yīng)性能?

      答:由于部署的是Qwen2量化版,且有2臺(tái)8張卡可以使用,因此起了8個(gè)vllm進(jìn)程,用haproxy做請(qǐng)求轉(zhuǎn)發(fā),從而提高LLM的響應(yīng)性能。實(shí)驗(yàn)表明,7W+數(shù)據(jù),只需要耗時(shí)1天左右即可跑完結(jié)果,單節(jié)點(diǎn)非量化版本,可能需要幾個(gè)禮拜才能跑完。

      1. 具體效果層面如何?

      答:基于這一套方案,針對(duì)每個(gè)標(biāo)簽進(jìn)行隨機(jī)采樣抽檢,準(zhǔn)確率能保持在85%-95%之間

      1. 為什么不增加fewshot呢?

      答:此處的關(guān)鍵詞就類似于fewshot示例,若直接以公司或?qū)@鳛?/span>fewshot,首先所屬標(biāo)簽示例范圍較廣,不好整理,其次嚴(yán)重影響LLM的響應(yīng)時(shí)間,因?yàn)檩斎腴L(zhǎng)度變長(zhǎng)。

      1. 人工未整理的關(guān)鍵詞場(chǎng)景,如何確保分類準(zhǔn)確?

      答:依賴于底層LLM能力,這就是為什么選擇Qwen2-72B的原因,當(dāng)前Qwen2-72B的效果屬于業(yè)界翹首。

      6. 未來(lái)優(yōu)化點(diǎn)

      如果想要進(jìn)一步提升準(zhǔn)確率,當(dāng)前方案已經(jīng)預(yù)留口子,即標(biāo)簽的詳細(xì)說(shuō)明及垂直領(lǐng)域關(guān)鍵詞的人工整理。標(biāo)簽說(shuō)明越詳細(xì),關(guān)鍵詞整理的越完備,分類的準(zhǔn)確性就會(huì)越高。

      但引出的問(wèn)題是,關(guān)鍵詞的人工整理耗時(shí)耗力,如何進(jìn)一步減少人工整理,成為下一步的優(yōu)化方向。

      7. 總結(jié)

      一句話足矣~

      本文主要是采用LLM實(shí)現(xiàn)產(chǎn)業(yè)治理領(lǐng)域的多標(biāo)簽分類任務(wù),包括具體的方案,LLM工程層面優(yōu)化,實(shí)現(xiàn)效果以及未來(lái)的優(yōu)化方向。

      讀者可以參考這套方案,嘗試解決LLM實(shí)現(xiàn)多標(biāo)簽分類的任務(wù),尤其是標(biāo)簽種類繁多,且層級(jí)較深的情況。

      如有問(wèn)題或者想要合作的客官,可私信溝通。

      8. 參考

      (1) Qwen2: https://qwen.readthedocs.io/zh-cn/latest/

       

       

      posted @ 2024-08-20 17:26  mengrennwpu  閱讀(946)  評(píng)論(5)    收藏  舉報(bào)
      主站蜘蛛池模板: 一本精品中文字幕在线| 国产熟睡乱子伦视频在线播放| 一二三三免费观看视频| 国产成AV人片久青草影院| 亚洲精品亚洲人成人网| 国产精品亚洲片夜色在线| 精品国产成人亚洲午夜福利| 国产女人18毛片水真多1| 国产黄色一区二区三区四区| 国产精品国产精品国产专区不卡| 国产成人精品亚洲精品日日 | ww污污污网站在线看com| 一本久道久久综合中文字幕| 久久精品国产一区二区蜜芽| 1精品啪国产在线观看免费牛牛| 精品国产91久久粉嫩懂色| 国产精品福利自产拍在线观看| 人妻系列中文字幕精品| 自拍偷拍另类三级三色四色| 国精产品自偷自偷ym使用方法| 亚洲理论在线A中文字幕| 久久国产自偷自免费一区| 久久婷婷大香萑太香蕉av人| 亚洲狠狠婷婷综合久久久| 亚洲AV成人片不卡无码| 久久精品国产99国产精品严洲| 激情 自拍 另类 亚洲| 亚洲天堂男人影院| 污网站在线观看视频| 超碰人人超碰人人| 惠州市| 国产黄色一区二区三区四区| 国产小嫩模无套中出视频| 开心一区二区三区激情| 国产又爽又黄又刺激的视频| 欧洲美熟女乱av在免费| 豆国产97在线 | 亚洲| 欧洲亚洲色一区二区色99| 亚洲欧美日韩愉拍自拍美利坚| 溧水县| 国产欧亚州美日韩综合区|