<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      LLM應用實戰: 給個公司簡稱,輸出公司全稱

      1.背景

      qiang~本周在處理手頭項目工作的時候,遇到了一個問題,就是友方提供了一個公司名稱列表(量不小~,因此無法人工處理),且該公司名稱列表均為簡稱,需要與庫中的全稱做一個映射匹配。

      看似簡單的一個需求,但傳統的技術手段貌似都無法派上用場,比如語義相似度,文本編輯距離等等。

      因此本qiang花費了半天的時間思考并解決了該任務,遂將工作記錄如下,且本著開放共享,將核心源碼進行公開,歡迎討論~

      2.整體框架

       

       

      其實,原理也非常簡單,由于本地數據庫缺乏公司的完整信息,但可以借助互聯網資源來搜索公司的相關信息,比如官網介紹、天眼查等來源,然后將檢索后的結果通過大模型自帶的推理能力輸出最終結果。

      本文中使用的搜索引擎是duckduckgo_search(需要kexue上網),大模型調用使用的duckduckgo_search內部集成的gpt-4o-mini(理論上只要能kexue上網,即可免費使用gpt-4o-mini。

      3. 效果展示

      AutoX

      深圳安途智行科技有限公司

      Cosmose

      翱覓苷(上海)信息科技有限公司

      Magic Data

      北京晴數智慧科技有限公司

      Minimax

      名之夢(上海)科技有限公司

      Momenta

      北京初速度科技有限公司

      Testin云測

      北京云測信息技術有限公司

      一流科技

      一流科技有限公司

      三六零

      三六零安全科技股份有限公司

      東杰智能

      東杰智能科技集團股份有限公司

      東軟

      東軟集團股份有限公司

      中心通訊

      中興通訊股份有限公司

      中科創達

      中科創達軟件股份有限公司

      中科曙光

      曙光信息產業股份有限公司

      中科視拓

      中科視拓(北京)科技有限公司

      中譯語通

      中譯語通科技股份有限公司

      九四智能

      廣州九四智能科技有限公司

      九章云極

      北京九章云極科技有限公司

      云天勵飛

      深圳云天勵飛技術股份有限公司

      云徙科技

      廣州云徙科技有限公司

      亞信科技

      亞信科技控股有限公司

      4. 全部源碼

      由于調用檢索相對耗時,因此分為公司簡稱檢索和公司全稱提取兩個模塊

      4.1公司簡稱檢索

      from duckduckgo_search import DDGS
      import json
      import time
      
      def save_datas(file_path, datas, json_flag=True, all_flag=False, with_indent=False, mode='w'):
          """保存文本文件"""
          with open(file_path, mode, encoding='utf-8') as f:
              if all_flag:
                  if json_flag:
                      f.write(json.dumps(datas, ensure_ascii=False, indent= 4 if with_indent else None))
                  else:
                      f.write(''.join(datas))
              else:
                  for data in datas:
                      if json_flag:
                          f.write(json.dumps(data, ensure_ascii=False) + '\n') 
                      else:
                          f.write(data + '\n')
      
      
      def search_companies(companies):
          results = []
          for company in companies:
              if '公司' in company:
                  results.append({
                      'company': company,
                      'search_results': 'company'
                  })
                  continue
              text = f'{company} 公司名全稱'
              
              search_results = None
              while search_results is None:
                  try:
                      search_results = DDGS().text(text, max_results=10)
                      if search_results: break
                  except Exception as e:
                      print('sleep 2s')
                      time.sleep(2)
                      continue
              results.append({
                  'company': company,
                  'search_results': search_results
              })
              time.sleep(2)
          save_datas('data/公司簡稱檢索結果.json', results)
      
      
      def get_datas(file_path, json_flag=True, all_flag=False, mode='r'):
          """讀取文本文件"""
          results = []
          
          with open(file_path, mode, encoding='utf-8') as f:
              for line in f.readlines():
                  if json_flag:
                      results.append(json.loads(line))
                  else:
                      results.append(line.strip())
              if all_flag:
                  if json_flag:
                      return json.loads(''.join(results))
                  else:
                      return '\n'.join(results)
              return results
          
      
      if __name__ == '__main__':
          search_companies(get_datas('data/公司簡稱列表.txt', json_flag=False))
      View Code

       

      4.2公司全名提取

      from duckduckgo_search import DDGS
      import json
      import time
      
      
      PROMPT = """你是一個助手,你的任務是基于輸入的公司名簡稱以及搜索結果,分析并提取出公司名簡稱對應的公司名全稱。要求如下:
      1. "簡稱"是公司名簡稱,"搜索結果"是基于互聯網的搜索后的資源,需要根據"簡稱"和"搜索結果"進行分析,并輸出公司全稱,如果無法確認,請返回"無";
      2. 如果檢索結果不包含公司全稱,請基于你所學習的知識可以進一步判斷; 
      3. 輸出結果只包含公司名的全稱信息,且只能包含一個,不需要輸出解釋信息;
      4. 輸入的公司名簡稱均是科技領域的知名公司,這點請注意;
      
      示例:
      簡稱: 京東
      搜索結果:
      1. 京東(中國1998年創立的自營式電商企業)_百度百科\n京東(股票代碼:jd),中國自營式電商企業,創始人劉強東初期擔任京東集團董事局主席兼首席執行官,2021年9月,徐雷獲任集團總裁。京東旗下設有京東商城、京東金融、拍拍網、京東智能、o2o及海外事業部等。1998年6月18日,劉強東在 中關村成立京東公司。
      2. 京東集團 - 維基百科,自由的百科全書\n東集團. 京東集團 (NASDAQ: JD 、 港交所: 9618 、 港交所: 89618 (人民幣結算)),前稱 360buy 和 京東商城,由劉強東于1998年6月18日創立,是一家總部位于 北京 的 中國 電子商務公司,主要為 B2C 模式的購物網站 。. 2014年,京東集團在 美國 納斯達克證券交易 ...
      3. 京東集團股份有限公司 - 愛企查\n簡介: 京東集團股份有限公司(JD.com, Inc.)于2006年11月6日在在英屬維爾京群島注冊成立的公司,通過中國境內的子公司和VIE開展經營活動,公司總部位于北京。. 京東是專業的綜合性網上購物商城,是中國B2C市場最大的3C網購專業平臺,是中國電子商務領域最受 ...
      輸出: 京東集團股份有限公司
      
      現在,請按照要求完成:
      簡稱: {company_name}
      搜索結果: {search_results}
      輸出: 
      """
      
      def save_datas(file_path, datas, json_flag=True, all_flag=False, with_indent=False, mode='w'):
          """保存文本文件"""
          with open(file_path, mode, encoding='utf-8') as f:
              if all_flag:
                  if json_flag:
                      f.write(json.dumps(datas, ensure_ascii=False, indent= 4 if with_indent else None))
                  else:
                      f.write(''.join(datas))
              else:
                  for data in datas:
                      if json_flag:
                          f.write(json.dumps(data, ensure_ascii=False) + '\n') 
                      else:
                          f.write(data + '\n')
      
      def get_datas(file_path, json_flag=True, all_flag=False, mode='r'):
          """讀取文本文件"""
          results = []
          
          with open(file_path, mode, encoding='utf-8') as f:
              for line in f.readlines():
                  if json_flag:
                      results.append(json.loads(line))
                  else:
                      results.append(line.strip())
              if all_flag:
                  if json_flag:
                      return json.loads(''.join(results))
                  else:
                      return '\n'.join(results)
              return results
          
      
      
      def get_company_full_names():
          results = []
          for ele in get_datas('data/公司簡稱檢索結果.json'):
              company_name = ele['company']
              search_results = ele['search_results']
              if isinstance(search_results, str):
                  results.append(f'{company_name}\t{company_name}')
                  continue
              
              prompt = PROMPT.format(company_name=company_name, search_results=search_results)
              result = ''
              while result == '':
                  try:
                      result = DDGS().chat(prompt, model='gpt-4o-mini')
                      if result.strip(): break
                  except Exception as e:
                      time.sleep(2)
                      continue
              results.append(f'{company_name}\t{result}')
          save_datas('data/公司全稱提取結果.txt', results, json_flag=False)
      
      if __name__ == '__main__':
          get_company_full_names()
      View Code

      5.總結

      一句話足矣~

      開發了一款基于公司簡稱補全公司全稱的工具,包括具體的框架、實現原理以及完整源碼,滿滿誠意,提供給各位看官。歡迎轉發、訂閱~有問題可以私信或留言溝通!

      雖然需求比較簡單,且實現過程也比較簡單,但通過搜索引擎搜素以及大模型的各種奇技淫巧,相信可以完成更加復雜且效果驚艷的項目。

      有興趣的客官可以進行溝通合作,感謝~

      6.參考

      (1) Duckduckgo_search: https://github.com/deedy5/duckduckgo_search.git

       

       

      posted @ 2024-11-18 18:06  mengrennwpu  閱讀(588)  評論(4)    收藏  舉報
      主站蜘蛛池模板: 亚洲精品一区二区区别| 国产av一区二区三区无码野战| 色老99久久精品偷偷鲁| 强奷漂亮少妇高潮麻豆| 国产仑乱无码内谢| 国产精品99久久不卡| 国精偷拍一区二区三区| 兴和县| 亚洲中文字幕一区精品自| 国产一区二区不卡在线| 国产成人精品午夜福利在线观看| av天堂亚洲天堂亚洲天堂| 亚洲国产中文字幕精品| 先锋影音男人av资源| 久久精品视频一二三四区| 久久夜色精品久久噜噜亚| 四虎成人在线观看免费| 久久中精品中文字幕入口| 绝顶丰满少妇av无码| 天堂va亚洲va欧美va国产| 影音先锋啪啪av资源网站| 国产国产人免费人成免费| 成人网站免费观看永久视频下载| 亚洲国产长腿丝袜av天堂| 狠狠人妻久久久久久综合蜜桃| 国产免费无遮挡吃奶视频| 国产-第1页-浮力影院| 图片区小说区av区| 日本老熟女一二三区视频| 精品一区二区三区波多野结衣| 爱性久久久久久久久| 人妻少妇偷人精品一区| 荃湾区| 亚洲永久精品日韩成人av| 久热这里只有精品12| 兴安县| 成人特黄特色毛片免费看| 国产成人麻豆亚洲综合无码精品| 国产精品中文字幕久久| 尤物yw193无码点击进入| 国产成人AV性色在线影院|