亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12
會員
眾包
新聞
博問
閃存
贊助商
HarmonyOS
Chat2DB
所有博客
當前博客
我的博客
我的園子
賬號設置
會員中心
簡潔模式
...
退出登錄
注冊
登錄
wildkid1024
平平無奇!
博客園
首頁
新隨筆
聯系
訂閱
管理
[置頂]
[CUDA]CUDA編程資源匯總
摘要: 最近在學習CUDA編程,將最近看到的一些資源進行匯總。 書籍和文檔 英偉達CUDA C編程入門 NVIDIA CUDA C Programming Guide https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html 官方的文檔
閱讀全文
posted @ 2021-06-10 16:37 wildkid1024
閱讀(3957)
評論(0)
推薦(2)
[置頂]
[算法競賽]目標檢測常用技巧總結
摘要: 以數智重慶.全球產業賦能創新大賽 為例,目標檢測的幾種常見的做題技巧如下: 針對數據集進行數據提升 a. 需要對數據進行了解,比如有哪些分類,每個分類下各有什么特點,每個分類下的圖片尺寸是怎樣的,分布是怎樣的(長尾分布,類別不均衡)。 b. 數據出現了什么樣的問題,應該怎么去解決這些問題。(多樣性,
閱讀全文
posted @ 2021-05-23 14:01 wildkid1024
閱讀(442)
評論(0)
推薦(0)
2024年8月26日
[SentencePiece]Tokenizer的原理與實現
摘要: 由來 無論在使用LLM大模型時,還是使用bert等傳統的模型,對字符串進行編碼都是必要的,只有經過編碼后的字符串才能參與到后面的模型計算。 以下是在transformers庫下的編碼方式,無論是什么模型,AutoTokenizer隱藏了很多細節: query = 'hello' tokenizer
閱讀全文
posted @ 2024-08-26 01:18 wildkid1024
閱讀(853)
評論(0)
推薦(0)
2024年6月29日
[cuda][caffe]統一內存管理
摘要: 統一內存管理簡介 最近和一個朋友聊到了統一內存管理的話題,統一內存是cuda中的一個很重要的概念,通過統一內存管理,用戶可以直接使用內存,而不用在意數據在內存中位置,做到透明管理。 統—內存編程模型由CUDA6引入,從開普勒架構開始就可用,但開普勒架構和麥克斯韋架構的GPU提供的統一內存編程功能相對
閱讀全文
posted @ 2024-06-29 12:52 wildkid1024
閱讀(349)
評論(0)
推薦(0)
[LLM] LLM后量化(PTQ)總結及原理實現
摘要: LLM后量化(PTQ)總結及原理實現 weight only per_channel:按照每個channel的方式,計算得到scale和zero參數,通過weight = weight * scale + zero的方式進行還原。 per_channel_group_wise:按照每個channel
閱讀全文
posted @ 2024-06-29 12:50 wildkid1024
閱讀(1059)
評論(0)
推薦(0)
[TRT-LLM] TRT-LLM部署流程
摘要: TRT-LLM部署流程 1. 編譯trt-cpp文件 cd TensorRT-LLM/cpp/build export TRT_LIB_DIR=/usr/local/tensorrt export TRT_INCLUDE_DIR=/usr/local/tensorrt/include/ cmake
閱讀全文
posted @ 2024-06-29 12:49 wildkid1024
閱讀(345)
評論(0)
推薦(0)
2023年10月30日
生產者消費者模式下實現多batch延時推理
摘要: 生產者消費者模式下實現多batch延時推理 需求分析 在實際推理過程中為了實現較高的吞吐量和較高的資源利用率,往往會使用多線程來收集多次請求,并組合形成多batch下的模型推理,一種常見的實現便是生產者和消費者模式,其需求如下: 生產者收集提交的請求,消費者對請求進行消費,并將結果返回。 資源是有限
閱讀全文
posted @ 2023-10-30 17:57 wildkid1024
閱讀(140)
評論(0)
推薦(0)
2023年10月11日
LLM采樣后處理總結:LLM的后處理的cpp實現
摘要: LLM采樣后處理總結:LLM的后處理的cpp實現 在經過LLM的lm_head之后,會得到[batch, vocab_size]大小的矩陣向量,此時需要對輸出的邏輯張量進行采樣,除了beam_search的貪心策略,還有repetition_penalty、temperature、top_k、top
閱讀全文
posted @ 2023-10-11 18:09 wildkid1024
閱讀(588)
評論(0)
推薦(0)
2023年10月9日
ControlNet-trt優化總結4:onnx圖修改與重建
摘要: ControlNet-trt優化總結4:onnx圖修改與重建 在這一節中,主要總結網絡層面的優化,針對于算子插件優化,主要聚焦于以下幾點: 修改onnx圖,添加不支持的算子插件 增加前后處理部分,前后處理導出為onnx圖 onnx圖surgeon 原有的graph中存在大量的GN操作,正常fp32的
閱讀全文
posted @ 2023-10-09 14:19 wildkid1024
閱讀(586)
評論(0)
推薦(0)
2023年10月8日
ControlNet-trt優化總結3:使用multi-stream和cuda-graph構建并行流水線
摘要: ControlNet-trt優化總結3:使用multi-stream和cuda-graph構建并行流水線 上節談到使用TRT-API來構建網絡,在這一節中總結一些trick來提升模型的運行效率,這些trick在所有的trt優化中均可使用,主要有以下幾點: 使用cuda_graph減少kernel間的
閱讀全文
posted @ 2023-10-08 16:16 wildkid1024
閱讀(1548)
評論(0)
推薦(0)
2023年10月7日
ControlNet-trt優化總結2:使用TRT-API從零構建ControlNet網絡
摘要: ControlNet-trt優化總結2:使用TRT-API從零構建ControlNet網絡 在上節講到,可以通過手動搭建trt網絡的方式來重新構造controlnet網絡,這樣可以避免onnx中間轉換過程中的精度損失,也可避免onnx中間轉化時的算子被拆解的細碎的情況,對于不支持的算子,也可通過添加
閱讀全文
posted @ 2023-10-07 17:30 wildkid1024
閱讀(464)
評論(0)
推薦(0)
2023年9月19日
[vllm]kernels分析
摘要: vllm kernels分析 接著上一節的架構分析,vllm的csrc目錄下有一些手動實現的核函數,在上一節沒有具體分析,這節詳細來看看。 文件結構 csrc/activation_kernels:對應的silu和gelu激活函數 csrc/attention: 存放的是sq_kv_attentio
閱讀全文
posted @ 2023-09-19 11:27 wildkid1024
閱讀(666)
評論(0)
推薦(0)
下一頁
公告
博客園
© 2004-2025
浙公網安備 33010602011771號
浙ICP備2021040463號-3
主站蜘蛛池模板:
熟妇人妻任你躁在线视频
|
亚洲欧美在线一区中文字幕
|
亚洲色大成网站www永久男同
|
4虎四虎永久在线精品免费
|
日本www一道久久久免费
|
精品国产成人网站一区在线
|
精品人妻中文无码av在线
|
日韩精品一区二区都可以
|
我国产码在线观看av哈哈哈网站
|
少妇人妻偷人偷人精品
|
少妇人妻偷人精品免费
|
白嫩少妇激情无码
|
亚洲精品乱码久久久久久蜜桃图片
|
久久精品国产一区二区三
|
91麻豆精品国产91久
|
亚洲一区二区约美女探花
|
亚洲熟妇色xxxxx欧美老妇
|
亚洲欧洲美洲无码精品va
|
日韩一区二区在线看精品
|
高清自拍亚洲精品二区
|
久久综合亚洲鲁鲁九月天
|
国内精品自产拍在线播放
|
亚洲精品欧美综合二区
|
国产玖玖视频
|
成人性生交大片免费看r链接
|
国产精品一品二区三四区
|
国内少妇偷人精品免费
|
亚洲综合无码明星蕉在线视频
|
91一区二区三区蜜桃臀
|
黑人巨大精品oideo
|
国产AV影片麻豆精品传媒
|
av无码精品一区二区三区四区
|
成人精品日韩专区在线观看
|
福利一区二区在线观看
|
国语精品自产拍在线观看网站
|
色悠悠国产精品免费在线
|
亚洲AV无码久久精品日韩
|
98精品全国免费观看视频
|
桃园县
|
久热这里只有精品12
|
国产在线98福利播放视频
|