亚洲天堂av日韩精品,欧美熟妇乱子伦XX视频,成人无码午夜在线观看

2025年9月16日

摘要： 1. TensorCore 簡介：硬件層面支持半精度浮點矩陣乘法，與昇騰NPU的 cube 核類似，最小只能計算規(guī)定尺寸的矩陣乘法。 wmma API 封裝在 nvcuda 命名空間 2. naive : 一個block 1 個warp，wmmaTile 16*16 點擊查看代碼 //naive 閱讀全文

posted @ 2025-09-16 17:21 安洛8 閱讀(18) 評論(0) 推薦(0)

2025年8月27日

高性能計算-cublas-gemm接口解析

摘要： 1. 介紹參考文章：http://www.rzrgm.cn/cuancuancuanhao/p/7763256.html ，本文對 cublas gemm 的接口參數(shù)進行原理解釋。 2. 接口 cuBLAS中用于運算矩陣乘法的函數(shù)有4個，分別是 cublasSgemm（單精度實數(shù)）、cub 閱讀全文

posted @ 2025-08-27 16:17 安洛8 閱讀(64) 評論(0) 推薦(0)

2025年8月18日

高性能計算-CUDA性能優(yōu)化-transpose

摘要： 1.介紹對 2048 * 512 矩陣轉置，使用NCU進行性能分析，并進行性能優(yōu)化。測試環(huán)境 CUDA 12.8,顯卡 5070。 2. Native: 二維 Block 二維block,一個線程處理一個元素點擊查看代碼 //native：二維block,一個線程處理一個元素 //矩陣 M * 閱讀全文

posted @ 2025-08-18 18:08 安洛8 閱讀(52) 評論(0) 推薦(0)

2025年8月8日

高性能計算-CUDA 性能優(yōu)化之線程束調度

摘要： 1. 背景最開始在學習 cuda 編程時，只知道 warp scheduler 線程束調度的概念，但是不清楚調度的細節(jié)。現(xiàn)在查看 CUDA Pragramming Guide 性能優(yōu)化篇看到了關于 warp 調度更清晰的細節(jié)。 2. 概念延時：一個線程束準備好執(zhí)行下一條指令的時鐘周期，受數(shù)據(jù)依賴閱讀全文

posted @ 2025-08-08 17:46 安洛8 閱讀(45) 評論(0) 推薦(0)

2025年7月11日

模型算法-MHA-MQA-GQA(1)

摘要： 1. 介紹：基于最近對大模型 KV_cache，及 Attention 變種學習中遇到的問題和理解記錄下來，幫助大家解決一點疑惑。 2. kv_cache 顯存對比：參數(shù)說明 batch_size：B seq_len：L head_num：H head_dim：D layer_num：N gro 閱讀全文

posted @ 2025-07-11 16:33 安洛8 閱讀(35) 評論(0) 推薦(0)

2025年5月27日

算子開發(fā)-昇騰CANN訓練營-Ascend C-Mmad 算子遷移

摘要： 1. 項目介紹源項目倉：https://gitee.com/ascend/samples/tree/master/operator/ascendc/0_introduction/20_mmad_kernellaunch 目標項目倉：https://gitee.com/ascend/cann-ops 閱讀全文

posted @ 2025-05-27 10:16 安洛8 閱讀(184) 評論(0) 推薦(0)

2025年5月2日

高性能計算-SGEMV矩陣向量乘(30)

摘要： 1. 介紹矩陣向量乘法: A * X = Y, A(M,K) X(K,1) Y(M,1); 實現(xiàn)多種并行算法及優(yōu)化方法和 cublas 庫 sgemv 的效率對比。 2. gpu 并行算法介紹并行算法一：一個線程計算一個結果元素；并行算法二：使用合并訪存,需要將輸入數(shù)據(jù)轉置；并行算法三: 合閱讀全文

posted @ 2025-05-02 22:03 安洛8 閱讀(66) 評論(0) 推薦(0)

2025年4月30日

高性能計算-SGEMM矩陣乘法(29)

摘要： 1. 介紹矩陣A（MK） B（KN）單精度浮點數(shù)進行矩陣乘法；分別實現(xiàn)CPU串行，GPU多種并行計算算法，與 cublas 庫 sgemm 函數(shù)效率對比。 2. gpu 并行算法簡介并行算法一：二維block,一個線程程計算一個C元素,缺點:訪存次數(shù)過多并行算法二: 優(yōu)化一: 使用線程塊 t 閱讀全文

posted @ 2025-04-30 17:00 安洛8 閱讀(128) 評論(0) 推薦(0)

2025年4月1日

高性能計算-GPU并行掃描(28)

摘要： 1. 掃描概念對數(shù)組arr[N]掃描就是得到數(shù)組prefix[N]，每個元素是之前arr元素的求和. 開掃描定義:prefix1[N] = { arr[0], arr[0]+arr[1], ..., arr[0]+arr[1]+arr[N-1] } 閉掃描定義: prefix2[N] = { 0, 閱讀全文

posted @ 2025-04-01 18:53 安洛8 閱讀(154) 評論(0) 推薦(0)

2025年3月16日

高性能計算-GPU并行規(guī)約(27)

摘要： 1. 目標：對數(shù)組進行求和，并做優(yōu)化對比 2. baseline 代碼相鄰求和: 根據(jù)blockSize對數(shù)據(jù)分塊,并將數(shù)據(jù)放在共享內存,以線程塊為單位,塊內線程數(shù)量=數(shù)據(jù)個數(shù),相鄰配對,用其中第一個元素索引為ID的線程進行計算,計算結果放在第一個元素位置,循環(huán)進行下一輪計算,最后塊求和計算結果賦閱讀全文

posted @ 2025-03-16 23:11 安洛8 閱讀(63) 評論(0) 推薦(0)

2025年3月12日

高性能計算-探究GPU指令延遲隱藏(26)

摘要： 1. 延遲隱藏作用：可以最大化SM的使用效率，提高計算性能 2. 延遲隱藏概念（1）指令延遲是指令發(fā)出到完成之間的時鐘周期間隔；（2）指令可以分為兩種：算數(shù)指令和訪存指令。 3. 算數(shù)指令延遲隱藏實現(xiàn) （1）假如一個算數(shù)指令的指令延遲是 4 個時鐘周期（2）查詢cuda文檔得到如下計算能力的設閱讀全文

posted @ 2025-03-12 23:24 安洛8 閱讀(231) 評論(0) 推薦(0)

2025年2月19日

高性能計算-GPU單進程多卡(多流)并行計算編程模型示例(25)

摘要： 1. 簡介 (1) 使用CPU對向量點乘進行串行計算 (2) 對數(shù)據(jù)進行分塊,使用單進程多卡(多流)并行計算 (3) 使用不同數(shù)據(jù)規(guī)模,比較加速比的變化 2. 代碼 #include <stdio.h> #include <sys/time.h> #include <stdlib.h> #defin 閱讀全文

posted @ 2025-02-19 16:56 安洛8 閱讀(136) 評論(0) 推薦(0)

2025年1月7日

高性能計算-CUDA單流/多流調度(24)

摘要： 1. 介紹： (1) 用CUDA計算 pow(sin(id),2)+ pow(cos(id),2)的結果 (2) 對比單流(同步傳輸、異步傳輸)、多流深度優(yōu)先調度、多流廣度優(yōu)先調度的效率(包含數(shù)據(jù)傳輸和計算) 核心代碼 1. 用CUDA計算 pow(sin(id),2)+ pow(cos(id),2 閱讀全文

posted @ 2025-01-07 11:48 安洛8 閱讀(171) 評論(0) 推薦(0)

2025年1月4日

高性能計算-CUDA矩陣加法及優(yōu)化測試(23)

摘要： 1. 目標：對 16384*16384 規(guī)模的矩陣進行加法運算，對比 CPU 和 GPU 計算的效率，還有不同線程塊大小規(guī)模下對效率的影響；并做可能的優(yōu)化測試。 2. 核心代碼 /* 用GPU對二維矩陣做加法，分析不同線程塊規(guī)模下的性能變化 */ #include <stdio.h> #includ 閱讀全文

posted @ 2025-01-04 16:21 安洛8 閱讀(177) 評論(0) 推薦(0)

2024年12月31日

高性能計算-CUDA一維信號均值濾波及內存優(yōu)化(22)

摘要： 1. 目標：使用CPU和GPU對一千萬數(shù)量級的一維信號進行均值濾波，并且根據(jù)GPU存儲模型對數(shù)據(jù)存儲進行優(yōu)化，最終對比計算結果并計算加速比。 2. 代碼 /* cuda實現(xiàn)對一維信號卷積平滑濾波處理，并于串行計算對比結果和加速比,卷積核大小為5 */ #include <stdio.h> #incl 閱讀全文

posted @ 2024-12-31 18:48 安洛8 閱讀(140) 評論(0) 推薦(0)

2024年12月29日

高性能計算-GPU編程模型(21)

摘要： 1. GPU的內存模型 GPU編程數(shù)據(jù)需要從CPU主存拷貝到GPU全局存儲器，所有線程共享全局存儲。開辟的全局存儲器空間指針在CPU代碼中不能解引用使用，應在計算完結果后再拷貝回CPU主存空間。線程塊內共享存儲。 (1) 線程私有的存儲有寄存器、本地內存 (2) 線程塊內有塊內線程共享的共享內存，在閱讀全文

posted @ 2024-12-29 22:21 安洛8 閱讀(68) 評論(0) 推薦(0)

2024年12月17日

高性能計算-Intel IPP庫ARM移植示例(20)

摘要： 1. 簡介 (1) Intel® Integrated Performance Primitives，即英特爾集成性能基元（簡稱IPP），為信號、數(shù)據(jù)和圖像處理特定應用領域，提供simd優(yōu)化的一組全面的函數(shù)庫。 (2) 本項目將對 exp、cos、sin、tone、Triangle函數(shù)用NEON向量閱讀全文

posted @ 2024-12-17 17:34 安洛8 閱讀(308) 評論(0) 推薦(0)

2024年12月10日

高性能計算-粒子狀態(tài)模擬計算-性能優(yōu)化(19)

摘要： 1. 源碼為對粒子移動狀態(tài)模擬的項目。要求使用多種優(yōu)化方法，對比串行優(yōu)化、多線程優(yōu)化、全部優(yōu)化下的加速比。 2. 代碼項目代碼地址：https://github.com/libo-0379/StellarSim_Optimize 以下為核心優(yōu)化代碼及分析 #include <stdlib.h> # 閱讀全文

posted @ 2024-12-10 11:20 安洛8 閱讀(60) 評論(0) 推薦(0)

2024年12月4日

高性能計算-NEON-圖像旋轉(18)

摘要： 1. 目標：使用 NEON intrinsic 函數(shù)，對512*512 png 四通道圖像順時針旋轉90度。思路: 像素分塊，對塊內轉置；再水平鏡像。圖像庫使用 stb img 2. 代碼 #include <stdio.h> #include <arm_neon.h> #include <std 閱讀全文

posted @ 2024-12-04 22:05 安洛8 閱讀(109) 評論(0) 推薦(0)

2024年12月3日

高性能計算-NEON-intrinsic函數(shù)(17)

摘要： 1. 對寄存器數(shù)據(jù)重排 /* 兩個向量，每兩個通道一組，第一個向量每組的后一個元素與第二個向量每組的第一個元素一次彼此交換 */ #include <stdio.h> #include <arm_neon.h> void main() { int arrc[8]={0}; int arrd[4]={ 閱讀全文

posted @ 2024-12-03 16:02 安洛8 閱讀(54) 評論(0) 推薦(0)

anluo8

公告