久久亚洲精品11p,亚洲国产成人资源在线,亚洲国产午夜精品福利

微信視頻號：sph0RgSyDYV47z6

快手號：4874645212

抖音號：dy0so323fq2w

小紅書號：95619019828

B站1：UID:3546863642871878

B站2：UID: 3546955410049087

摘要本文系統闡述使用TileLang實現和優化通用矩陣向量乘法（GEMV）的完整流程。GEMV作為通用矩陣乘法（GEMM）的特例，在深度學習特別是大語言模型推理階段具有關鍵作用。通過從基礎實現到高級優化的逐步分析，本文詳細探討線程級并行策略、向量化內存訪問、規約操作優化等關鍵技術，并對比TileLang與Triton、CUDA等實現方式的性能差異。通過自動調優技術，最終實現超越cuBLAS性能的GEMV核函數。目錄1. GEMV概述與重要性? 1.1 GEMV在深度學習中的應用? 1.2 性能優化挑戰2. Triton基礎實現? 2.1 Triton編程模型分析? 2.2 簡單GEMV核函數實現3. TileLang基礎實現? 3.1 從GEMM到GEMV的轉換? 3.2 基礎GEMV核函數設計? 3.3 生成代碼分析4. 并發度優化策略? 4.1 K維度并行化? 4.2 原子操作應用5. K維度并行化定制? 5.1 線程級細粒度并行? 5.2 計算負載均衡6. 向量化內存訪問優化? 6.1 內存帶寬瓶頸分析? 6.2 向量化加載實現7. 高效規約操作? 7.1 原子操作局限性? 7.2 TVM線程規約優化8. 自動調優技術? 8.1 超參數搜索空間? 8.2 自動調優框架9. 性能對比與總結? 9.1 各版本性能對比? 9.2 優化效果分析1. GEMV概述與重要性1.1 GEMV在深度學習中的應用通用矩陣向量乘法（GEMV）是線性代數中的基礎運算，形式為y = A × x，其中A為矩陣，x為向量，y為結果向量。在深度學習領域，GEMV在大型語言模型的前向推理過程中扮演關鍵角色，特別是自注意力機制中的投影操作和全連接層計算。與GEMM相比，GEMV具有更低的計算強度和更高的內存訪問密度，這使得內存帶寬成為主要性能瓶頸。1.2 性能優化挑戰GEMV的性能優化面臨多重挑戰。計算強度低導致算術單元利用率不足，每個浮點操作需要更多的內存訪問。內存訪問模式不規則使得緩存效率降低，特別是對于大型矩陣的訪問。并行度有限相對于GEMM，GEMV的并行維度減少，需要更精細的線程級優化。這些特性使得GEMV成為測試編程模型表達能力和編譯器優化效果的良好基準。2. Triton基礎實現2.1 Triton編程模型分析Triton是基于Python的GPU編程語言，提供高級抽象來簡化核函數開發。其編程模型圍繞塊級操作設計，自動處理線程管理和內存訪問優化。Triton的constexpr參數允許編譯時常量優化，而內置函數如tl.arange和tl.sum簡化了并行計算模式表達。2.2 簡單GEMV核函數實現以下Triton實現展示了基礎的GEMV核函數：@triton.jit

def _gemv_naive(

x_ptr, A_ptr, y_ptr,

N, K,

BLOCK_SIZE_K: tl.constexpr,

):

n = tl.program_id(0)

offs_k = tl.arange(0, BLOCK_SIZE_K)

mask = offs_k < K

a_ptrs = A_ptr + n * K + offs_k

a_vals = tl.load(a_ptrs, mask=mask, other=0.0)

x_vals = tl.load(x_ptr + offs_k, mask=mask, other=0.0)

dot = tl.sum(a_vals * x_vals, axis=0)

tl.store(y_ptr + n, dot)該實現采用行主序處理策略，每個Triton程序實例負責輸出向量中的一個元素。tl.program_id(0)獲取當前程序實例在N維度上的位置，tl.arange生成K維度的索引序列。通過掩碼加載處理邊界條件，tl.sum實現向量點積的歸約計算。這種實現簡潔明了，但可能無法充分利用硬件特性，缺乏細粒度線程控制。3. TileLang基礎實現3.1 從GEMM到GEMV的轉換將GEMV視為(1, k)與(k, n)的GEMM運算，可以借鑒GEMM的分塊策略。這種視角允許重用GEMM優化中的內存分層和數據局部性技術，但需要針對GEMV特性進行調整。3.2 基礎GEMV核函數設計以下代碼展示TileLang中的基礎GEMV實現：def naive_gemv(

N: int,

K: int,

BLOCK_N: int,

BLOCK_K: int,

dtype: str = "float16",

accum_dtype: str = "float",

):

@T.prim_func

def main(

A: T.Buffer((K,), dtype),

B: T.Buffer((N, K), dtype),

C: T.Buffer((N,), dtype),

):

with T.Kernel(T.ceildiv(N, BLOCK_N)) as bn:

tn = T.get_thread_binding(0) # tn = threadIdx.x

A_shared = T.alloc_shared((BLOCK_K,), dtype)

B_shared = T.alloc_shared((BLOCK_N, BLOCK_K), dtype)

C_reg = T.alloc_local((1,), accum_dtype)

T.clear(C_reg)

for bk in T.serial(T.ceildiv(K, BLOCK_K)):

for tk in T.serial(BLOCK_K):

A_shared[tk] = A[bk * BLOCK_K + tk]

B_shared[tn, tk] = B[bn * BLOCK_N + tn, bk * BLOCK_K + tk]

for tk in T.serial(BLOCK_K):

C_reg[0] += A_shared[tk].astype(accum_dtype) * B_shared[tn,

tk].astype(accum_dtype)

C[bn * BLOCK_N + tn] = C_reg[0]

return main該實現采用雙緩沖策略，使用共享內存緩存輸入數據。T.alloc_shared在共享內存中分配A向量和B矩陣的塊，T.alloc_local在寄存器中分配累加器。外層循環沿K維度分塊，內層循環執行實際的乘加運算。這種設計減少了全局內存訪問，但線程利用率有限，僅沿N維度并行。3.3 生成代碼分析編譯上述TileLang代碼生成的CUDA核函數展示了復雜的內存管理和同步邏輯：extern "C" __global__ void __launch_bounds__(256, 1) main_kernel(half_t* __restrict__ A, half_t* __restrict__ B, half_t* __restrict__ C) {

extern __shared__ __align__(1024) uchar buf_dyn_shmem[];

float C_reg[1];

__shared__ uint64_t _mbarrier[2];

if (((int)threadIdx.x) == 0) {

tl::mbarrier_init(_mbarrier[0], 128);

tl::mbarrier_init(_mbarrier[1], 128);

}

__syncthreads();

if (128 <= ((int)threadIdx.x)) {

tl::warpgroup_reg_dealloc<24>();

for (int bk = 0; bk < 8; ++bk) {

tl::mbarrier_wait(_mbarrier[1], ((bk & 1) ^ 1));

for (int tk = 0; tk < 128; ++tk) {

((half_t*)buf_dyn_shmem)[tk] = A[((bk * 128) + tk)];

((half_t*)buf_dyn_shmem)[(((((int)threadIdx.x) * 128) + tk) - 16256)] = B[(((((((int)blockIdx.x) * 131072) + (((int)threadIdx.x) * 1024)) + (bk * 128)) + tk) - 131072)];

}

tl::fence_proxy_async();

tl::mbarrier_cp_async_arrive(_mbarrier[0]);

tl::mbarrier_arrive(_mbarrier[0]);

}

} else {

tl::warpgroup_reg_alloc<240>();

C_reg[0] = 0.000000e+00f;

for (int bk_1 = 0; bk_1 < 8; ++bk_1) {

tl::mbarrier_wait(_mbarrier[0], (bk_1 & 1));

for (int tk_1 = 0; tk_1 < 128; ++tk_1) {

C_reg[0] = (C_reg[0] + (((float)((half_t*)buf_dyn_shmem)[tk_1]) * ((float)((half_t*)buf_dyn_shmem)[(((((int)threadIdx.x) * 128) + tk_1) + 128)])));

}

tl::fence_proxy_async();

tl::mbarrier_arrive(_mbarrier[1]);

}

C[((((int)blockIdx.x) * 128) + ((int)threadIdx.x))] = ((half_t)C_reg[0]);

}

}生成代碼實現了生產者-消費者模式，前128個線程作為數據生產者，后128個線程作為計算消費者。通過內存屏障實現精確同步，異步拷貝操作隱藏內存延遲。然而，這種設計的計算吞吐量有限，實測延遲約0.17ms，比torch/cuBLAS的0.008ms慢約20倍。4. 并發度優化策略4.1 K維度并行化基礎實現僅沿N維度并行，未能充分利用K維度的并行性。通過沿K維度引入并行化，每個線程計算部分累加結果，再通過規約組合，可以提高線程利用率和計算并發度。4.2 原子操作應用以下實現展示如何使用原子操作進行K維度并行化：def naive_splitk_gemv(

N: int,

K: int,

BLOCK_N: int,

BLOCK_K: int,

dtype: str = "float16",

accum_dtype: str = "float",

):

@T.prim_func

def main(

A: T.Buffer((K,), dtype),

B: T.Buffer((N, K), dtype),

C: T.Buffer((N,), dtype),

):

with T.Kernel(T.ceildiv(N, BLOCK_N), threads=(BLOCK_N, BLOCK_K)) as bn:

tn = T.get_thread_binding(0)

tk = T.get_thread_binding(1)

A_local = T.alloc_local((1,), dtype)

B_local = T.alloc_local((1,), dtype)

C_accum = T.alloc_local((1,), accum_dtype)

C_shared = T.alloc_shared((BLOCK_N,), accum_dtype)

if tk == 0:

C_shared[tn] = 0

T.clear(C_accum)

for bk in T.serial(T.ceildiv(K, BLOCK_K)):

A_local[0] = A[bk * BLOCK_K + tk]

B_local[0] = B[bn * BLOCK_N + tn, bk * BLOCK_K + tk]

C_accum[0] += A_local[0].astype(accum_dtype) * B_local[0].astype(accum_dtype)

T.atomic_add(C_shared[tn], C_accum[0])

C[bn * BLOCK_N + tn] = C_shared[tn]

return main該實現創建了二維線程網格，同時沿N和K維度并行。每個線程處理一個(A, B)元素對，計算部分積并累加到線程局部變量。通過T.atomic_add將部分結果原子添加到共享內存，最終寫回全局內存。這種方法將延遲降低到約0.024ms，但仍未達到cuBLAS性能水平。5. K維度并行化定制5.1 線程級細粒度并行當K維度較大時，可以進一步定制并行策略，通過reduce_threads參數控制每個線程處理的元素數量，實現計算負載均衡。5.2 計算負載均衡以下實現展示如何通過細粒度并行優化K維度處理：def splitk_gemv(

N: int,

K: int,

BLOCK_N: int,

BLOCK_K: int,

reduce_threads: int,

dtype: str = "float16",

accum_dtype: str = "float",

):

TILE_K = T.ceildiv(BLOCK_K, reduce_threads)

@T.prim_func

def main(

A: T.Buffer((K,), dtype),

B: T.Buffer((N, K), dtype),

C: T.Buffer((N,), dtype),

):

with T.Kernel(T.ceildiv(N, BLOCK_N), threads=(BLOCK_N, reduce_threads)) as bn:

tn = T.get_thread_binding(0)

tk = T.get_thread_binding(1)

A_local = T.alloc_local((TILE_K,), dtype)

B_local = T.alloc_local((TILE_K,), dtype)

C_shared = T.alloc_shared((BLOCK_N,), accum_dtype)

C_accum = T.alloc_local((1,), accum_dtype)

if tk == 0:

C_shared[tn] = 0

T.clear(C_accum)

for bk in T.serial(T.ceildiv(K, BLOCK_K)):

for k in T.serial(TILE_K):

A_local[k] = A[bk * BLOCK_K + tk * TILE_K + k]

B_local[k] = B[bn * BLOCK_N + tn, bk * BLOCK_K + tk * TILE_K + k]

for k in T.serial(TILE_K):

C_accum[0] += A_local[k].astype(accum_dtype) * B_local[k].astype(accum_dtype)

T.atomic_add(C_shared[tn], C_accum[0])

C[bn * BLOCK_N + tn] = C_shared[tn]

return main該實現引入多元素處理策略，每個線程處理TILE_K個連續元素。通過調整reduce_threads參數，可以平衡線程級并行度和每個線程的計算負載。內層循環展開和寄存器重用減少了循環開銷，提高了指令級并行度。這種設計在保持并行度的同時，增加了每個線程的計算強度，更好地利用了GPU的計算資源。6. 向量化內存訪問優化6.1 內存帶寬瓶頸分析GEMV的計算強度較低，內存吞吐量成為主要性能瓶頸。現代GPU支持寬內存事務，通過向量化加載存儲操作可以顯著提高內存帶寬利用率。6.2 向量化加載實現以下實現展示如何使用TileLang的向量化操作優化內存訪問：def splitk_gemv_vectorized(

N: int,

K: int,

BLOCK_N: int,

reduce_threads: int,

dtype: str = "float16",

accum_dtype: str = "float",

):

MAX_TRANSACTION_SIZE_IN_BITS = 128

TILE_K = MAX_TRANSACTION_SIZE_IN_BITS // DataType(dtype).bits

BLOCK_K = reduce_threads * TILE_K

@T.prim_func

def main(

A: T.Buffer((K,), dtype),

B: T.Buffer((N, K), dtype),

C: T.Buffer((N,), dtype),

):

with T.Kernel(T.ceildiv(N, BLOCK_N), threads=(BLOCK_N, reduce_threads)) as bn:

tn = T.get_thread_binding(0)

tk = T.get_thread_binding(1)

A_local = T.alloc_local((TILE_K,), dtype)

B_local = T.alloc_local((TILE_K,), dtype)

C_shared = T.alloc_shared((BLOCK_N,), accum_dtype)

C_accum = T.alloc_local((1,), accum_dtype)

if tk == 0:

C_shared[tn] = 0

T.clear(C_accum)

for bk in T.serial(T.ceildiv(K, BLOCK_K)):

for k in T.vectorized(TILE_K):

A_local[k] = A[bk * BLOCK_K + tk * TILE_K + k]

B_local[k] = B[bn * BLOCK_N + tn, bk * BLOCK_K + tk * TILE_K + k]

for k in T.serial(TILE_K):

C_accum[0] += A_local[k].astype(accum_dtype) * B_local[k].astype(accum_dtype)

T.atomic_add(C_shared[tn], C_accum[0])

C[bn * BLOCK_N + tn] = C_shared[tn]

return main該實現的關鍵優化是使用**T.vectorized內存操作**。TILE_K根據數據類型和最大事務大小自動計算，確保每次內存訪問達到128位寬度。對于float16類型，這意味著每次加載8個元素。向量化加載減少了內存事務數量，提高了內存子系統效率。優化后延遲降至約0.0084ms，接近cuBLAS性能。7. 高效規約操作7.1 原子操作局限性原子操作雖然簡化了并行規約實現，但在多線程競爭激烈時性能下降。共享內存原子操作需要序列化訪問，限制了并行效率。7.2 TVM線程規約優化以下實現展示如何使用TVM的高效線程規約替代原子操作：def splitk_gemv_vectorized_tvm(

N: int,

K: int,

BLOCK_N: int,

reduce_threads: int,

dtype: str = "float16",

accum_dtype: str = "float",

):

MAX_TRANSACTION_SIZE_IN_BITS = 128

TILE_K = MAX_TRANSACTION_SIZE_IN_BITS // DataType(dtype).bits

BLOCK_K = reduce_threads * TILE_K

@T.prim_func

def main(

A: T.Buffer((K,), dtype),

B: T.Buffer((N, K), dtype),

C: T.Buffer((N,), dtype),

):

with T.Kernel(T.ceildiv(N, BLOCK_N), threads=(BLOCK_N, reduce_threads)) as bn:

tn = T.get_thread_binding(0)

tk = T.get_thread_binding(1)

A_local = T.alloc_local((TILE_K,), dtype)

B_local = T.alloc_local((TILE_K,), dtype)

C_accum = T.alloc_local((1,), accum_dtype)

T.clear(C_accum)

for bk in T.serial(T.ceildiv(K, BLOCK_K)):

for k in T.vectorized(TILE_K):

A_local[k] = A[bk * BLOCK_K + tk * TILE_K + k]

B_local[k] = B[bn * BLOCK_N + tn, bk * BLOCK_K + tk * TILE_K + k]

for k in T.serial(TILE_K):

C_accum[0] += A_local[k].astype(accum_dtype) * B_local[k].astype(accum_dtype)

C_reduced = T.alloc_local((1,), accum_dtype)

with T.attr(

T.comm_reducer(lambda x, y: x + y, [T.Cast(accum_dtype, 0)]),

"reduce_scope",

T.reinterpret(T.uint64(0), dtype="handle"),

):

T.evaluate(

T.tvm_thread_allreduce(

T.uint32(1),

C_accum[0],

True,

C_reduced[0],

tk,

dtype="handle",

))

C[bn * BLOCK_N + tn] = C_reduced[0]

return main該實現使用**T.tvm_thread_allreduce**進行高效線程間規約。TVM的線程規約實現了樹形規約算法，時間復雜度為O(log n)，比原子操作的線性復雜度更優。規約器通過T.comm_reducer定義，支持任意交換結合操作。此優化將延遲從0.0084ms進一步降低到0.0069ms，超越了cuBLAS性能。8. 自動調優技術8.1 超參數搜索空間GEMV性能對BLOCK_N、BLOCK_K和reduce_threads等參數敏感。這些參數共同決定了線程組織、內存訪問模式和計算負載分布。8.2 自動調優框架以下代碼展示如何使用TileLang的自動調優功能尋找最優配置：def get_best_config(N, K):

def get_configs():

BLOCK_N = [2, 4, 8, 32, 64, 128]

reduce_threads = [4, 8, 32]

_configs = list(itertools.product(

BLOCK_N,

reduce_threads,

))

configs = [{

"BLOCK_N": c[0],

"reduce_threads": c[1],

} for c in _configs]

return configs

@autotune(

configs=get_configs(),

warmup=3,

rep=20,

)

@jit(

out_idx=[-1],

supply_type=tl.TensorSupplyType.Integer,

ref_prog=ref_program,

skip_check=False,

target="auto",

)

def kernel(

BLOCK_N=None,

reduce_threads=None,

):

dtype = "float16"

accum_dtype = "float"

MAX_TRANSACTION_SIZE_IN_BITS = 128

TILE_K = MAX_TRANSACTION_SIZE_IN_BITS // DataType(dtype).bits

BLOCK_K = reduce_threads * TILE_K

@T.prim_func

def main(

A: T.Buffer((K,), dtype),

B: T.Buffer((N, K), dtype),

C: T.Buffer((N,), dtype),

):

with T.Kernel(T.ceildiv(N, BLOCK_N), threads=(BLOCK_N, reduce_threads)) as bn:

tn = T.get_thread_binding(0)

tk = T.get_thread_binding(1)

A_local = T.alloc_local((TILE_K,), dtype)

B_local = T.alloc_local((TILE_K,), dtype)

C_accum = T.alloc_local((1,), accum_dtype)

T.clear(C_accum)

for bk in T.serial(T.ceildiv(K, BLOCK_K)):

for k in T.vectorized(TILE_K):

A_local[k] = A[bk * BLOCK_K + tk * TILE_K + k]

B_local[k] = B[bn * BLOCK_N + tn, bk * BLOCK_K + tk * TILE_K + k]

for k in T.serial(TILE_K):

C_accum[0] += A_local[k].astype(accum_dtype) * B_local[k].astype(accum_dtype)

C_reduced = T.alloc_local((1,), accum_dtype)

with T.attr(

T.comm_reducer(lambda x, y: x + y, [T.Cast(accum_dtype, 0)]),

"reduce_scope",

T.reinterpret(T.uint64(0), dtype="handle"),

):

T.evaluate(

T.tvm_thread_allreduce(

T.uint32(1),

C_accum[0],

True,

C_reduced[0],

tk,

dtype="handle",

))

C[bn * BLOCK_N + tn] = C_reduced[0]

return main

return kernel()自動調優框架通過系統化參數搜索尋找最優配置。@autotune裝飾器指定配置空間、預熱次數和測量次數，@jit裝飾器控制編譯選項。框架自動評估每個配置的性能，選擇最優參數組合。調優后延遲進一步降低到約0.0067ms。自動調優生成的最終CUDA核函數體現了多項優化：extern "C" __global__ void __launch_bounds__(64, 1) main_kernel(half_t* __restrict__ A, half_t* __restrict__ B, half_t* __restrict__ C) {

float C_accum[1];

half_t A_local[8];

half_t B_local[8];

__shared__ float red_buf0[64];

C_accum[0] = 0.000000e+00f;

for (int bk = 0; bk < 4; ++bk) {

*(uint4*)(A_local + 0) = *(uint4*)(A + ((bk * 256) + (((int)threadIdx.y) * 8)));

*(uint4*)(B_local + 0) = *(uint4*)(B + ((((((int)blockIdx.x) * 2048) + (((int)threadIdx.x) * 1024)) + (bk * 256)) + (((int)threadIdx.y) * 8)));

for (int k = 0; k < 8; ++k) {

C_accum[0] = (C_accum[0] + (((float)A_local[k]) * ((float)B_local[k])));

}

tl::fence_proxy_async();

__syncthreads();

red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] = C_accum[0];

__syncthreads();

if (((int)threadIdx.y) < 16) {

red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] = (red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] + red_buf0[(((((int)threadIdx.x) * 32) + ((int)threadIdx.y)) + 16)]);

}

__syncthreads();

if (((int)threadIdx.y) < 8) {

red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] = (red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] + red_buf0[(((((int)threadIdx.x) * 32) + ((int)threadIdx.y)) + 8)]);

}

__syncthreads();

if (((int)threadIdx.y) < 4) {

red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] = (red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] + red_buf0[(((((int)threadIdx.x) * 32) + ((int)threadIdx.y)) + 4)]);

}

__syncthreads();

if (((int)threadIdx.y) < 2) {

red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] = (red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] + red_buf0[(((((int)threadIdx.x) * 32) + ((int)threadIdx.y)) + 2)]);

}

__syncthreads();

if (((int)threadIdx.y) < 1) {

red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] = (red_buf0[((((int)threadIdx.x) * 32) + ((int)threadIdx.y))] + red_buf0[(((((int)threadIdx.x) * 32) + ((int)threadIdx.y)) + 1)]);

}

__syncthreads();

C[((((int)blockIdx.x) * 2) + ((int)threadIdx.x))] = ((half_t)red_buf0[(((int)threadIdx.x) * 32)]);

}生成代碼實現了顯式樹形規約，通過多輪二分規約將部分結果合并。向量化加載使用uint4類型實現128位內存事務，計算循環完全展開消除分支開銷。線程束內同步確保規約正確性，最終結果寫回全局內存。9. 性能對比與總結9.1 各版本性能對比在Hopper GPU上的性能測試結果如下：核函數名稱延遲(ms)相對cuBLAS加速比torch/cuBLAS0.007841.00xTriton0.007731.01xnaive_gemv0.166070.05xsplitk_gemv0.024190.32xsplitk_gemv_vectorized0.008090.97xsplitk_gemv_vectorized_tvm0.006751.16x自動調優版本0.006671.18x9.2 優化效果分析通過逐步優化，TileLang實現的GEMV核函數性能最終超越cuBLAS約18%。關鍵優化技術包括：K維度并行化提高線程利用率、向量化內存訪問優化帶寬利用率、高效樹形規約減少同步開銷、自動調優找到最優參數組合。TileLang通過暴露底層控制抽象，如線程級編程和CUDA原語，使開發者能夠實現高度優化的核函數。同時，其高級編程模型簡化了優化表達，編譯器自動處理底層細節，平衡了性能和控制復雜度。

微信視頻號：sph0RgSyDYV47z6

快手號：4874645212

抖音號：dy0so323fq2w

小紅書號：95619019828

B站1：UID:3546863642871878

B站2：UID: 3546955410049087

參考文獻鏈接

通用矩陣向量乘法（GEMV）優化實現與性能分析

吳建明

微信視頻號：sph0RgSyDYV47z6 快手號：4874645212 抖音號：dy0so323fq2w 小紅書號：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

通用矩陣向量乘法（GEMV）優化實現與性能分析

公告