<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12
      摘要: NCCL論文閱讀 目錄NCCL論文閱讀前言概述NCCL API多GPU管理數(shù)據(jù)傳輸通信通道通信層節(jié)點(diǎn)內(nèi)通信節(jié)點(diǎn)間通信底層通信協(xié)議集合通信算法算法和協(xié)議支持通信原語迭代執(zhí)行模型執(zhí)行模型對應(yīng)GPU架構(gòu)集合通信算法分析總結(jié) 前言 NCCL作為當(dāng)下最為主流的GPU通信庫,它的很多系統(tǒng)設(shè)計(jì)被后續(xù)工作(如Dee 閱讀全文
      posted @ 2025-09-24 11:03 CQzhangyu 閱讀(215) 評論(0) 推薦(0)
      摘要: [Pytorch] Transformer Engine報錯:RuntimeError: The specified pointer resides on host memory and is not registered with any CUDA device. 問題描述 有一天,我用Megat 閱讀全文
      posted @ 2025-06-24 14:50 CQzhangyu 閱讀(177) 評論(4) 推薦(0)
      摘要: [CMake] 用CMake編譯C++程序?yàn)镻ython庫 我有一些c++代碼,想要將其編譯成Python可調(diào)用的庫,應(yīng)該怎么做呢? 這里有2種做法 一種是使用python的setuptools,參見[CUDA] 手寫一個PyTorch的算子。不過setuptools的API跟make比較像,如果你 閱讀全文
      posted @ 2025-04-18 10:28 CQzhangyu 閱讀(337) 評論(0) 推薦(0)
      摘要: [Linux] 通過反向代理讓遠(yuǎn)端服務(wù)器使用本地的代理 很多時候,我們在本地有穩(wěn)定的代理,但是在遠(yuǎn)端服務(wù)器上并沒有配置代理。這時,我們可能希望遠(yuǎn)端的服務(wù)器能夠使用我們本地的代理。為此,我們可以使用linux的反向代理。 反向代理的用法如下: ssh -R <遠(yuǎn)程端口>:<目標(biāo)地址>:<目標(biāo)端口> < 閱讀全文
      posted @ 2025-03-06 11:12 CQzhangyu 閱讀(486) 評論(0) 推薦(0)
      摘要: [MoE] Deepseek的All-to-all通信: DeepEP代碼解讀 前言 最近,Deepseek開源了一系列MoE的優(yōu)化技術(shù),讓我們看到了AI infra的強(qiáng)大之處。其中,第二天發(fā)布的DeepEP則是針對MoE中EP的all-to-all通信進(jìn)行了優(yōu)化。 我最近也在關(guān)注MoE和all-t 閱讀全文
      posted @ 2025-02-27 18:04 CQzhangyu 閱讀(10058) 評論(2) 推薦(4)
      摘要: [MoE] Tutel源碼解讀 前言 最近MoE變得火了起來。但我在和別人討論MoE時,總有一些說不清楚地方,就算讀了論文也一知半解。于是我決定還是要看一看具體的代碼,看看每個細(xì)節(jié)究竟都是怎么實(shí)現(xiàn)的。 作為實(shí)現(xiàn)參考,Tutel這篇工作就很不錯。最近的工作基本都拿Tutel作為Baseline比較,于 閱讀全文
      posted @ 2025-02-14 00:12 CQzhangyu 閱讀(582) 評論(0) 推薦(0)
      摘要: [PyTorch] DDP源碼閱讀 PyTorch的DistributedDataParallel (DDP) 允許多臺機(jī)器,多臺GPU之間的數(shù)據(jù)并行。本文簡單講解DDP的流程,并從代碼層面理解DDP如何訪問底層的通信框架。 DDP使用單機(jī)多進(jìn)程來控制多個GPU。模型需要能放入單個GPU中。 參考了 閱讀全文
      posted @ 2025-02-09 15:45 CQzhangyu 閱讀(225) 評論(0) 推薦(0)
      摘要: [CUDA] 手寫一個PyTorch的算子 (其實(shí)是本人之前上過的分布式機(jī)器學(xué)習(xí)課程的一個作業(yè),這里簡單記錄一下) 我們都知道,PyTorch里的算子是跑在GPU上的。雖然最外層的接口是python,最內(nèi)部的實(shí)現(xiàn)其實(shí)是CUDA。那么,一個python代碼是如何一步步的調(diào)用內(nèi)層的CUDA代碼的呢?這里 閱讀全文
      posted @ 2025-02-09 00:21 CQzhangyu 閱讀(528) 評論(0) 推薦(0)
      摘要: [LLM] ZeRO-DP技術(shù)簡析 本文對ZeRO: Memory Optimizations Toward Training Trillion Parameter Models中提出的ZeRO-DP進(jìn)行簡要總結(jié)。相關(guān)的講解其實(shí)網(wǎng)上也有很多了,不過只看網(wǎng)上的終究還是有點(diǎn)走馬觀花,所以我還是決定自己寫 閱讀全文
      posted @ 2025-02-07 12:42 CQzhangyu 閱讀(239) 評論(0) 推薦(0)
      摘要: [RDMA] UD模式下ibv_post_send返回ENOMEM,但sq并沒有滿 我創(chuàng)建了一個RDMA的UD qp,其max_send_wr和max_recv_wr都是32。在實(shí)際使用中,我保證最多只有16個已發(fā)送但對端未接受到的消息。然而,在我發(fā)送32個消息后,ibv_post_send報錯,返 閱讀全文
      posted @ 2024-12-28 16:33 CQzhangyu 閱讀(100) 評論(0) 推薦(0)
      摘要: [RDMA] RDMA的不同操作是否保證順序? 結(jié)論:不保證。 例子: 對同一個地址,連續(xù)進(jìn)行READ和WRITE。READ返回的結(jié)果可能是WRITE之后的內(nèi)容。 閱讀全文
      posted @ 2024-10-14 17:02 CQzhangyu 閱讀(99) 評論(0) 推薦(0)
      摘要: [DPDK] dumpcap報錯EAL init failed: is primary process running?解決辦法 問題 我寫了一個DPDK程序,現(xiàn)在想要用DPDK自帶的dpdk-dumpcap工具來抓包測試。根據(jù)官網(wǎng)描述,我們需要先啟動我們的程序?yàn)橹鬟M(jìn)程,然后啟動dpdk-dumpc 閱讀全文
      posted @ 2024-09-10 17:05 CQzhangyu 閱讀(413) 評論(0) 推薦(0)
      摘要: Docker安裝DPDK 參考:容器安裝DPDK。 確認(rèn)版本兼容性 我使用的是Mellanox-5網(wǎng)卡。為了確認(rèn)支持的DPDK版本,請先確認(rèn)自己的OFED和frimware版本。 查看firmware版本: $ ibstat CA 'mlx5_0' CA type: MT4119 Firmware 閱讀全文
      posted @ 2024-08-31 10:31 CQzhangyu 閱讀(599) 評論(0) 推薦(0)
      摘要: Mellanox網(wǎng)卡開啟SR-IOV SR-IOV是網(wǎng)卡虛擬化的一個重要功能。本文講介紹如何在Mellanox網(wǎng)卡上開啟SR-IOV,并創(chuàng)建一些VF。 參考:Mellanox網(wǎng)卡開啟SR-IOV方法簡介-天翼云開發(fā)者社區(qū) - 天翼云 (ctyun.cn) 在BIOS中開啟IOMMU 先查看是否已經(jīng)開 閱讀全文
      posted @ 2024-05-13 15:19 CQzhangyu 閱讀(3765) 評論(0) 推薦(0)
      摘要: [Mellanox] 安裝MLNX_OFED 雖然已經(jīng)安裝過很多遍了,但是這里還是再次寫一遍安裝過程,方便以后查閱。 Mellanox的這堆東西其實(shí)每個安裝起來都不難,難點(diǎn)在于版本要匹配。所以最重要的是我們要知道1.我們需要哪個版本的驅(qū)動;2.這些軟件的版本對應(yīng)關(guān)系。 查看當(dāng)前的各種配置版本 MLN 閱讀全文
      posted @ 2024-05-12 17:28 CQzhangyu 閱讀(7819) 評論(0) 推薦(0)
      主站蜘蛛池模板: 小13箩利洗澡无码视频网站| 性一交一乱一乱一视频| 国产午夜精品福利视频| 久久丫精品久久丫| 亚洲av成人网人人蜜臀| 亚洲一区二区三午夜福利| 亚洲高清免费在线观看| 九九综合va免费看| 国产精品永久免费无遮挡| 国产老女人精品免费视频| 精品乱码一区二区三四五区| 色综合欧美亚洲国产| 日日噜噜夜夜狠狠久久无码区 | 国产精品亚洲一区二区三区| 国产老妇伦国产熟女老妇高清| 欧洲精品码一区二区三区| 美女爽到高潮嗷嗷嗷叫免费网站 | 在线观看美女网站大全免费| 1000部拍拍拍18勿入免费视频| 芜湖县| 免费无遮挡无码视频网站| 深夜av免费在线观看| 国产日韩成人内射视频| 人妻少妇偷人精品免费看| 亚洲成av人片无码天堂下载| 免费大片av手机看片高清| 色综合天天综合天天更新| 四虎国产精品永久在线| 五十路丰满中年熟女中出| 成人区人妻精品一区二区| 欧美孕妇乳喷奶水在线观看| 深圳市| 暖暖影院日本高清...免费| 少妇内射高潮福利炮| 亚洲AVAV天堂AV在线网阿V| 欧美激情一区二区久久久| 亚洲成av人片色午夜乱码| 国产精品乱码久久久久久小说| 日韩不卡一区二区在线观看| 国产mv在线天堂mv免费观看| 国产亚洲精品aaaa片app|