摘要:
MirroredStrategy 策略通常用于在一臺機器上用多個GPU進行訓練。其主要難點就是:如何更新 Mirrored 變量?如何分發計算?本文我們看看其總體思路和如何更新變量。 閱讀全文
posted @ 2022-04-19 18:37
羅西的思考
閱讀(1492)
評論(0)
推薦(0)
摘要:
在 TensorFlow 之中,分布式變量是在多個設備上創建的變量。Mirrored variable 和 SyncOnRead variable 是兩個例子。本文就對分布式變量進行分析。 閱讀全文
posted @ 2022-04-14 17:44
羅西的思考
閱讀(1241)
評論(0)
推薦(0)
摘要:
我們接下來介紹TensorFlow分布式Strategy的基礎,本文會先看看Strategy的類體系和如何處理數據,下一篇看看如何處理變量。 閱讀全文
posted @ 2022-04-12 14:21
羅西的思考
閱讀(1619)
評論(1)
推薦(0)
摘要:
本文以兩篇官方文檔為基礎來學習TensorFlow如何進行分布式訓練,借此進入Strategy世界。 閱讀全文
posted @ 2022-04-10 09:50
羅西的思考
閱讀(1519)
評論(1)
推薦(1)
摘要:
當計算圖在設備之間劃分之后,跨設備的 PartitionGraph 之間可能存在著數據依賴關系,因此 TF 在它們之間插入 Send/Recv 節點,這樣就完成數據交互。而在分布式模式之中,Send/Recv 通過 RpcRemoteRendezvous 完成數據交換,所以我們需要先看看 TF 之中的數據交換機制 Rendezvous。 閱讀全文
posted @ 2022-04-06 15:52
羅西的思考
閱讀(1234)
評論(1)
推薦(0)
摘要:
前文中,Master 在流程之中先后調用了 gRPC 給遠端 worker 發送命令,即,GrpcRemoteWorker 一共發了兩個請求:RegisterGraphAsync,RunGraphAsync,本文我們就來看看 GrpcWorkerService 如何處理。 閱讀全文
posted @ 2022-04-01 16:47
羅西的思考
閱讀(730)
評論(0)
推薦(0)
浙公網安備 33010602011771號