Spark下的Work目錄定時清理
問題
在跑spark任務(wù)的時候發(fā)現(xiàn)任務(wù)不能執(zhí)行。在查看的時候發(fā)現(xiàn)spark work節(jié)點的/usr/local/spark/work/目錄占用了很大空間,導致根目錄/滿了。
原因
使用spark standalone模式執(zhí)行任務(wù),沒提交一次任務(wù),在每個節(jié)點work目錄下都會生成一個文件夾,命名規(guī)則app-20160614191730-0249。該文件夾下是任務(wù)提交時,各節(jié)點從主節(jié)點下載的程序所需要的資源文件。這些目錄每次執(zhí)行都會生成,且不會自動清理,執(zhí)行任務(wù)過多會將存儲撐爆。每一個application的目錄中都是該spark任務(wù)運行所需要的依賴包。
解決方案
spark-env.sh中添加配置:
export SPARK_WORKER_OPTS="
-Dspark.worker.cleanup.enabled=true # 是否開啟自動清理
-Dspark.worker.cleanup.interval=1800 # 清理周期,每隔多長時間清理一次,單位秒
-Dspark.worker.cleanup.appDataTtl=3600" # 保留最近多長時間的數(shù)據(jù)
本文來自博客園,作者:業(yè)余磚家,轉(zhuǎn)載請注明原文鏈接:http://www.rzrgm.cn/yeyuzhuanjia/p/18220236

浙公網(wǎng)安備 33010602011771號