阿里云實時數倉Hologres性能調優

一、?數據分布策略?

　　　　Shard數決定并行度，過少會導致資源利用率不足，過多則增加元數據管理開銷。擴容后需根據實際負載調整Shard數。

　　　　　　-- 創建新Table Group并設置Shard數
　　　　　　CREATE TABLEGROUP tg_ads WITH (shard_count = 64);

　　　　（1）收集表的行數、列基數、最大值/最小值、分桶分布等特征，確保優化器生成高效的執行計劃（如JOIN順序預估、內存開銷計算）。

　　　　（2）在數據批量導入或大量INSERT/UPDATE/DELETE操作后，需手動執行ANALYZE <tablename>更新統計信息，避免因信息滯后導致執行計劃錯誤。

         ANALYZE orders;  -- 更新行數、基數、最大值等關鍵信息

優先選擇Join條件列或Group By列作為分布列（Distribution Key），實現Local Join加速，通過SET hg_experimental_enable_adaptive_join=on開啟自適應JOIN優化，減少跨節點數據傳輸。
啟用Runtime Filter減少Shuffle數據量：

         SET runtime_filter_type = "IN,MIN_MAX";  -- 過濾無效關聯數據

         SET enable_vectorized_engine = true;

         SET hg_experimental_max_num_record_batches_in_buffer = 7;

　　　　　　SET hg_experimental_query_batch_size = 1024;  -- 提升大批量寫入效率
　　　　　　SET hg_experimental_dml_bulkload_dop = 2;     -- 控制寫入并發，避免OOM

　　　　　　SET hg_experimental_odps_executor_max_dop = 8;

　　　　　　SET hg_experimental_enable_serverless = on;  -- 避免占用實例自身資源

　　　　　　SET hg_experimental_enable_hqe = true;

?優先級建議?：

posted @ 2025-04-22 14:07 業余磚家閱讀(114) 評論(0) 收藏舉報

刷新頁面返回頂部