<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      抖音集團也在用的數倉「降本」利器

       
      隨著數據量的爆炸性增長,現代企業在數據存儲、處理與分析上面臨巨大挑戰。在IT架構中,數據倉庫承擔著企業中關鍵的數據存儲和分析任務,如果不能高效運作,必將導致成本飆升和決策效率低下。因此數據倉庫的降本增效是企業IT部門持續的命題。
       
      作為面向實時數據處理的工具,OLAP(聯機分析處理)系統能幫助企業充分挖掘數據價值、輔助決策。然而,OLAP在追求高效數據分析的同時,往往難以平衡成本與效率矛盾。
       
      快節奏的商業環境要求OLAP系統在保證數據準確性的前提下,盡可能縮短數據處理和分析的時間。但高效的數據處理往往伴隨著更復雜的系統架構和更高的資源消耗,企業需要投入高昂的計算資源、服務器、存儲資源等硬件成本以及大量算法優化、運維、遷移等軟性成本。
       

      問題與挑戰

      企業使用一款數據倉庫產品,成本項可以區分顯性成本與隱性成本:

      顯性成本挑戰

      • 硬件成本:代表了部署數據倉庫軟件的所需的硬件成本,包括計算資源成本(CPU)與存儲資源成本(磁盤、存儲集群)。毫無疑問數據倉庫涉及TB甚至PB級數據的存儲與分析,對硬件的要求頗高。
      • 性能成本:單位能效不高,導致在完成任務或處理數據時,需要配備更多的資源以彌補這一不足。一方面,在計算能效上,需要增加更多的高性能計算單元或優化現有的計算能力,以確保在合理的時間內完成復雜的計算任務,避免處理速度的滯后;另一方面在存儲能效上,需要部署更大容量的存儲設備以應對日益增長的數據量,同時減少能耗,提高數據存儲和檢索的效率。

      隱性成本挑戰

      • 運維成本:代表了運維數據倉庫的人力與時間成本。
        • 數據倉庫作為極其復雜的軟件產品,對運維人員的專業要求和精力消耗本身極高。如果在數據系統中運行多款組件,如ClickHouse、Elasticsearch、GreenPlum... 則會讓復雜性指數級增加,運維人員的技能要求也指數級增加。
      • 遷移成本:代表了從舊的數據倉庫或分析型數據庫遷移到ByteHouse的人力與時間成本;
        • 數據倉庫之前的語法,架構差異通常極大,搬遷數據難于搬家,帶來了極高的替換成本。
       

      解決方案

       

      關于ByteHouse

       
      ByteHouse是火山引擎數智平臺VeDI旗下的一款云原生數倉產品,以 ClickHouse 技術路線為基礎,從2017年內部立項開始,截止到2022年3月,ByteHouse 節點總數已經達到了18,000,最大的行為分析集群超過了2,400個節點,數據量超過700PB。
       
      ByteHouse在架構上遵循新一代云原生理念,實現了容器化、存儲計算分離、多租戶管理和讀寫分離等功能,同時支撐實時數據分析和海量數據離線分析,尤其對高吞吐、高并發、復雜查詢等多種實時數據分析場景進行優化,能為用戶提供極速分析體驗。
       
      ByteHouse具備存儲、計算分離,高彈性擴展的特點,其計算層采用 Shared-nothing 架構,存儲層采用 Shared-everything 架構,能更好地支持計算和存儲層的水平擴展?;贐yteHouse高性能的實時數據分析決策能力,數據從導入到分析決策僅需幾秒,99% 的查詢都能得到秒級保障。除了高可用的基礎能力,ByteHouse還提供免托管運維服務,包括豐富的集群管理工具、全面的系統監控能力,幫助企業輕松了解業務狀態,讓故障排查與問題診斷變得簡單。
       

      四招直擊“降本之痛”

       
      云原生數據倉庫 ByteHouse 在架構、技術、生態、融合四個方面上均能帶來紅利,能顯著地降低顯性成本與隱性成本。通過引入像ByteHouse這樣“能省錢”的云原生數據庫,企業能夠在支持大規模數據查詢的同時,有效控制硬件成本、遷移成本與運維成本的投入,提升系統性能,實現數據驅動的業務增長。
       
      1. 架構紅利:ByteHouse采用獨特的存算分離架構,實現了資源的高效利用和靈活擴展。這一架構解決了傳統數據倉庫在計算和存儲資源上的緊耦合問題,使企業能夠根據實際需求獨立擴展計算或存儲資源,從而避免了資源浪費。
      2. 技術紅利:在計算層面,ByteHouse自研的查詢優化器提升了多表查詢性能,點查優化技術則提高了系統的并發性能。在存儲層面,通過共享對象存儲、存儲分級、數據壓縮等極致優化,ByteHouse進一步降低了存儲成本。
      3. 生態紅利:ByteHouse支持豐富的上下游生態,包括數據導入、加工工具、調度工具、BI工具以及語言Driver和開發工具等。同時,與ClickHouse、MySQL生態完全兼容,降低了用戶數據遷移的門檻和額外成本。
      4. 融合紅利:ByteHouse融合了實時查詢、聚合查詢、人群圈選、文本檢索等各類場景,簡化了企業的技術棧管理,降低了運維成本。此外,在湖倉融合方面,ByteHouse支持業界常見數據湖的外表連接方式,能實現多種外表和ByteHouse內表的聯邦查詢,進一步提高了分析效率并降低了數據冗余存儲和轉換成本。
       

      架構紅利

      首先,ByteHouse 支持存算分離架構,也是讓ByteHouse“更省錢”的重要原因,存算分離通過更高效的資源分配和靈活的擴展方式,幫助企業在數據管理和計算任務中有效控制資源成本并提升效率。

      資源利用率的瓶頸

      傳統的數據倉庫通常使用無共享(shared-nothing)的架構,使得計算資源和存儲資源是緊耦合的,因此集群時計算和存儲資源的配比和容量就已經固定,無法支持二者獨立擴縮容。這就意味著計算與存儲必有一項存在資源浪費情況。
       
      例如,當業務不需要太多計算資源,但存儲的數據量激增,也需要新購大量服務器;另一些情況下,一些集群的存儲資源冗余,但 CPU 利用率很高,用戶的查詢體驗差;且上述兩種情況無法共享 CPU 與存儲資源,結果就是資源成倍浪費。
       
      同時,傳統的架構面對計算資源高峰低谷,比如例如早上查詢業務高峰期,夜間ETL任務高峰期,只能通過生硬的混合部署方式來應對;這種方式不夠靈活,同時也可能會發生夜晚ETL任務未完成,影響上午業務的情況,從而導致連環影響。
      正是基于上述痛點,ByteHouse 研發了存算分離的云原生新架構。
       
      計算和存儲分離架構
      如上圖所示,計算節點(VW)與數據存儲(Data Storage)是隔離的。從計算節點的角度來看,他們將看到一個全局共享的數據池,即數據存儲層。這意味著該池中的所有數據都可以跨所有計算資源共享。
      采用這種存算分離架構架構具有三大優勢:
      1. 靈活的伸縮能力,因為計算資源和存儲是分離的,它們可以根據需求,對計算或存儲資源獨立擴展。
      2. 無盡的可擴展性。 由于數據是在存儲層中共享的,理論上可以橫向擴展以利用盡可能多的計算資源。
      3. 對于集群管理者來說更加友好,因為他們不需要擔心數據一致性、數據副本和數據收費問題; 所有這些都可以委托給云服務提供的數據存儲層來實現,如對象存儲或 HDFS。

      基于存算分離的關鍵特性

      計算隔離,按需購買

      彈性策略應對多樣業務場景:當您擁有多個計算組資源,每個計算組資源應對不同業務;當工作負載各不相同時,用戶可以根據業務場景針對不同的計算組設置不同的策略;

      彈性計費,自動啟停

      ByteHouse 計算組自動啟停策略,幫助用戶節省 ~20%+ 成本:當 VW 空閑超過 5 分鐘時,自動啟停 會自動關閉集群,VW在關閉期間不會產生任何費用。

      按需擴展,無損彈性

      彈性擴展,靈活自動:根據時間,資源負載等條件進行擴容/縮容配置;減輕手動管理的負擔,提升資源利用率。
      節省成本:根據實際業務需求靈活調整計算資源規模,無需提前購買全部資源。
       

      技術紅利

      存算分離決定了整體架構的高效能,低成本。
      但深入“存”和“算”的領域,ByteHouse 仍然有非常多的極致的技術優化,讓整個數據倉庫“省上加省”。

      計算技術優勢

      根據 ByteHouse 性能白皮書的標準數據集性能參考,ByteHouse 性能比開源的 ClickHouse 強 40%-50%。性能提升意味著在相同的查詢單位算力下,ByteHouse 需要的算節點數量的減少,因此能帶來成本的等比例降低。
       
      (如上圖,開源ClickHouse在TPC-DS 99條查詢中只能跑出28條SQL,而ByteHouse能跑出99條,同時ByteHouse每一條都更快)
      假設在當前業務需求下,ClickHouse 需要 100 個節點來處理每日的數據量。使用 ByteHouse 后,由于性能的提升,可能只需要 60-70 個節點。
      那為何 ByteHouse 的性能如此強勁?有以下兩個關鍵技術點:

      多表查詢性能優化

      首先,ByteHouse 自研了查詢優化器,使得多表查詢性能出眾。
      ByteHouse 的查詢優化器同時基于 CBO(基于代價優化) 與 RBO(基于規則優化):
      • 語法支持:ClickHouse/ANSI/MySQL;
      • Join 優化:Join-Reorder,bucket join,Runtime filter ;
      • Filter 下推:多層嵌套下推。支持下推 join 子查詢;
      • 分布式計劃優化:將這單機版計劃和分布式計劃兩個階段融合在一起,在整個 CBO 尋求最優解的過程中尋求最優解。

      點查性能優化

      其次,ByteHouse 支持多種點查優化技術,提升了整體系統的并發性能:
      • 支持預先注冊查詢模板,避免對模版 sql 的分析和優化的開銷;
      • 支持使用 unique 引擎生成的內存中唯一鍵索引;
      • 優化 TopN 類型 SQL 模式(select column from {} where condition order by column limit 10; ),使數據讀取量更少,查詢更快:

      存儲技術優勢

      對象存儲,優化成本

      ByteHouse 的存儲層基于共享對象存儲,存儲成本下降10倍;
      資源按需計費,存儲資源無限容量且彈性擴縮。

      存儲分級,溫冷隔離

      溫數據使用對象存儲標準規格存儲,冷數據使用對象存儲深度歸檔規格存儲;
      溫冷分層,存儲成本進一步降低2~5倍;

      數據壓縮,極致優化

      ByteHouse 支持 LZ4、ZSTD等高效壓縮算法,基于壓縮算法下的存儲成本再次降低75%+;

      生態紅利

      行業上有這樣的說法,“客戶價值=新產品價值-老產品價值-遷移成本”??梢娺w移成本對于產品選擇是如此的重要,數據倉庫這類重型產品,不論產品的架構、技術如何優秀,遷移成本是否足夠低,仍然是能否足夠“省錢”的核心考量。
      ByteHouse 搬遷 ClickHouse 生態、MySQL 生態都非常絲滑,將遷移成本降到最低。同時 ByteHouse 本身上下游生態豐富,易于集成進現有的生產系統。

      多元化生態

      ByteHouse 支持豐富的上下游生態,包含各類數據導入加工工具,如Flink,Spark,DataX,DataSail;各類調度工具,如 Airflow,DophinScheduler,各類 BI 工具,如 Superset,Tableau,FineBI,DataWind,各語言 Driver,各類開發工具等等。方便集成進每一個現有系統。

      ClickHouse 生態兼容

      ByteHouse 與 ClickHouse 23.3 主流的版本的語法、函數、客戶端、驅動均兼容,并且支持 ClickHouse->ByteHouse 的遷移工具,替換成本極低;
      有諸多客戶通過 ByteHouse 大規模替換了開源產品。例如在某頭部股份制銀行,已通過工具替換了超過 200 個節點的 ClickHouse。

      MySQL 生態兼容

      MySQL 是市面上分析型數據庫的廣泛兼容的一種語法之一。ByteHouse 原生兼容各類 SQL 語法,也自研支持了 90% 的 MySQL 語法,因此,從 MySQL 生態的數據庫、數據倉庫搬棧到 ByteHouse,現成SQL的改造量少,體驗絲滑;
      同時,ByteHouse 支持 Zero-ETL 的能力,可以將 MySQL 生產庫的數據通過 Binlog 實時同步到 ByteHouse,整體數據延遲在分鐘級別,實現 AP-TP 的一體化。

      融合紅利

      分析型數據庫有一個老生常談的問題:
      各類技術棧五花八門,各有所長,如 ClickHouse 善于寬表查詢,HBase 善于點查,Kylin 善于匯聚指標,ES 善于解決文本分析,還有 Presto,SparkSQL,Impala 等各種用于分析的組件。
      為了解決多樣的分析問題,從而選擇多樣的底層技術棧,進而導致的維護成本激增。
      ByteHouse 的能力全面,少有短板;因此,可以作為一個 All in One 的大一統云原生數倉,融合各類使用場景。

      多技術棧融合

      字節跳動在許多年前就遇到了上述問題。當時面對上億的行為日志分析,業務提出了實時數據、離線數據、明細查詢等業務需求,最初的解決方案是采用了 Druid,Apache Kylin,SparkSQL,Redis 分門別類解決各個問題,但帶來了各類技術棧的學習成本,維護數據一致性的成本,另外部分技術棧如 Apache Kylin,SparkSQL 有數據膨脹問題,資源成本本身就很高。
       
      如今,ByteHouse 的查詢分析能力已經覆蓋實時查詢,聚合查詢,人群圈選,文本檢索,向量檢索,地理檢索等,且多場景下都比開源更快。為多種不同業務場景提供了一致的使用體驗。

      統一運維

      融合技術棧后,不僅意味著豐富的場景下,只需要運維 ByteHouse 一種技術棧,那也只需要學習一套知識體系,一種優化方法,一套排障策略。
      同時,ByteHouse 提供完善的自動化與可視化運維能力,比如大查詢診斷,集群健康儀表盤,Schema智能推薦工具,自動化擴容工具等,進一步降低運維成本。這就意味著在管理數據庫集群時,不再需要專門的 DBA 團隊來深入理解開源產品的原理,才能用好 ByteHouse。
      對于ByteHouse的使用者而言,ByteHouse 能通過完善的產品運維體系,專家團隊持續提供專業的產品運維建議,能大幅降低客戶的人力成本。

      湖倉融合

      Databricks等技術公司于2017年首次提出了“湖倉一體”的概念,并在之后逐漸得到廣泛接受。湖倉一體架構的目標是將數據湖的靈活存儲與數據倉庫的高效查詢和管理功能結合起來,提供一種統一的架構,既能支持大規模數據存儲,也能支持高性能數據分析。
      湖倉一體架構不僅能提高分析效率,減少多分數據帶來的不一致問題。同時也能夠減少數據的冗余存儲和轉換成本,還可以降低企業維護多個系統的運維成本。
      ByteHouse 也大力投入了湖倉一體,首先ByteHouse 支持業界常見數據湖的外表連接方式,包括 Hive,Hudi,Paimon,Iceberg(Q4),實現多種外表和ByteHouse內表的聯邦查詢;
      其次,面對外表分析性能有限的問題,ByteHouse 也支持 Zero-ETL 技術,即將數據湖中的數據通過物化視圖,自動同步到數倉中,實現透明加速。由優化器來辨識直接查詢外表,還是查詢倉內已經落地的內表數據,這樣更增進了湖倉查詢體驗的一致性。
      湖倉融合也可以認為是 ByteHouse 存算分離架構的延續和擴展,不僅延續了存算分離在彈性和成本方面的優勢,還在統一數據處理和擴展性方面做出了進一步的提升,成為現代數據處理架構中重要的一環。
       

      案例實踐

       

      抖音集團廣告集群上云業務:QPS提升35%,成本降低60%

      • 業務背景:
      抖音集團原先采用物理機作為其內部基礎設施,具有低軟件冗余的優勢。然而,在構建上層ByteHouse系統時,為了滿足數據高可用性的需求,需要獨立考慮并實施數據副本策略,這直接導致了存儲資源的雙倍使用。面對這一挑戰,抖音集團決定采用存算分離的架構進行優化,并隨后決定將其業務系統上云。
      • 解決方案:
      上云后,抖音集團基于ByteHouse對象存儲作為底層存儲解決方案。對象存儲本身具備高可用性和數據冗余特性,即底層自動存儲三份數據副本,以確保數據的持久性和可靠性。這一特性使得上層軟件層無需再額外配置數據副本,從而簡化了系統架構,減少了分片數和副本數。此外,盡管云上的虛擬機相對于物理機在單機成本(TCO)上可能略高,但云環境的彈性擴展、按需付費以及運維簡化等優勢為整體成本節約提供了可能。
      • 最終效果:
      通過ByteHouse存算分離架構和采用對象存儲,抖音集團最終將整體成本降低了60%。此外,優化后的架構還提高了系統的靈活性和可擴展性,讓業務QPS提升了35%。
       

      抖音集團行為分析業務:僅需運維1套系統,100T數據查詢只要5秒

      • 業務背景:
      在當前的數據生態中,存在多種開源數據解決方案,如ClickHouse、Doris、Apache Kylin等,各自擅長不同的分析場景。這種多樣性也帶來了“煙囪林立”的問題,即每個解決方案都像一座獨立的煙囪,各自為政,缺乏統一的管理和整合。這導致使用者需要熟悉多種不同的SQL語法和技術棧,而運維團隊則面臨更大的挑戰,他們需要掌握多種技術棧的性能優化和問題排查方法。
      在抖音集團內部,通常會用行為分析來支持其業務決策,包括用戶行為轉換分析、行為流圖分析等,這些分析需要處理大量的實時和離線數據。然而,由于之前使用了多種不同的開源架構來解決這些問題,如Druid用于實時分析、Apache Kylin、Spark SQL用于離線分析、Hbase則用于明細查詢。這些架構不僅存在各自的瓶頸,無法全面滿足需求,且整體運維開銷巨大。
      • 解決方案:
      遷移到ByteHouse之后,由于ByteHouse能支持實時數據消費,并具備強大的查詢能力,同時支持多個不同的查詢維度,最多能達到1000列,大大超過了之前使用的任何單一架構。
      此外,ByteHouse還提供了許多工具來幫助運維團隊進行監控、集群管理、SQL優化等。這些工具使得運維團隊能夠更高效地管理大量的集群和服務器,同時降低了對人力投入的需求。
      • 最終效果:
      首先,ByteHouse在性能方面表現出色,在100TB級別的數據量基礎上,90%的查詢都能在5秒鐘左右完成。
      其次,遷移到ByteHouse后,抖音集團將原本的4套系統整合為1套系統,大大降低了運維團隊的工作量和復雜度。運維團隊不再需要熟悉多種不同的技術棧和SQL語法,只需要掌握ByteHouse即可,提高運維效率,降低運維成本。
      最后,ByteHouse提供的工具使得運維團隊能夠更高效管理大量的集群和服務器。在抖音集團內部,SRE團隊只有5個人,但共同管理了400個集群和18000臺服務器,大大提升人效。
       

      某頭部游戲企業遷移案例:QPS提升200%,成本降低30%

      • 業務背景:
      某頭部游戲廠商原先使用其他云服務商的數據分析產品,但在面臨業務增長和數據分析需求提升的背景下,無法滿足性能和成本的需求,因而決定遷移到火山引擎ByteHouse。
      • 解決方案:
      遷移前,該頭部游戲廠商在云平臺上部署了896個CPU core,并發峰值僅能達到15萬。遷移至火山引擎后,該游戲廠商采用了更為高效和靈活的ByteHouse解決方案,得益于架構優化和高效處理能力,僅需640個CPU核心就能實現更高的并發處理能力,峰值并發量達到了30萬。
      此外,基于ByteHouse彈性伸縮能力,在寒暑假等高峰期,該頭部游戲廠商可以輕松擴容到640核以滿足業務需求;而在非高峰期,則可以縮容到320核,以維持與原云平臺相同的15萬并發峰值,同時降低成本。
      • 最終效果:
      通過遷移到火山引擎ByteHouse,該游戲廠商不僅實現了成本的降低,還顯著提升了數據處理性能。這種彈性使用的方式不僅滿足了業務高峰期的需求,還在非高峰期有效節約了資源成本,在服務器核數減少30% 情況下,并發性能提升2倍。
       

      結語

      ByteHouse通過獨特的存算分離架構、自研的查詢優化器以及存儲層面的極致優化,為企業帶來了顯著的“架構紅利”和“技術紅利”。這些紅利不僅體現在資源成本的大幅降低上,更為企業提升了數據處理和分析效率。同時,ByteHouse豐富的生態兼容性和強大的“融合紅利”,進一步簡化了企業的技術棧管理,降低了運維成本,并為企業提供了更加豐富和一體化的使用體驗。
      未來,ByteHouse將繼續聚焦降本增效,幫助更多企業加速數字化轉型,實現數據驅動下的業務增長。
       
       
      點擊領取《云原生數據倉庫ByteHouse性能白皮書(企業版)》
      https://www.volcengine.com/docs/6624/1231577
       
      posted @ 2024-11-06 11:11  字節跳動數據平臺  閱讀(230)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 在线观看热码亚洲av每日更新| 日韩一区二区三区女优丝袜| 天天躁日日躁狠狠躁中文字幕| 午夜DY888国产精品影院| 免费人成视频在线观看不卡| 乱中年女人伦av三区| 国产伦一区二区三区视频| 国产精品免费观看色悠悠| 滦平县| 日韩一区二区黄色一级片| 国产午夜福利免费入口| 亚洲最新无码中文字幕久久| 久久大香萑太香蕉av黄软件| 一区二区三区四区五区色| 欧美精品一区二区三区中文字幕| 深夜释放自己在线观看| 女同另类激情在线三区| 91毛片网| 亚洲av永久无码精品漫画| 亚洲成人av高清在线| 91中文字幕在线一区| 国产欧美久久一区二区三区| 久久久久影院色老大2020| 亚洲精品在线二区三区| 三级国产三级在线| 国产乱码精品一区二区上| 99亚洲男女激情在线观看| 国产色精品久久人妻| 亚洲av永久无码天堂影院| 亚洲中文字幕一区精品自| 国内不卡的一区二区三区| 中文字幕人妻中出制服诱惑| 日韩精品一区二区av在线| 中文精品无码中文字幕无码专区| AV秘 无码一区二| 日本不卡码一区二区三区| 久久亚洲av午夜福利精品一区| 国产一区二区日韩在线| 免费国产精品黄色一区二区| 开心五月婷婷综合网站| 999精品全免费观看视频|