#研發解決方案#數據移山:接入、遷移、同步一站式
數據中心趙興申 最后更新于2018/8/7
關鍵詞:數據接入,數據遷移,實時同步,數據庫變更訂閱中心
提綱:
1. 移山產生背景
2. 技術棧
3. 移山數據處理能力
4. 小結
移山 是數據中心推出的異構數據源之間的數據遷移自動化平臺,它旨在解決第三方ISV數據接入、實時數據(單向/雙向)同步、大數據集群間的數據遷移等問題。
移山 前臺部分由劉永飛,后臺由趙興申、譚清勇等同學開發完成。2018年3月9日移山(YiShan)一期上線運行。
0x00 移山產生背景
隨著數屏、魔盒、數據開放實驗室等大數據組件上線運行,我司數據倉庫體系得到了進一步的發展,生產效率進一步提高,但是在數據接入、數據遷移、分析結果輸出還存在以下問題:
-
業務庫數據進入倉庫流程復雜:
-
對于數據倉庫中不存在的業務表,數據挖掘工程師需要先在 數據庫變更訂閱中心 配置該表,數據才會流向HBase(數據湖),然后還需要編碼開發才能將HBase中的數據同步至數據倉庫。這個過程操作復雜,極大制約了數據的開發效率;
-
計算任務和結果輸出未完全分離:
-
我們的離線計算任務采用 spark 進行計算,任務計算完成后需要將分析結果輸出到下游數據使用方(一般輸出到 MySQL 數據庫),數據計算和結果輸出封裝在一個 spark 任務中。計算結果數據量大的情況下,經常會導致 spark 任務不能正常結束或假死;
-
第三方數據接入方案不成熟:
-
對于第三方數據接入,我們之前有一個簡易版的數據采集服務,采用內存隊列方式處理接入數據,數據量大的情況下,經常會造成接口訪問超時,影響數據的完整性。
為了解決上述問題,我們需要一個完整的數據接入、同步、遷移解決方案,移山項目應運而生。同時我們要求可視化配置,可排查(最好是全鏈路可排查),可調度,支持下層集群服務(如kafka、hbase等)的擴容或縮容,最重要的一點是自帶監控報警。
0x01 技術棧

0x02 移山數據處理能力
2.1 三大數據通道
數據接入、數據遷移、實時同步三大數據通道涵蓋所有業務場景。

2.2 完備的監控報警機制
-
報警設置
系統根據不同數據通道,采用相應的監控報警機制,例如:對數據接入、數據遷移通道采用達到一定的重試閾值,才進行報警;對實時同步這種不能進行重試的任務,立即報警。

-
運行監控
對數據接入、數據遷移提供詳細的任務運行監控,并詳細記載任務執行日志、錯誤日志、成功記錄數、失敗記錄數等信息。

2.3 良好的數據、異常分析能力
移山系統提供了數據分析,幫助了解每日數據同步記錄數、執行時長等信息。

0x03 小結
綜上所述,移山的三大數據通道已全部涵蓋日常數據遷移場景。移山以組件的方式集成到數據倉庫體系中,形成如下圖所示的大數據技術支撐體系。

-EOF-
浙公網安備 33010602011771號