數據治理之數據資產健康度量
本文分享自天翼云開發者社區《數據治理之數據資產健康度量》,作者:徐****東
隨著數據量的不斷增加,數據治理已經成為了企業管理里不可或缺的一環。數據治理可以幫助我們更好地進行數據的管理和使用,從而提升數據的質量和價值,同時也能夠保證數據的安全和合規。
一、數據治理面臨的問題
數據治理中主要面臨的問題有:
- 數據成本:隨著業務的不斷增長,數據存儲、計算成本也隨之增長。數據成本的可持續性和可控性是一個亟待解決的問題。
- 數據生產:數據的匯聚、清洗、建模、計算等過程依賴大規模的離線計算,且時間點集中,如何對數據產出的準確性和時效性進行保障也是個重要問題。
- 數據使用: 找不到數據,或者找到數據不敢用,數據來源、口徑、維護等沒明確的owner,使用方對數據的信任度不高,造成了數據的使用率不高。
- 數據安全: 沒有完善的流程機制以及規范等策略來進行數據管控,比如數據未分級、隱私數據沒有保護等。
二、數據資產健康度量
通過設計數據資產健康度模型,進行數據資產健康度評分,成體系、可監控、閉環地展示數據治理過程中的現狀、問題、以及治理效果等。“健康分”指標作為衡量數據資產健康度的北極星指標,通過健康分去識別存儲、計算、安全、質量、規范等方面不合理的地方,并定位到特定的不合理特征項,最后針對每一個特征項提供相應的治理策略或建議。
1.存儲健康分
對數據表設計分類體系,基于每一個分類設計一套計分策略。
對于新表(如三個月內創建的), 由于沒有積累足夠的訪問和使用數據,沒有足夠的依據判斷是否需要治理,因此新表階段會統一打分80分,等到訪問和使用數據積累到一定程度后再用數據輔助判斷。
對于舊表(如三個月以前創建),我們認為已經積累了足夠的訪問和使用數據,可以基于這個數據進行后續的治理判斷,基于此還可以更進一步區分表是否是分區表。如果不是分區表,會看最近比如三個月內是否有訪問,如果沒有則判定為0分,建議Owner清理或者下線該表,有訪問則判定為100分,暫時不用治理。如果是分區表,則判斷該表是否是需要永久保存的,一般是無法根據其他數據溯源的源數據表或者大周期加工的表,如果是,則可以打標簽為永久保存表或者白名單,不進行治理,打分100分;如果不是,則建議進行生命周期TTL(time to live,用戶設置生命周期)管理, 這部分表的存儲健康分是根據系統建議生命周期TTV(time to visit,系統建議訪問周期 ) 和用戶設置的TTL進行計算的具體計算公式是先根據歷史一定時間段內訪問的最大時間跨度,加上一定的系統冗余,計算出系統建議的TTV值,然后除以當前表的生命周期值,再乘以100。此策略就是希望用戶將生命周期TTL調整成系統建議的TTV。
2.計算健康分
計算健康分是基于積累的數據治理經驗沉淀出來的。主要是量化一些計算過程中不合理的特征進行計算,比如說數據傾斜、作業連續運行失敗、數據的重復計算、相似計算。
比如有些下游作業只是簡單的對上游表做了select操作,然后就存儲了一張下游表,這其實會造成存儲的極大的浪費,或者兩個業務人員用了相似的計算邏輯產出了兩張相似的表也會造成存儲浪費,這些我們都會進行識別和特征打分,相似度大于50%計0分,小于50%則為1分。此外,如果作業正常產出很長一段時間后都沒有下游依賴作業或者訪問量我們也可以判斷它可以暫停調度。最終計算健康分就是這些特征的得分,除以特征的計數,再乘以100。
在計算資源上進行量化,定義一個cu 等于1cpu=4GB 的內存運行1秒的算力,通過這個基本單位去量化每一個SQL,每一個作業運行時消耗的資源情況,同時會針對資源消耗Top的作業進行高效的治理,對得分低的計算特征也會給用戶制定詳細的指導策略。
3.質量健康分
質量方面分為數據內容質量和生成質量,需要設計一整個質量管理體系,并開發質量監控系統,主要的監控規則如下圖所示:
配置表級監控1分,否則0;配置字段級監控1分,否則0;配置及時性監控1分,否則0。
4.安全健康分
安全健康分主要分資產分類、資產分級、安全分級設置三個方面。資產分類是把表歸屬到某個資產目錄下,方便統一管理和查找使用。資產分級是用來衡量數據應用場景的重要程度,越高資產等級的數據,會高優保證它們的資源調度,保障產出的穩定性。安全等級則設置了L1到 L4,從1到4,安全等級逐漸升高,比如用戶ID、電話號碼、地址以及聊天記錄等個人敏感信息都是最高安全等級數據,從管控粒度上來說可以細到字段級的安全等級。安全分數計算規則跟計算健康分一樣,就不再贅述。
5.規范健康分
規范健康分相對簡單,主要是管控數倉開發建模規范。比如字段和表是否有描述和注釋,是否能讓用戶在使用時非常明白地了解到這個表具體保存的是什么,有沒有設置歸屬部門、負責的技術和業務負責人、表命名是否規范/分層等。 規范健康分分數計算邏輯和安全健康分一致,對于規范和安全這兩部分的治理更多的是事后補全,將未設置項補全,不規范項修正等。
三、小結
以上就是整個數據資產健康度量模型,根據該模型可以很清楚的知道當前數據的總的健康分以及各方面的健康分,識別到不合理特征項,以及涉及到哪些表和作業,同時建議相應的治理操作是什么。

浙公網安備 33010602011771號