摘要:
BI項目中經常會有一些提取,轉換,數據處理(ELT)的工作,其中最主要的是處理過贓數據。假設在項目中我們向數據庫中注入了測試數據,但是通過一個外鍵從另外一個表中載入數據的時候沒有對應的數據,那么這一行就是贓數據。這時候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找。這種策略需要花費大量的時間和精力來設計算法,測試,維護,并且它們都是基于詞匯的,復用的可能性很小。也可能你會放棄自己處理并把它拋給一些有經驗的高手專家來做這些工作,也可能你會在表中添加一些新的數據已達到外健關聯的目的,但是這種方法被稱作Lazy-add(懶惰的做法)。因為是手工添加數據難免會帶來拼寫錯誤 閱讀全文
posted @ 2011-06-27 21:30
nd
閱讀(4841)
評論(11)
推薦(4)
浙公網安備 33010602011771號