摘要:
在模糊查找中我們提到臟數(shù)據(jù)是怎樣進(jìn)入到表中的事情,主要還是由于一些“Lazy-add”造成的。這種情況我們的肉眼很容易被欺騙,看上去是同一個(gè)單詞,其實(shí)就差那么一個(gè)字母,變成了兩個(gè)不同的單詞。一個(gè)簡(jiǎn)單的例子是X-Ray Tech和xRey,我們很有可能認(rèn)為他們是同一個(gè)職務(wù),CT操作員,但是如果讓計(jì)算機(jī)來(lái)處理的話,它們是兩種截然不同的東西。 和模糊查找一樣,模糊分組可以查找出多行中出現(xiàn)的類似的單詞進(jìn)行歸類。我們可以使用這些歸類得到的結(jié)果清洗數(shù)據(jù)源或者在不修改基礎(chǔ)數(shù)據(jù)的情況下對(duì)原表進(jìn)行修改。模糊分組也需要一個(gè)輸入字符流,還需要一個(gè)OLE DB數(shù)據(jù)連接,用于存放分析得到的結(jié)果。模糊分組任務(wù)的編輯界面. 閱讀全文
posted @ 2011-07-04 22:21
nd
閱讀(2498)
評(píng)論(2)
推薦(0)
浙公網(wǎng)安備 33010602011771號(hào)