摘要:
前面我們熟悉了很多ELT任務(wù),這一個節(jié)來討論復(fù)雜點(diǎn)的數(shù)據(jù)清洗。這里我們要使用的數(shù)據(jù)源是.dat文件,這種文件在大型主機(jī)上,或者是比較老舊的應(yīng)用系統(tǒng)中非常常見。這個例子的情景是一個信用卡公司,目前正著手于拓展Florida州新成立的一些公司的業(yè)務(wù)。市場部門每周都會向這些公司發(fā)送一些郵件,我們要為所有的郵件準(zhǔn)備抽取數(shù)據(jù)。假設(shè)Florida州提供的一個上面這個dat文件,它是從老的計算機(jī)系統(tǒng)里面得到的,它是定長分隔的,這意味著文件中沒有分隔符,必須手工設(shè)置分隔列的長度。從下面的連接下載這個.dat文件:010305c.dat。如果使用工具查看,它們的模樣類似下面的: 01 ANNUAL_MICRO_ 閱讀全文
posted @ 2011-04-22 12:59
nd
閱讀(9394)
評論(3)
推薦(2)
浙公網(wǎng)安備 33010602011771號