2021年11月26日
摘要:
WordCount程序任務(wù): 程序 WordCount 輸入 一個(gè)包含大量單詞的文本文件 輸出 文件中每個(gè)單詞及其出現(xiàn)次數(shù)(頻數(shù)), 并按照單詞字母順序排序, 每個(gè)單詞和其頻數(shù)占一行,單詞和頻數(shù)之間有間隔 1.用你最熟悉的編程環(huán)境,編寫非分布式的詞頻統(tǒng)計(jì)程序。 讀文件 分詞(text.split列表
閱讀全文
posted @ 2021-11-26 13:26
wujiayan1
閱讀(94)
推薦(0)
2021年11月16日
摘要:
1.用圖與自己的話,簡要描述Hadoop起源與發(fā)展階段。 1)Lucene 是 Doug Cutting 開創(chuàng)的開源軟件,實(shí)現(xiàn)與 Google 類似的全文搜索功能,它提供了全文檢索引擎的架構(gòu),包括完整的查詢引擎和索引引擎 2)2001 年年底成為 Apache 基金會(huì)的一個(gè)子項(xiàng)目 3)Google的
閱讀全文
posted @ 2021-11-16 12:44
wujiayan1
閱讀(100)
推薦(0)
2021年11月12日
摘要:
1.理解HBase表模型及四維坐標(biāo):行鍵、列族、列限定符和時(shí)間戳。 1) 表:HBase采用表來組織數(shù)據(jù),表由行和列組成,列劃分為若干個(gè)列族 2) 行:每個(gè)HBase表都由若干行組成,每個(gè)行由行鍵(row key)來標(biāo)識(shí)。 3) 列族:一個(gè)HBase表被分組成許多“列族”(Column Family
閱讀全文
posted @ 2021-11-12 20:28
wujiayan1
閱讀(96)
推薦(0)
摘要:
1.下載壓縮文件 2.解壓 3.修改文件夾名 4.修改文件夾權(quán)限 5.配置環(huán)境變量 6.偽分布式配置文件 7.啟動(dòng)HDFS,啟動(dòng)Hbase 8.進(jìn)入shell界面 9.停止Hbase,停止HDFS運(yùn)行
閱讀全文
posted @ 2021-11-12 20:25
wujiayan1
閱讀(80)
推薦(0)
2021年11月5日
摘要:
1.下載壓縮文件 2.解壓 3.修改文件夾名 4.修改文件夾權(quán)限 5.配置環(huán)境變量 6.偽分布式配置文件 7.啟動(dòng)HDFS,啟動(dòng)Hbase 8.進(jìn)入shell界面 9.停止Hbase,停止HDFS運(yùn)行
閱讀全文
posted @ 2021-11-05 15:15
wujiayan1
閱讀(71)
推薦(0)
2021年11月2日
posted @ 2021-11-02 17:50
wujiayan1
閱讀(83)
推薦(0)
2021年9月27日
摘要:
請(qǐng)按要求上機(jī)實(shí)踐如下linux基本命令。 cd命令:切換目錄 (1)切換到目錄 /usr/local (2)去到目前的上層目錄 (3)回到自己的主文件夾 ls命令:查看文件與目錄 (4)查看目錄/usr下所有的文件 (4)查看目錄/usr下所有的文件 mkdir命令:新建新目錄 (5)進(jìn)入/tmp目
閱讀全文
posted @ 2021-09-27 19:55
wujiayan1
閱讀(103)
推薦(0)
2021年9月9日
摘要:
1.為什么產(chǎn)生大數(shù)據(jù)技術(shù)? 從本質(zhì)上來說,大數(shù)據(jù)就是曾經(jīng)被稱為數(shù)據(jù)倉庫的邏輯延伸。顧名思義,大數(shù)據(jù)就是一個(gè)大型的數(shù)據(jù)倉庫,一般有一個(gè)能支持業(yè)務(wù)決策的業(yè)務(wù)重點(diǎn)。如果是鏈接到客戶的所有記錄呢?將這么多不同的數(shù)據(jù)源互相映射,一般的數(shù)據(jù)庫還做不到。另外,需要鏈接的數(shù)據(jù)量是非常巨大的。這就產(chǎn)生了大數(shù)據(jù)概念。大
閱讀全文
posted @ 2021-09-09 20:11
wujiayan1
閱讀(116)
推薦(0)