2020年12月6日
摘要:
一、hive用本地文件進行詞頻統計 1.準備本地txt文件 2.啟動hadoop,啟動hive 3.創建數據庫,創建文本表 4.映射本地文件的數據到文本表中 5.hql語句進行詞頻統計交將結果保存到結果表中。 6.查看統計結果 二、hive用HDFS上的文件進行詞頻統計 1.準備電子書或其它大的文本
閱讀全文
posted @ 2020-12-06 21:18
Qzpppp
閱讀(62)
推薦(0)
2020年11月22日
摘要:
1.任務: 列出HBase所有的表的相關信息,例如表名; 3. 編程完成以下指定功能(教材P92下): (1)createTable(String tableName, String[] fields)創建表。 (2)addRecord(String tableName, String row, S
閱讀全文
posted @ 2020-11-22 21:43
Qzpppp
閱讀(210)
推薦(0)
2020年11月6日
摘要:
1.詞頻統計 下載喜歡的電子書或大量文本數據,并保存在本地文本文件中 編寫map與reduce函數 本地測試map與reduce 將文本數據上傳至HDFS上 用hadoop streaming提交任務 查看運行結果 計算結果取回到本地 加分 2.氣象數據分析 批量下載氣象數據 解壓數據集,并保存在本
閱讀全文
posted @ 2020-11-06 21:48
Qzpppp
閱讀(72)
推薦(0)
2020年10月24日
摘要:
本地文件系統創建一個文件,輸入帶姓名學號信息。 查看新建文件所在目錄 查看新建文件內容 將此文件上傳到HDFS文件系統上的用戶目錄 HDFS上查看相應目錄 HDFS上查看文件內容 HDFS上查看文件大小 刪除本地1步驟創建的文件 將HDFS上的文件下載到本地 查看本地文件目錄
閱讀全文
posted @ 2020-10-24 20:58
Qzpppp
閱讀(120)
推薦(0)
2020年10月17日
摘要:
1.HDFS體系結構 2.HDFS工作原理 3.HDFS流程 二.偽分布式安裝Hadoop。
閱讀全文
posted @ 2020-10-17 21:28
Qzpppp
閱讀(78)
推薦(0)
2020年10月10日
摘要:
1. 熟悉 Linux系統的使用 2. 在Ubuntu下安裝MySQL及其常用操作
閱讀全文
posted @ 2020-10-10 16:33
Qzpppp
閱讀(80)
推薦(0)
2020年9月19日
摘要:
1. DKhadoop發行版:有效的集成了整個HADOOP生態系統的全部組件,并深度優化,重新編譯為一個完整的更高性能的大數據通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大數據平臺,在計算性能上有了高達5倍(最大)的性能提升。DKhadoop將復雜的大數據集群配置簡化至三種節點(主節點
閱讀全文
posted @ 2020-09-19 20:17
Qzpppp
閱讀(153)
推薦(0)
2020年9月12日
摘要:
1. 微信每天產生的數據量:每天有450億次信息發送出,有4.1億次音視頻呼叫成功,微信用戶超過9億,每天產生的數據量都是數億tb。主要的數據類型為:打字聊天、語音聊天、視頻聊天和瀏覽朋友圈產生的數據。 微博每天產生的數據量:微博每日產生過億條微博,每天產生的數據量是數千萬tb。主要的數據類型為:發
閱讀全文
posted @ 2020-09-12 11:29
Qzpppp
閱讀(242)
推薦(0)