摘要:
2.安裝spark 一、安裝Spark 1.檢查基礎環境 啟動hdfs查看進程 查看hadoop和jdk環境 2.下載spark 3.配置環境變量 4.啟動spark 5.試運行python代碼 7.Spark SQL 1.請分析SparkSQL出現的原因,并簡述SparkSQL的起源與發展。 因為
閱讀全文
摘要:
一、集合運算練習 union(), intersection(),subtract(), cartesian() 二、內連接與外連接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 數據: 多個考勤文件,簽到日期匯總,出勤次數統計
閱讀全文
摘要:
一、詞頻統計 A. 分步驟實現 1.準備文件 1.下載小說或長篇新聞稿 2.上傳到hdfs上 2.讀文件創建RDD 3、分詞 4、排除大小寫lower(),map() 標點符號re.split(pattern,str),flatMap(), 停用詞,stopwords.txt,filter(), 長
閱讀全文
摘要:
一、 RDD創建 1.從本地文件系統中加載數據創建RDD 2.從HDFS加載數據創建RDD 1.啟動hdfs 2.上傳、查看文件 3.加載 4.停止hdfs 3.通過并行集合(列表)創建RDD;輸入列表、字符串、numpy生成數組 。 二、 RDD操作 轉換操作 1.filter(func) 顯式定
閱讀全文
摘要:
1.Spark已打造出結構一體化、功能多樣化的大數據生態系統,請用圖文闡述Spark生態系統的組成及各組件的功能。 1. Spark CoreSpark Core是整個BDAS的核心組件,是一種大數據分布式處理框架,不僅實現了MapReduce的算子map函數和reduce函數及計算模型,還提供如f
閱讀全文
摘要:
1.列舉Hadoop生態的各個組件及其功能、以及各個組件之間的相互關系,以圖呈現并加以文字描述。 Hadoop生態圖: 1.HDFS 分布式文件系統 Hadoop分布式文件系統HDFS是針對谷歌分布式文件系統(Google File System,GFS)的開源實現,它是Hadoop兩大核心組成部分
閱讀全文