摘要:
綜合練習(xí):學(xué)生課程分?jǐn)?shù) 網(wǎng)盤下載sc.txt文件,分別用RDD操作、DataFrame操作和spark.sql執(zhí)行SQL語句實現(xiàn)以下數(shù)據(jù)分析: 總共有多少學(xué)生? 總共開設(shè)了多少門課程? 每個學(xué)生選修了多少門課? 每門課程有多少個學(xué)生選? 每門課程>95分的學(xué)生人數(shù) 課程'Python'有多少個100
閱讀全文
摘要:
1.分析SparkSQL出現(xiàn)的原因,并簡述SparkSQL的起源與發(fā)展。 Spark SQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊,它提供了一個叫作Data Frame的編程抽象結(jié)構(gòu)數(shù)據(jù)模型(即帶有Schema信息的RDD),Spark SQL作為分布式SQL查詢引擎,讓用戶可以通過SQL、Dat
閱讀全文
摘要:
集合運算練習(xí) union(), intersection(),subtract(), cartesian() 三、學(xué)生課程分?jǐn)?shù) 網(wǎng)盤下載sc.txt文件,通過RDD操作實現(xiàn)以下數(shù)據(jù)分析: 持久化 scm.cache() 總共有多少學(xué)生?map(), distinct(), count() 開設(shè)了多少
閱讀全文
摘要:
1、詞頻統(tǒng)計 A. 分步驟實現(xiàn) 1.準(zhǔn)備文件 下載小說或長篇新聞稿 上傳到hdfs上 2.讀文件創(chuàng)建RDD 3.分詞 4.標(biāo)點符號[re.split(pattern,str),flatMap()] # 導(dǎo)入正則表達式re庫,使用re.split分詞 # 再次分詞,清楚去標(biāo)點符號后產(chǎn)生的無用數(shù)據(jù) 排除
閱讀全文
摘要:
1. RDD創(chuàng)建 從本地文件系統(tǒng)中加載數(shù)據(jù)創(chuàng)建RDD 圖1.1 查看文本信息 圖1.2 本地文件加載數(shù)據(jù) 從HDFS加載數(shù)據(jù)創(chuàng)建RDD # 啟動HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目錄 圖2.1 啟動HDFS # 上傳文件到HDFS hdfs
閱讀全文
摘要:
1.Spark已打造出結(jié)構(gòu)一體化、功能多樣化的大數(shù)據(jù)生態(tài)系統(tǒng),請用圖文闡述Spark生態(tài)系統(tǒng)的組成及各組件的功能。 1、Spark Core:Spark的核心組件,其操作的數(shù)據(jù)對象是RDD(彈性分布式數(shù)據(jù)集)可以簡單認(rèn)為Spark Core就是Spark生態(tài)系統(tǒng)中的離線計算框架。 2、 Spark
閱讀全文
摘要:
一、安裝Spark 檢查基礎(chǔ)環(huán)境hadoop,jdk 配置文件、 環(huán)境變量 #配置環(huán)境 vim /usr/local/spark/conf/spark-env.sh # 修改環(huán)境變量 vim ~/.bashrc # 生效 source ~/.bashrc 試運行python代碼 二、Python編程
閱讀全文
摘要:
1.列舉Hadoop生態(tài)的各個組件及其功能、以及各個組件之間的相互關(guān)系,以圖呈現(xiàn)并加以文字描述。 生態(tài)系統(tǒng)是一個由許多組件組成的生態(tài)鏈,只有持續(xù)開發(fā),Hadoop生態(tài)系統(tǒng)才能不斷成熟,現(xiàn)在有多個子項目,核心HDFS和MapReduce,以及Hadoop生態(tài)系統(tǒng)、zoopker、hbae、hive、p
閱讀全文