黑森林福利视频导航,亚洲制服丝袜无码 ,国产AV影片麻豆精品传媒

8. SparkSQL綜合作業(yè)

摘要：綜合練習(xí)：學(xué)生課程分?jǐn)?shù) 網(wǎng)盤下載sc.txt文件，分別用RDD操作、DataFrame操作和spark.sql執(zhí)行SQL語句實現(xiàn)以下數(shù)據(jù)分析: 總共有多少學(xué)生？總共開設(shè)了多少門課程？每個學(xué)生選修了多少門課？每門課程有多少個學(xué)生選？每門課程>95分的學(xué)生人數(shù) 課程'Python'有多少個100 閱讀全文

posted @ 2022-05-27 10:36 樹亭閱讀(52) 評論(2) 推薦(0)

7.Spark SQL

摘要： 1.分析SparkSQL出現(xiàn)的原因，并簡述SparkSQL的起源與發(fā)展。 Spark SQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊，它提供了一個叫作Data Frame的編程抽象結(jié)構(gòu)數(shù)據(jù)模型(即帶有Schema信息的RDD)，Spark SQL作為分布式SQL查詢引擎，讓用戶可以通過SQL、Dat 閱讀全文

posted @ 2022-05-10 18:29 樹亭閱讀(137) 評論(0) 推薦(0)

6. RDD綜合練習(xí)：更豐富的操作

摘要：集合運算練習(xí) union()， intersection()，subtract(), cartesian() 三、學(xué)生課程分?jǐn)?shù) 網(wǎng)盤下載sc.txt文件，通過RDD操作實現(xiàn)以下數(shù)據(jù)分析: 持久化 scm.cache() 總共有多少學(xué)生？map(), distinct(), count() 開設(shè)了多少閱讀全文

posted @ 2022-04-19 23:22 樹亭閱讀(45) 評論(0) 推薦(0)

5.RDD操作綜合實例

摘要： 1、詞頻統(tǒng)計 A. 分步驟實現(xiàn) 1.準(zhǔn)備文件下載小說或長篇新聞稿上傳到hdfs上 2.讀文件創(chuàng)建RDD 3.分詞 4.標(biāo)點符號[re.split(pattern,str),flatMap()] # 導(dǎo)入正則表達式re庫，使用re.split分詞 # 再次分詞，清楚去標(biāo)點符號后產(chǎn)生的無用數(shù)據(jù) 排除閱讀全文

posted @ 2022-04-02 14:33 樹亭閱讀(109) 評論(0) 推薦(0)

4.RDD操作

摘要： 1. RDD創(chuàng)建從本地文件系統(tǒng)中加載數(shù)據(jù)創(chuàng)建RDD 圖1.1 查看文本信息圖1.2 本地文件加載數(shù)據(jù) 從HDFS加載數(shù)據(jù)創(chuàng)建RDD # 啟動HDFS start-all.sh # 查看HDFS文件 hdfs dfs -ls 查看的文件目錄圖2.1 啟動HDFS # 上傳文件到HDFS hdfs 閱讀全文

posted @ 2022-03-18 19:16 樹亭閱讀(36) 評論(0) 推薦(0)

3.Spark設(shè)計與運行原理，基本操作

摘要： 1.Spark已打造出結(jié)構(gòu)一體化、功能多樣化的大數(shù)據(jù)生態(tài)系統(tǒng)，請用圖文闡述Spark生態(tài)系統(tǒng)的組成及各組件的功能。 1、Spark Core：Spark的核心組件，其操作的數(shù)據(jù)對象是RDD（彈性分布式數(shù)據(jù)集）可以簡單認(rèn)為Spark Core就是Spark生態(tài)系統(tǒng)中的離線計算框架。 2、 Spark 閱讀全文

posted @ 2022-03-09 14:59 樹亭閱讀(141) 評論(0) 推薦(0)

2.安裝Spark與Python練習(xí)

摘要：一、安裝Spark 檢查基礎(chǔ)環(huán)境hadoop,jdk 配置文件、環(huán)境變量 #配置環(huán)境 vim /usr/local/spark/conf/spark-env.sh # 修改環(huán)境變量 vim ~/.bashrc # 生效 source ~/.bashrc 試運行python代碼二、Python編程閱讀全文

posted @ 2022-03-06 16:12 樹亭閱讀(40) 評論(0) 推薦(1)

1.大數(shù)據(jù)概述

摘要： 1.列舉Hadoop生態(tài)的各個組件及其功能、以及各個組件之間的相互關(guān)系，以圖呈現(xiàn)并加以文字描述。生態(tài)系統(tǒng)是一個由許多組件組成的生態(tài)鏈，只有持續(xù)開發(fā)，Hadoop生態(tài)系統(tǒng)才能不斷成熟，現(xiàn)在有多個子項目，核心HDFS和MapReduce，以及Hadoop生態(tài)系統(tǒng)、zoopker、hbae、hive、p 閱讀全文

posted @ 2022-02-23 13:45 樹亭閱讀(48) 評論(0) 推薦(0)

劉淑婷