8. SparkSQL綜合作業
綜合練習:學生課程分數
網盤下載sc.txt文件,分別用RDD操作、DataFrame操作和spark.sql執行SQL語句實現以下數據分析:
-
總共有多少學生?
-
總共開設了多少門課程?
-
每個學生選修了多少門課?
-
每門課程有多少個學生選?
- 每門課程>95分的學生人數
-
課程'Python'有多少個100分?
-
Tom不及格的課程數?
-
Tom的成績按分數大小排序。
-
Tom選修了哪幾門課?
-
Tom的平均分。
-
'OperatingSystem'不及格人數
-
'OperatingSystem'平均分
-
'OperatingSystem'90分以上人數
-
'OperatingSystem'前3名
-
每個分數按比例+20平時分。
-
求每門課的平均分
-
選修了7門課的有多少個學生?
-
每門課大于95分的學生數
- 每門課的選修人數、平均分、不及格人數、通過率
- 優秀、良好、通過和不合格各有多少人?
- 同時選修了DataStructure和 DataBase 的學生
- 選修了DataStructure 但沒有選修 DataBase 的學生
- 選修課程數少于3門的同學
- 選修6門及以上課程數的同學
- 查詢平均成績大于等于60分的姓名和平均成績
- 找出平均分最高的10位同學
選做:對數據分析結果進行可視化
選擇幾個有作圖意義的問題,將結果轉換為Pandas,進行可視化
資源鏈接:https://pan.baidu.com/s/1Hc9SxMLcsP9HVQLZ7eSVYA 提取碼:tefr
此作業需按要求與模板完成文檔提交。
浙公網安備 33010602011771號