假期学习【四】RDD编程实验一

news/2024/7/7 20:28:57

1.今天把Spark编程第三个实验的Scala独立程序编程写完了。使用 sbt 打包 Scala 程序,然后提交到Spark运行。

 

2.完成了实验四的第一项

(1)该系总共有多少学生;
 

 

map(t => t.split(",")(0))表示:lines这个RDD中每个元素被split()函数拆分成3个字符串,保存到数组中,然后,把数组中的第1个元素(即学生名字字段的值)取出来放到新的RDD中。

distinct()表示:去重操作,即把重复的学生名字去掉,只保留一个。

count()表示:求去重后的学生总人数。 

(2)该系共开设来多少门课程;

 

 与第一问同理,只不过改为数组的第二个元素。

(3)Tom 同学的总成绩平均分是多少;

lines.filter(t => t.split(",")(0) == "Tom")表示:过滤掉数据集中第1个字段非“Tom”的名字,即只保留Tom的数据。

map(t => (t.split(",")(0), t.split(",")(2).toInt)) 表示:lines这个RDD中每个元素被split()函数拆分成3个字符串,保存到数组中,然后,把数组中的第1个元素和第3个元素取出来放到新的RDD中,.toInt的作用是把String类型的成绩值转变成Int类型,可以进行运算。

mapValues(x => (x,1))表示:构建(key, value)类型的键值对,其中,key表示Int类型的成绩,value表示数字"1"。

reduceByKey((x,y) => (x._1+y._1, x._2+y._2))表示:x._1+y._1表示把key(成绩)相加,x._2+y._2表示把value(数字“1”)相加。

mapValues(x => x._1/x._2)表示:总成绩/科目总数

values表示:返回value值(即平均成绩)。

(4)求每名同学的选修的课程门数;

数据大概如下,仅展示部分结果如图:

 

(5)该系 DataBase 课程共有多少人选修;

 

 

(6)各门课程的平均分是多少;

 

 

 

 

(7)使用累加器计算共有多少人选了 DataBase 这门课。 

 

 

 

 


http://www.niftyadmin.cn/n/2762488.html

相关文章

浅谈datagrid详细操作单元格样式

http://www.easyui.info/archives/470.html 今天有朋友问到:“如果设置列标题居中而列内容居右显示?”,仔细查了一下api,目前版本提供了两个相关的列属性,align和styler。align属性设置后会让列标题和列内容的对齐方式…

SAP S4 统计型成本要素

SAP 会计科目体系中把会计科目和成本要素统一到FS00中,那么在某种情况下用到的 90型成本要素,如何设置? 答案: (1) SAP只能对资产科目和物料科目可供设置成90型成本要素; 物料科目设置为90型成…

假期学习【五】RDD编程实验四

今天完成了实验四的第二问和第三问 第二题 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。输入文件 A 的…

microsoft office 2010 完全 卸载 工具 来自微软官方

来自微软自家的Office卸载工具,支持Office 2010卸载 。可以彻底解决Office卸载不了或卸载不干净的问题。下载地址: http://www.400gb.com/file/119385617 另有如下,在我的其它文章里。

加一度强烈推荐:信息流广告精准投放大杀器

最近,在信息流群中,经常看到有人抱怨说“信息流客户商品量大,每天光上创意就累死了,效果还不好优化,流量也明显偏低”。 所以,对此加一度向大家推荐一款信息流产品——闪投。不仅能解决人力成本高的问题&am…

SAP S4 实施 会计科目表的实施方法论

会计科目表是财务配置和开发的基础,会计科目表确定的越晚对项目的不利影响越大。 实施过程中,在系统配置前 就要完成会计科目表设计以及新旧系统的会计科目映射工作,后续新旧系统的会计科目表保持同步更新,这样才是一个正常的项目…

假期学习【六】Python网络爬虫2020.2.4

今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范。 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 #注释. *代表所有 /代表根目录 robots协议 http://www.baidu.com/robots.txt 百度 http…

HDU 1283 最简单的计算机

最简单的计算机 Problem Description 一个名叫是PigHeadThree的研究组织设计了一台实验用的计算机,命名为PpMm。PpMm只能执行简单的六种命令A,B,C,D,E,F;只有二个内存M1,M2&#xff…