edX是麻省理工(MIT)和哈佛大学(Harvard)共同于2012年4月创建的开发在线课堂平台。用户在平台可以免费获取大学教育水平的在线课程,内容涵盖计算机科学、数学和社会等各种领域。为了对edX平台及用户使用情况进行研究,本文选取了《2012年edX平台上线后4年间290个在线课程和450万参与者的数据》,使用Excel对平台数据进行分析。

一、数据分析步骤

针对本次分析梳理的具体步骤如下图所示:

图1 数据分析步骤

二、提出问题

1.最受欢迎的前十门课程和主题分别是什么?

2.Harvard和MIT的课程谁更受欢迎?

3.课程的完成情况如何?效果如何?

4.edX的用户在年龄、性别和学历上的构成是怎样的?

三、理解数据

(1)数据集:选择的数据是edX在线课程数据,数据来源于阿里云天池《2012年edX平台上线后4年间290个在线课程和450万参与者的数据》,附上链接https://tianchi.aliyun.com

(2)数据集大小:数据集共包括290个在线课堂数据,23个栏位信息。

(3)数据集各个栏位的业务含义见下图:

图2 数据集个栏位含义

四、数据清洗

数据清洗的主要内容如下所示,按照步骤对已选取的数据集进行清洗。

图3 数据清洗步骤

1.选择字集:将Year课程持续时间、Total course hours总课程时长小时数两个对接下来分析没有作用的栏位列隐藏,保留其他栏位名所在列。

2.列名重命名:将英文栏位名更改为中文,方便进行操作。

图4 栏位重命名

3.删除重复值:经过查看发现,课程编号ID可作为唯一标识符,进行重复值的删除;发现有102个重复值,但是经确认重复课程的讲师或上线日期不同,故不算做重复课程,均予以保留。

图5 删除重复值

4.缺失值处理:对各栏位数据量进行查看,发现讲师栏位所在列存在一个缺失值。对该课程ID进行筛选查看,发现此课程在近三年均有开设,故推断讲师为David malan。

图6 缺失值处理

5.一致化处理:数据中无异常格式,无须做一致化处理。

6.数据排序:按学生数进行降序排序

图7 数据排序

7.异常值处理:数据中无异常值,不做异常值处理。

五、构建模型

1.最受欢迎的前十门课程和主题分别是什么?

(1)课程情况:对课程名称、学生数进行透视分析,并进行条形图构建。

图8 课程情况数据透视
图9 学生数排名前十的课程名称

由条形图可以看出,Introduction to Computer Science是edX平台最受欢迎的课程,有69万用户曾参与过该课程的学习,用户参与量远超其他课程;另外,有关计算机科学的相关课程在受欢迎的课程中占据前四,总计参与者达到135万人以上,进一步说明计算机科学类课程受欢迎程度较高。

(2)主题情况:对课程主题、学生数进行透视分析,并进行环形图构建。

图10 课程主题数据透视
图11 课程主题分布

结果显示,edX平台共有四个类型的课程主题。四个主题用户的参与度相对较为均匀,Computer Science主题课程的用户参与度最高,占比为34.32%,而Humanities, History, Design, Religion, and Education主题类课程的用户参与度相对较低,占比为18.48%。

2.Harvard和MIT的课程谁更受欢迎?

分别对Harvard和MIT两所机构与开设的课程主题进行透视,构建柱形图如下:

图12 Harvard和MIT两所机构开设课程主题情况

由图12可知, MIT开设的课程最多,共有161门,其中「科学、技术、工程和数学」类的课程最多,开设了83门;而Harvard共开设129门课程,其中「人文、历史、设计、宗教和教育」类的课程最多,开设了80门。

图13 Harvard和MIT两所机构各课程主题用户数量占比

进一步看各类课程学生数占比,选择MIT课程的人数最多,占用户总数的52.78%,高出Harvard用户5.56个百分点;就具体课程主题来看,「科学、技术、工程和数学」是选择MIT课程用户最喜爱的,而「计算机科学」则是Harvard用户最受欢迎的课程。

3.课程的完成情况如何?效果如何?

分别对「完成50%课程人数占比」和「认证人数占比」两列栏位数据进行描述性统计分析,获得结果如下。「完成50%课程人数占比」在2.63%~83.96%之间浮动,均值为24.92%,中位数为20.43%,说明仅有少部分人能够完成一半课程;「认证人数占比」在0%~33.98%之间波动,均值为7.78%,中位数为5.95%,说明只有非常少的用户能够完成认证,大多数学习效果不佳。

图14 课程效果描述性分析

4.Edx的用户在年龄、性别和学历上的构成是怎样的?

(1)年龄构成:由「用户年龄中位数」描述性统计结果可知,用户年龄在22~53岁之间,均值为29.30岁,中位数为29岁,众数为27岁。说明edX平台使用者以青年人群为主,用户构成较为年轻化。

图15 用户年龄描述性分析

(2)性别分布:对两所课程持有机构男女用户人数占比进行透视分析,并进行数据可视化如图所示。edX总体用户男女性别比为1:0.49,男性人数显著高于女性;此外,选择MIT课程的男性占比平均值与女性占比平均值占比的差距更大,说明选择MIT课程的男性用户更多,平台可考虑提供一些女性用户更感兴趣的课程,以此来增加女性用户的数量。

图16 用户性别分布

(3)学历情况:对用户学士学历或以上占比进行描述性分析,同时根据所属机构进行透视,如图所示。edX各课程用户学士学历或以上占比在44.95%~98.11%之间浮动,占比均值为72.08%,中位数为73.06%,众数为64.59%,说明学士学历或以上用户占较大多数;另外,由图可以看到,选择Harvard课程的学士及以上学历用户平均值占比更高,高出MIT用户平均值占比7.10个百分点。edX平台可以考虑保持或适当增加学士及以上人群的课程,同时推出适合学士学历以下人群的课程,丰富该部分人群的课程选择性,从而达到优化平台课程多样性的目的。

图17 用户学历描述性分析
图18 Harard和MIT用户学士学历及以上占比情况

六、结论及建议

1.edX在线课堂最受欢迎的课程主题为计算机科学,且在排名前十的课程中占据前四,用户量达到135万人以上。平台可以在未来继续提供更多的计算机科学相关课程,以满足该部分人群的学习兴趣。

2.edX在线课堂用户相对更喜欢MIT提供的课程,选择MIT课程的人数占用户总数的52.78%,高出Harvard用户量5.56个百分点。就具体课程而言,MIT用户最喜爱「科学、技术、工程和数学」类课程,Harvard用户则最喜爱「计算机科学」类课程。课程持有机构可以根据自己的优势课程主题相应调整对应的课程,从而体现各自的特色性。

3.参与课程学习的用户最终能够完成50%课程的人数不到三成,而最终获得认证的不到10%,说明用户课程完成度较低,效果不佳。针对该情况,平台可以考虑通过实际调研来确定具体原因,改善相关问题。

4.edX在线课程学员以青年人群为主,男性用户占比更多,且学士学历或以上用户占较大多数。针对这一用户构成情况,平台可以在未来增加适合青年人群的课程,同时提供更多满足女性、学士学历以下人群学习需求的课程,丰富用户学习的选择性,优化平台课程多样性。

推荐阅读:

相关文章