edX是麻省理工(MIT)和哈佛大學(Harvard)共同於2012年4月創建的開發在線課堂平台。用戶在平台可以免費獲取大學教育水平的在線課程,內容涵蓋計算機科學、數學和社會等各種領域。為了對edX平台及用戶使用情況進行研究,本文選取了《2012年edX平台上線後4年間290個在線課程和450萬參與者的數據》,使用Excel對平台數據進行分析。

一、數據分析步驟

針對本次分析梳理的具體步驟如下圖所示:

圖1 數據分析步驟

二、提出問題

1.最受歡迎的前十門課程和主題分別是什麼?

2.Harvard和MIT的課程誰更受歡迎?

3.課程的完成情況如何?效果如何?

4.edX的用戶在年齡、性別和學歷上的構成是怎樣的?

三、理解數據

(1)數據集:選擇的數據是edX在線課程數據,數據來源於阿里雲天池《2012年edX平台上線後4年間290個在線課程和450萬參與者的數據》,附上鏈接https://tianchi.aliyun.com

(2)數據集大小:數據集共包括290個在線課堂數據,23個欄位信息。

(3)數據集各個欄位的業務含義見下圖:

圖2 數據集個欄位含義

四、數據清洗

數據清洗的主要內容如下所示,按照步驟對已選取的數據集進行清洗。

圖3 數據清洗步驟

1.選擇字集:將Year課程持續時間、Total course hours總課程時長小時數兩個對接下來分析沒有作用的欄位列隱藏,保留其他欄位名所在列。

2.列名重命名:將英文欄位名更改為中文,方便進行操作。

圖4 欄位重命名

3.刪除重複值:經過查看發現,課程編號ID可作為唯一標識符,進行重複值的刪除;發現有102個重複值,但是經確認重複課程的講師或上線日期不同,故不算做重複課程,均予以保留。

圖5 刪除重複值

4.缺失值處理:對各欄位數據量進行查看,發現講師欄位所在列存在一個缺失值。對該課程ID進行篩選查看,發現此課程在近三年均有開設,故推斷講師為David malan。

圖6 缺失值處理

5.一致化處理:數據中無異常格式,無須做一致化處理。

6.數據排序:按學生數進行降序排序

圖7 數據排序

7.異常值處理:數據中無異常值,不做異常值處理。

五、構建模型

1.最受歡迎的前十門課程和主題分別是什麼?

(1)課程情況:對課程名稱、學生數進行透視分析,並進行條形圖構建。

圖8 課程情況數據透視
圖9 學生數排名前十的課程名稱

由條形圖可以看出,Introduction to Computer Science是edX平台最受歡迎的課程,有69萬用戶曾參與過該課程的學習,用戶參與量遠超其他課程;另外,有關計算機科學的相關課程在受歡迎的課程中佔據前四,總計參與者達到135萬人以上,進一步說明計算機科學類課程受歡迎程度較高。

(2)主題情況:對課程主題、學生數進行透視分析,並進行環形圖構建。

圖10 課程主題數據透視
圖11 課程主題分布

結果顯示,edX平台共有四個類型的課程主題。四個主題用戶的參與度相對較為均勻,Computer Science主題課程的用戶參與度最高,佔比為34.32%,而Humanities, History, Design, Religion, and Education主題類課程的用戶參與度相對較低,佔比為18.48%。

2.Harvard和MIT的課程誰更受歡迎?

分別對Harvard和MIT兩所機構與開設的課程主題進行透視,構建柱形圖如下:

圖12 Harvard和MIT兩所機構開設課程主題情況

由圖12可知, MIT開設的課程最多,共有161門,其中「科學、技術、工程和數學」類的課程最多,開設了83門;而Harvard共開設129門課程,其中「人文、歷史、設計、宗教和教育」類的課程最多,開設了80門。

圖13 Harvard和MIT兩所機構各課程主題用戶數量佔比

進一步看各類課程學生數佔比,選擇MIT課程的人數最多,佔用戶總數的52.78%,高出Harvard用戶5.56個百分點;就具體課程主題來看,「科學、技術、工程和數學」是選擇MIT課程用戶最喜愛的,而「計算機科學」則是Harvard用戶最受歡迎的課程。

3.課程的完成情況如何?效果如何?

分別對「完成50%課程人數佔比」和「認證人數佔比」兩列欄位數據進行描述性統計分析,獲得結果如下。「完成50%課程人數佔比」在2.63%~83.96%之間浮動,均值為24.92%,中位數為20.43%,說明僅有少部分人能夠完成一半課程;「認證人數佔比」在0%~33.98%之間波動,均值為7.78%,中位數為5.95%,說明只有非常少的用戶能夠完成認證,大多數學習效果不佳。

圖14 課程效果描述性分析

4.Edx的用戶在年齡、性別和學歷上的構成是怎樣的?

(1)年齡構成:由「用戶年齡中位數」描述性統計結果可知,用戶年齡在22~53歲之間,均值為29.30歲,中位數為29歲,眾數為27歲。說明edX平台使用者以青年人群為主,用戶構成較為年輕化。

圖15 用戶年齡描述性分析

(2)性別分布:對兩所課程持有機構男女用戶人數佔比進行透視分析,並進行數據可視化如圖所示。edX總體用戶男女性別比為1:0.49,男性人數顯著高於女性;此外,選擇MIT課程的男性佔比平均值與女性佔比平均值佔比的差距更大,說明選擇MIT課程的男性用戶更多,平台可考慮提供一些女性用戶更感興趣的課程,以此來增加女性用戶的數量。

圖16 用戶性別分布

(3)學歷情況:對用戶學士學歷或以上佔比進行描述性分析,同時根據所屬機構進行透視,如圖所示。edX各課程用戶學士學歷或以上佔比在44.95%~98.11%之間浮動,佔比均值為72.08%,中位數為73.06%,眾數為64.59%,說明學士學歷或以上用戶占較大多數;另外,由圖可以看到,選擇Harvard課程的學士及以上學歷用戶平均值佔比更高,高出MIT用戶平均值佔比7.10個百分點。edX平台可以考慮保持或適當增加學士及以上人群的課程,同時推出適合學士學歷以下人群的課程,豐富該部分人群的課程選擇性,從而達到優化平台課程多樣性的目的。

圖17 用戶學歷描述性分析
圖18 Harard和MIT用戶學士學歷及以上佔比情況

六、結論及建議

1.edX在線課堂最受歡迎的課程主題為計算機科學,且在排名前十的課程中佔據前四,用戶量達到135萬人以上。平台可以在未來繼續提供更多的計算機科學相關課程,以滿足該部分人群的學習興趣。

2.edX在線課堂用戶相對更喜歡MIT提供的課程,選擇MIT課程的人數佔用戶總數的52.78%,高出Harvard用戶量5.56個百分點。就具體課程而言,MIT用戶最喜愛「科學、技術、工程和數學」類課程,Harvard用戶則最喜愛「計算機科學」類課程。課程持有機構可以根據自己的優勢課程主題相應調整對應的課程,從而體現各自的特色性。

3.參與課程學習的用戶最終能夠完成50%課程的人數不到三成,而最終獲得認證的不到10%,說明用戶課程完成度較低,效果不佳。針對該情況,平台可以考慮通過實際調研來確定具體原因,改善相關問題。

4.edX在線課程學員以青年人群為主,男性用戶佔比更多,且學士學歷或以上用戶占較大多數。針對這一用戶構成情況,平台可以在未來增加適合青年人群的課程,同時提供更多滿足女性、學士學歷以下人群學習需求的課程,豐富用戶學習的選擇性,優化平台課程多樣性。

推薦閱讀:

相关文章