edX是麻省理工(MIT)和哈佛大學(Harvard)共同於2012年4月創建的開發在線課堂平台。用戶在平台可以免費獲取大學教育水平的在線課程,內容涵蓋計算機科學、數學和社會等各種領域。為了對edX平台及用戶使用情況進行研究,本文選取了《2012年edX平台上線後4年間290個在線課程和450萬參與者的數據》,使用Excel對平台數據進行分析。
一、數據分析步驟
針對本次分析梳理的具體步驟如下圖所示:
二、提出問題
1.最受歡迎的前十門課程和主題分別是什麼?
2.Harvard和MIT的課程誰更受歡迎?
3.課程的完成情況如何?效果如何?
4.edX的用戶在年齡、性別和學歷上的構成是怎樣的?
三、理解數據
(1)數據集:選擇的數據是edX在線課程數據,數據來源於阿里雲天池《2012年edX平台上線後4年間290個在線課程和450萬參與者的數據》,附上鏈接https://tianchi.aliyun.com
(2)數據集大小:數據集共包括290個在線課堂數據,23個欄位信息。
(3)數據集各個欄位的業務含義見下圖:
四、數據清洗
數據清洗的主要內容如下所示,按照步驟對已選取的數據集進行清洗。
1.選擇字集:將Year課程持續時間、Total course hours總課程時長小時數兩個對接下來分析沒有作用的欄位列隱藏,保留其他欄位名所在列。
2.列名重命名:將英文欄位名更改為中文,方便進行操作。
3.刪除重複值:經過查看發現,課程編號ID可作為唯一標識符,進行重複值的刪除;發現有102個重複值,但是經確認重複課程的講師或上線日期不同,故不算做重複課程,均予以保留。
4.缺失值處理:對各欄位數據量進行查看,發現講師欄位所在列存在一個缺失值。對該課程ID進行篩選查看,發現此課程在近三年均有開設,故推斷講師為David malan。
5.一致化處理:數據中無異常格式,無須做一致化處理。
6.數據排序:按學生數進行降序排序
7.異常值處理:數據中無異常值,不做異常值處理。
五、構建模型
(1)課程情況:對課程名稱、學生數進行透視分析,並進行條形圖構建。
由條形圖可以看出,Introduction to Computer Science是edX平台最受歡迎的課程,有69萬用戶曾參與過該課程的學習,用戶參與量遠超其他課程;另外,有關計算機科學的相關課程在受歡迎的課程中佔據前四,總計參與者達到135萬人以上,進一步說明計算機科學類課程受歡迎程度較高。
(2)主題情況:對課程主題、學生數進行透視分析,並進行環形圖構建。
結果顯示,edX平台共有四個類型的課程主題。四個主題用戶的參與度相對較為均勻,Computer Science主題課程的用戶參與度最高,佔比為34.32%,而Humanities, History, Design, Religion, and Education主題類課程的用戶參與度相對較低,佔比為18.48%。
分別對Harvard和MIT兩所機構與開設的課程主題進行透視,構建柱形圖如下:
由圖12可知, MIT開設的課程最多,共有161門,其中「科學、技術、工程和數學」類的課程最多,開設了83門;而Harvard共開設129門課程,其中「人文、歷史、設計、宗教和教育」類的課程最多,開設了80門。
進一步看各類課程學生數佔比,選擇MIT課程的人數最多,佔用戶總數的52.78%,高出Harvard用戶5.56個百分點;就具體課程主題來看,「科學、技術、工程和數學」是選擇MIT課程用戶最喜愛的,而「計算機科學」則是Harvard用戶最受歡迎的課程。
分別對「完成50%課程人數佔比」和「認證人數佔比」兩列欄位數據進行描述性統計分析,獲得結果如下。「完成50%課程人數佔比」在2.63%~83.96%之間浮動,均值為24.92%,中位數為20.43%,說明僅有少部分人能夠完成一半課程;「認證人數佔比」在0%~33.98%之間波動,均值為7.78%,中位數為5.95%,說明只有非常少的用戶能夠完成認證,大多數學習效果不佳。
4.Edx的用戶在年齡、性別和學歷上的構成是怎樣的?
(1)年齡構成:由「用戶年齡中位數」描述性統計結果可知,用戶年齡在22~53歲之間,均值為29.30歲,中位數為29歲,眾數為27歲。說明edX平台使用者以青年人群為主,用戶構成較為年輕化。
(2)性別分布:對兩所課程持有機構男女用戶人數佔比進行透視分析,並進行數據可視化如圖所示。edX總體用戶男女性別比為1:0.49,男性人數顯著高於女性;此外,選擇MIT課程的男性佔比平均值與女性佔比平均值佔比的差距更大,說明選擇MIT課程的男性用戶更多,平台可考慮提供一些女性用戶更感興趣的課程,以此來增加女性用戶的數量。
(3)學歷情況:對用戶學士學歷或以上佔比進行描述性分析,同時根據所屬機構進行透視,如圖所示。edX各課程用戶學士學歷或以上佔比在44.95%~98.11%之間浮動,佔比均值為72.08%,中位數為73.06%,眾數為64.59%,說明學士學歷或以上用戶占較大多數;另外,由圖可以看到,選擇Harvard課程的學士及以上學歷用戶平均值佔比更高,高出MIT用戶平均值佔比7.10個百分點。edX平台可以考慮保持或適當增加學士及以上人群的課程,同時推出適合學士學歷以下人群的課程,豐富該部分人群的課程選擇性,從而達到優化平台課程多樣性的目的。
六、結論及建議
1.edX在線課堂最受歡迎的課程主題為計算機科學,且在排名前十的課程中佔據前四,用戶量達到135萬人以上。平台可以在未來繼續提供更多的計算機科學相關課程,以滿足該部分人群的學習興趣。
2.edX在線課堂用戶相對更喜歡MIT提供的課程,選擇MIT課程的人數佔用戶總數的52.78%,高出Harvard用戶量5.56個百分點。就具體課程而言,MIT用戶最喜愛「科學、技術、工程和數學」類課程,Harvard用戶則最喜愛「計算機科學」類課程。課程持有機構可以根據自己的優勢課程主題相應調整對應的課程,從而體現各自的特色性。
3.參與課程學習的用戶最終能夠完成50%課程的人數不到三成,而最終獲得認證的不到10%,說明用戶課程完成度較低,效果不佳。針對該情況,平台可以考慮通過實際調研來確定具體原因,改善相關問題。
4.edX在線課程學員以青年人群為主,男性用戶佔比更多,且學士學歷或以上用戶占較大多數。針對這一用戶構成情況,平台可以在未來增加適合青年人群的課程,同時提供更多滿足女性、學士學歷以下人群學習需求的課程,豐富用戶學習的選擇性,優化平台課程多樣性。
推薦閱讀: