欧美日韩亚洲一区二区精品_亚洲无码a∨在线视频_国产成人自产拍免费视频_日本a在线免费观看_亚洲国产综合专区在线电影_丰满熟妇人妻无码区_免费无码又爽又刺激又高潮的视频_亚洲一区区
公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析

【摘要】本文通過(guò)挖掘慕課數(shù)據(jù)來(lái)研究學(xué)習(xí)者對(duì)課程需求的特征。首先構(gòu)建了非線性回歸的學(xué)習(xí)人數(shù)預(yù)測(cè)模型和基于隨機(jī)森林的學(xué)習(xí)人數(shù)分類模型,得到開課時(shí)間、課程類別、開課學(xué)校這三個(gè)變量對(duì)學(xué)習(xí)人數(shù)有影響。然后用TF-IDF提取關(guān)鍵詞并進(jìn)行可視化以及基于Gibbs抽樣建立主題個(gè)數(shù)為9的LDA主題模型,發(fā)現(xiàn)學(xué)習(xí)者對(duì)高等數(shù)學(xué)這門課的講解思路、習(xí)題答疑、課程內(nèi)容以及開課學(xué)校都有較強(qiáng)的關(guān)注點(diǎn)。

【關(guān)鍵詞】非線性回歸;隨機(jī)森林;課程特征;可視化;LDA主題模型

1引言

現(xiàn)階段國(guó)內(nèi)有許多提供慕課學(xué)習(xí)資源的平臺(tái),如中國(guó)大學(xué)MOOC、智慧樹等,覆蓋大部分學(xué)科,且資源充足,授課形式各式各樣。但是海量的慕課資源也帶來(lái)一定的問(wèn)題,如慕課質(zhì)量參差不齊,這給慕課學(xué)習(xí)者在選擇課程時(shí)帶來(lái)一定的困擾,并且造成資源的浪費(fèi)。因此,如何制作出高質(zhì)量且能滿足絕大部分學(xué)習(xí)者需求的慕課成為一大重點(diǎn),本文將從數(shù)據(jù)挖掘角度去建立學(xué)習(xí)人數(shù)預(yù)測(cè)模型以及分類模型,推斷影響學(xué)習(xí)者選擇的課程特征;并對(duì)評(píng)論進(jìn)行文本挖掘來(lái)研究學(xué)習(xí)者所期望的課程特征。

2數(shù)據(jù)采集與預(yù)處理

本文用Python工具爬取中國(guó)大學(xué)MOOC平臺(tái)的十五類課程數(shù)據(jù),每類課程數(shù)據(jù)包括學(xué)習(xí)人數(shù)、開課時(shí)間、學(xué)時(shí)安排、開課學(xué)校以及課程評(píng)論五個(gè)變量。然后清洗數(shù)據(jù),剔除異常值。接著對(duì)變量進(jìn)行賦值,定義學(xué)習(xí)人數(shù)為因變量y,課程類別為自變量x1,開課時(shí)間為自變量x2,學(xué)時(shí)安排為自變量x3,開課學(xué)校為自變量x4。將所有課程匯總為86種搭配,對(duì)每一種搭配的學(xué)習(xí)人數(shù)取均值,來(lái)反映某一特征課程的受歡迎程度。

3學(xué)習(xí)人數(shù)預(yù)測(cè)模型與分類模型

3.1預(yù)測(cè)模型的建立——多元回歸模型

將預(yù)處理后的數(shù)據(jù)隨機(jī)拆分為75%的訓(xùn)練集和25%的測(cè)試集,然后對(duì)訓(xùn)練集分別建立線性回歸模型與非線性回歸模型,并對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。首先,通過(guò)參數(shù)檢驗(yàn)剔除不顯著變量后,最終擬合的線性回歸方程為:y=597.10χ1+596.56χ4此時(shí)模型相對(duì)誤差較大,擬合效果較差,接下來(lái)通過(guò)非線性對(duì)回歸模型做進(jìn)一步改進(jìn)。分別擬合y對(duì)每個(gè)自變量的單因素最佳一元非線性回歸模型,得到最終擬合的非線性回歸模型的方程:y=326.28χ1-8493.14χ2+1951.45χ22+2142.69χ4+2968.25e1/χ4將兩個(gè)模型的擬合結(jié)果、預(yù)測(cè)結(jié)果以及顯著性檢驗(yàn)情況進(jìn)行對(duì)比,根據(jù)擬合模型的R2a以及預(yù)測(cè)結(jié)果的RRMSE,認(rèn)為非線性回歸模型優(yōu)于線性回歸模型。

3.2分類模型的建立——支持向量機(jī)與隨機(jī)森林

對(duì)某一類型的課程學(xué)習(xí)人數(shù)取均值,均值小于等于3000的課程賦值為0,均值大于3000的課程賦值為1,然后將數(shù)據(jù)集按照7:3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集。利用RBF核函數(shù)建立支持向量機(jī)模型,并假設(shè)RBF核函數(shù)的模型參數(shù)cost=100,gamma=1,得到的模型分類效果,效果較為一般。為改進(jìn)支持向量機(jī)模型的不足,使用默認(rèn)參數(shù)建立隨機(jī)森林模型。準(zhǔn)確率結(jié)果可以看出,隨機(jī)森林模型(準(zhǔn)確率76.92%)比支持向量機(jī)模型(準(zhǔn)確率69.23%)的分類模型效果更好,且從準(zhǔn)確率和特異性的角度分析發(fā)現(xiàn),開課時(shí)間和課程類別這兩個(gè)特征相對(duì)較為重要。

4課程評(píng)論的文本挖掘

4.1特征選擇與可視化

以高等數(shù)學(xué)課程評(píng)論為對(duì)象,利用ROSTCM軟件做初步處理,刪除重復(fù)評(píng)論、空行、英文字符。然后用R的tm包對(duì)初步處理后的評(píng)論中文分詞和去除停用詞。對(duì)預(yù)處理后的評(píng)論建立語(yǔ)料庫(kù),約束每個(gè)詞最少2個(gè)字符,生成TF-IDF權(quán)重矩陣,并調(diào)整稀疏性,然后將同一個(gè)詞的權(quán)重值相加,并用詞云圖進(jìn)行可視化,結(jié)果發(fā)現(xiàn)該門課程學(xué)生關(guān)注的焦點(diǎn),“內(nèi)容”、“清晰”、“講解”,“詳細(xì)”“知識(shí)”等詞匯突出,權(quán)重值較大,說(shuō)明學(xué)生對(duì)課程內(nèi)容的安排以及老師講課的思路重視程度大。對(duì)評(píng)論進(jìn)行情感分析,對(duì)情感分析的好評(píng)提取關(guān)鍵詞,其中“思路”、“時(shí)間”、“細(xì)致”、“全面”這幾個(gè)詞的權(quán)重大,說(shuō)明該門課程的時(shí)長(zhǎng)、內(nèi)容安排比較合理。對(duì)情感分析的差評(píng)提取關(guān)鍵詞,其中“在念”、“解析”、“考試”、“作業(yè)”、“口音”等詞權(quán)重大,說(shuō)明有些課程尚存在講解者口音重、念ppt以及考試題目安排難度不合理的現(xiàn)象。

4.2基于Gibbs抽樣的文本主題建模

設(shè)定主題先驗(yàn)參數(shù)α=0.1,β=0.1,主題數(shù)K的范圍為3到30,基于Gibbs抽樣算法,使用最大似然估計(jì)得到最優(yōu)主題個(gè)數(shù)為9個(gè)。根據(jù)詞語(yǔ)在不同主題上的最大概率分布,將模型生成的九個(gè)主題中的前五個(gè)高頻詞取出,結(jié)果說(shuō)明主題一、二、五、六、七、九能反映學(xué)習(xí)者在慕課學(xué)習(xí)過(guò)程中的關(guān)注點(diǎn),主要有以下四點(diǎn):(1)授課老師的講解思路;(2)習(xí)題的講解;(3)課程內(nèi)容的合理安排;(4)開課的學(xué)校。

5結(jié)語(yǔ)

非線性回歸預(yù)測(cè)模型得到開課時(shí)間、課程類別以及開課學(xué)校對(duì)學(xué)習(xí)人數(shù)有顯著影響,并且寒假期間開課的課程學(xué)習(xí)人數(shù)最少,所以平臺(tái)可以在暑假時(shí)多推出新課程。分類模型的分類結(jié)果顯示,文學(xué)文化、計(jì)算機(jī)以及理學(xué)類的學(xué)習(xí)人數(shù)相對(duì)較多,這與當(dāng)今時(shí)代的行業(yè)潮流發(fā)展有莫大關(guān)系,所以課程的數(shù)量比要跟時(shí)代相結(jié)合。對(duì)于高等數(shù)學(xué)這門課的慕課,學(xué)習(xí)者對(duì)課程的內(nèi)容設(shè)置、授課老師的思路以及開課學(xué)校這四個(gè)方面關(guān)注點(diǎn)高,建議平臺(tái)設(shè)置階梯式課程以適應(yīng)不同水平的學(xué)習(xí)者。

【參考文獻(xiàn)】

[1]王江榮,文暉.基于多元非線性回歸理論的坦克蓄電池剩余容量非線性回歸預(yù)測(cè)研究[J].電氣自動(dòng)化,2015,37(06):109-110,113.

[2]于韜,王洪巖.基于TF-IDF算法的文本信息提取[J].科技視界,2018(16):117-11.

作者:林媛 葉幸 郭桂璇 肖莉 周燕 單位:華南農(nóng)業(yè)大學(xué)

鄂伦春自治旗| 道孚县| 汝阳县| 江陵县| 双鸭山市| 塔城市| 涿州市| 广南县| 涿州市| 泌阳县| 安吉县| 德惠市| 韶山市| 铅山县| 东港市| 丹棱县| 灌云县| 兴隆县| 象山县| 新津县| 西乌| 运城市| 尤溪县| 龙游县| 庆城县| 行唐县| 襄城县| 黑山县| 大足县| 东兴市| 廉江市| 沙田区| 贺州市| 新蔡县| 廊坊市| 黄梅县| 富蕴县| 高邑县| 常州市| 顺平县| 胶南市|