A+
A-
基于MOOC大数据的学习行为分析与预测

文/孙晶京 左海霞 李毅伟 张丛磊

随着信息技术和教育的深度融合,大规模开放在线课程(massive open online courses,简称MOOC)平台受到了教育界广泛关注并迅速发展了起来。鉴于MOOC平台学习方式的灵活性、优质教育资源的共享性、交流不受时空约束的友好性等优点,促使广大学习者开始接受在线教育并受益匪浅,从一定程度上弥补了传统教育的不足。然而,MOOC属于网络学习,在整个学习过程中没有传统教学中的组织者或监督者,学习者的注意力不易集中,容易产生学习拖延症,最终导致退课现象发生,据统计其退课率高达91%-93%( Yang, et al., 2013)。如此之高的退课率意味着大多数学习者无法完成完整知识的学习,浪费了个人宝贵的时间和精力,同时也意味着MOOC教育资源的极大浪费,其资源利用率极低,不利于MOOC的长远发展。因此,如何筛选潜在退课者这一研究课题成为当下教育研究的热点。

由于互联网和大数据技术的发展,学习者在MOOC平台上的所有学习行为活动被记录下来,这给识别潜在退课者的工作成为可能。另外通过对退课者个人记录数据的处理和分析,可以了解其对知识的掌握情况,进而系统给予潜在退课者适当的学习建议,以帮助其完成课程的学习。另外,通过对学习者学习行为数据的挖掘也可以帮助管理者完善MOOC教学平台,帮助知识传播者改进教学内容等。可见,对学习者学习行为特征的分析也显得非常重要。

一、研究现状

目前已有研究学者基于教育大数据在学习行为特征分析和退课行为预测方面进行了大量研究。卢晓航等(2017)提取了19个学习行为特征,使用支持向量机和长短记忆网络构建滑动窗口模型来动态预测学生的退课行为和退课点。郭文锋等(2017)采用logistic回归分析方法建模并预测了退课情况。孙霞等(2019)使用基于卷积神经网络的长短期记忆模型对退课进行了预测。付宇等(2021)提出了一种融合注意力机制的时序预测模型对学生退课行为进行了预测,结果表明模型在预测退课行为上实现了更好的效果。Feng等(2019)提出了Context-aware Feature Interaction Network(CFIN)的退课预测模型,实验表明,该模型有强大的预测能力。Gray等(2019)使用随机森林算法来预测用户的退课情况。

本文通过对学习者的学习行为数据进行挖掘分析,提取表征学习行为的特征指标,进而基于多种分类模型建立学习者退课的预测模型。

二、特征选择与分析

(一) 数据集介绍

本文实验所采用的数据集是学堂在线的公开数据集,也是文献[6]中使用数据集。该数据集包括4个文件,学习行为日志文件主要记录了用户名、课程名、会话ID、学习时间、学习对象ID以及学习活动,其中学习活动主要有视频相关操作情况、论坛讨论情况、作业完成情况和网页点击情况,本次实验中使用的训练集包括29165540条日志记录,共157943人次,测试集包括12944862条日志记录,共67699人次。学生退课文件仅记录了学生退课情况,0为未退课,1为退课,其中有171133条退课记录,54509条未退课记录,正负样本数存在不平衡性。用户文件记录了用户的基本信息,包括性别、教育程度和出生年月等,共9627148条用户信息,其中选课用户仅占到0.8%,为77083,且一半以上的用户存在退课行为。课程文件记录了课程的基本信息,包括课程开始和结束日期、课程类型和课程分类等,共收录6410门课程,其中仅有3.85%的课程有学习行为活动记录。

(二) 特征指标的构建

通过对数据集的初步分析,发现学习者的性别对退课率有一定影响,但有不少学习者缺少性别数据,因此性别未考虑做为特征指标。另外由于学科和课程性质的不同,学习者退课的情况差异也较大,通过统计分析,发现外语、数学、医药、计算机、经济、电子、艺术、工程和化学类退课率高达80%以上,而哲学类仅47%,其它学科退课率在70%-80%之间,因此在构建特征指标时要考虑学科和课程因素对退课率预测的影响。考虑到这一点,我们将学习者的学习活动通过比值来进行表征,以消除由于学科和课程差异引起对退课预测的影响。同时再结合实际教学经验,最终选择考虑以下9个特征指标,分别为作业回答活动率、作业回答正确率、视频相关活动率、其它问题活动率、论坛活动率、网页课件活动率、学习天数、观看视频率和总学习行为活动率。其中观看视频率是基于课程视频基数来计算的,但由于数据集未采集课程视频数,在这里用针对该课程学习者学习的最大视频数来代替课程视频数,总学习行为活动率同样基于课程来统计,将该课程学习者的最大总学习行为活动数作为总学习行为活动的基数。

(三) 特征指标的分析

为了进一步分析所构建特征指标的典型性,分别在退课和未退课情况下,基于整个数据集,针对每个特征指标计算了群体数量占比的变化情况,其结果如图1所示。其中群体数量占比等于选课记录数与退课(未退课)总记录数的比值。

从图中可以看出,单考虑作业回答活动记录时,未退课和退课情况下的群体占比还是有明显的差异。但不管是退课还是未退课情况下,被选课的作业回答活动数非常少,未退课中约70%,退课中约85%都没有作业回答活动记录,而真正有该项活动记录的占比不超过20%。从作业回答正确率来看,未退课和退课情况下的群体占比还是有明显的差异,退课中约80%作业正确率为0,而未退课中仅有40%作业正确率为0,而且不同正确率下退课群体数量占比明显低于未退课占比。从视频相关活动数比例来看,未退课和退课的差异并不是很大,这主要是因为视频相关活动数记录的是视频动作(比如视频播放、暂停、加载等)频次,而不是真正观看视频的个数。从其它问题活动数比例来看,未退课和退课的群体数量占比还是有一定差异,而从论坛活动数占比来看,两者没有差异,不管未退课还是退课,几乎大多数人不关注论坛板块。从网页课件活动数比例来看,两者的差异也不是很大。从观看视频数比例来看,未退课和退课的差异较大,退课者明显观看视频数低于未退课者。从学习天数来看,未退课和退课的差异很大,在一个35天的学习周期内,没有相关学习行为记录的有60%的可能性会退课,而未退课者学习天数明显高于退课者。从总学习行为活动率来看,两者之间也有一定的差异。总之,除了论坛活动外,其它学习行为活动记录与退课率之间都有一定的关系。因此,接下来的研究将基于剩下的8个特征指标建立退课预测模型。

三、退课行为的预测

(一) 模型评价指标

由于用于退课行为预测的数据集,正样本有171133,而负样本仅有54509,其正负样本数不平衡。因此,为了客观的评价所建模型性能,本文除了采用准确率、精准率和召回率外,还采用了接受者操作特征曲线下面积(area under the receiver operating characteristic,简称AUROC)、精准率召回率曲线下面积(area under the precise recall characteristic,简称AUPRC)和F1分数。F1分数是精准率和召回率的调和值,精准率和召回率接近时,F1值最大。F1分数、AUROC和AUPRC的值越大,模型分类性能越好。

(二) 退课预测模型的建立

根据对特征指标分析所得,8个特征指标与退课率之间的相关程度有较大差异。为了探讨8个特征指标在退课预测模型中的重要性,我们以逻辑回归做为建模算法,做了如下实验。首先采用单特征指标作为模型的输入,找出使得模型性能最好的特征指标,做为最优特征指标集,然后在最优特征指标集的基础上,每次加入一个新的特征指标建立新的预测模型,选出这些模型中的最优者,并将其对应的新特征指标加入最优特征指标集,重复以上操作直到所有的特征指标加入最优特征指标集。而各特征指标加入最优特征指标集的顺序,即为其重要性的顺序,最先加入的特征指标,其与预测模型的相关性越大。实验结果发现,学习天数的重要性最高,其次是作业回答正确率、观看视频数比例、视频相关活动数比例、其它问题活动数比例、总学习行为活动率、网页课件活动数比例,最后是作业回答活动数比例。该结果与第三节中特征指标的分析基本吻合,这表明采用比值来表征退课预测模型的特征指标是有效的。另外,不同特征指标的加入都能提高模型的预测性能,说明这些特征指标都有利于模型的预测。因此,以下模型的建立都是基于这8个特征指标做为模型的输入。

针对本文提出的特征指标,不仅采用上述逻辑回归算法进行建模,还采用了其它常见的分类模型(K近邻、支持向量机(support vector machine,简称SVM)、贝叶斯分类、决策树等)进行了模型建立,并对所建模型进行了比较分析,以其找到最佳的预测模型。其各模型预测结果如表1所示。

从表1可以看出,不同算法下的模型性能有较为明显的差异。综合来看,利用逻辑回归和SVM(线性核)建立的退课预测模型性能较好。采用SVM(径向基)建立的预测模型,虽然有最大的F1分数,但由于其分类阈值较大时,模型的精准率和召回率较低造成AUROC和AUPRC值变小,可见该模型在预测学习者是否会随着概率阈值的变化而退课方面做得不太好。将利用逻辑回归和SVM(线性核)建立的退课预测模型与文献(付宇, 等, 2021; Feng, et al., 2019)对比,发现当建模方法为逻辑回归时,本文所建模型均优于文献(付宇, 等, 2021; Feng, et al.,2019)所建立的模型;当建模方法为SVM时,本文所建模型优于文献(Feng, et al.,2019)所建立的模型,略低于文献(付宇, 等, 2021)所建立的模型。可见本文所建立的特征指标在预测退课方面表现较佳。

为了避免由于学科和课程差异对整体退课预测的影响,本文通过将学习者的各项学习行为活动进行比值处理后来构建预测退课的特征指标,实验结果表明该组特征指标非常有效,且在预测任务上表现较好的结果。其中,学习天数特征指标为所构建特征指标中最重要的指标,可为教育者及时发现潜在退课学习者提供简单的判别方法。但是本文仍有一些工作需要未来进行补充,比如本文的分类模型主要是建立在传统机器学习算法的基础上,未来可尝试从深度学习的方面进行建模。

作者单位:山西农业大学基础部