科研简报
“人工智能在教育测评领域的发展” 分论坛综述
作者:刘舒畅 发布时间:2019-01-17
摘要:

2018年11月25-26日,由北京大学中国教育财政科学研究所和中国教育发展战略学会教育财政专业委员会联合主办,南京师范大学江苏省教育财政科学研究所、南京师范大学教师教育学院承办的“第四届中国教育财政学术研讨会暨2018年中国教育发展战略学会教育财政专业委员会年会”在南京师范大学举办。在25日上午举行的“人工智能在教育测评领域的发展”专题论坛上,相关领域的研究者展示了近期研究成果,并就相关问题进行了讨论。

  人工智能的发展给教育测评领域带来了具有深远意义的变革。在教育测评中应用人工智能技术,不仅能够有效地降低施测成本、提高测量效率,而且可以更精确地测量易受表面效度影响的特质(如态度、情感)。量级大、增长速度快、存在形式丰富、蕴含高信息量的数据,能够支持研究者突破原有的测评方式,进行更多维、更客观的测评。

  2018年11月25-26日,由北京大学中国教育财政科学研究所和中国教育发展战略学会教育财政专业委员会联合主办,南京师范大学江苏省教育财政科学研究所、南京师范大学教师教育学院承办的“第四届中国教育财政学术研讨会暨2018年中国教育发展战略学会教育财政专业委员会年会”在南京师范大学举办。在25日上午举行的“人工智能在教育测评领域的发展”专题论坛上,相关领域的研究者展示了近期研究成果,并就相关问题进行了讨论。该专题论坛由北京大学中国教育财政科学研究所副研究员黄晓婷主持,主要内容包括以下四个方面。

  一、教育测评人工智能框架的逻辑支撑

  香港考试及评核局评核科技及研究总监罗冠中教授从宏观角度分析了教育测评的人工智能框架和它背后的逻辑支撑。罗教授认为目前教育测评中的人工智能应用尚处于初级阶段,主要体现在数据处理、图像识别以及音频识别三方面。在数据处理方面,人工智能可以实现电子评卷、报告反馈自动生成、计算机化自适应测试、在线诊断性测验;在图像识别方面,人工智能可将学生考卷进行图像识别并转换为电子文本,以及实现考场监控,预防考生作弊;在音频识别方面,人工智能可以协助实施语言科目测试。

  罗教授认为未来教育测评中的人工智能框架应该包含识别功能、学习功能和思辨功能。识别功能指人工智能通过树形逻辑、网型逻辑以及区块链逻辑实现对不同特性的识别;学习功能指人工智能可以依据类人的学习逻辑对知识、行为、思维等进行学习;思辨功能是人工智能最为复杂的一项功能,大概含义为在收集信息的基础上,依据参照标准得出结论。

  二、生物数据模型在测评中的应用

  传统的评价模型主要基于学生的行为数据,评价结果的客观性易受到主观因素的影响,而生物数据能够更加真实地反映学生的认知与非认知能力。重庆市教育评估研究会龚春燕会长介绍了重庆市基于学生生物数据的质量评价模型研究。

  重庆市从学生的生物数据和行为数据两方面出发对教育质量进行监测,具体做法是:在试点学校建立实验室、为学生佩戴生物信号传感器以收集生物数据、通过标准化流程收集行为数据、建立数据分析及报告生成系统、对数据进行统计分析并自动生成报告。龚会长认为未来教育评估依赖行为数据和生物数据的有机统一,对于数据革新评估而言,数据是战术,经验是战略,而科学智能的统计模型是评估的生产力。

  三、机器学习在测评中的应用

  人工智能中的机器学习领域主要是让机器从输入数据中获得知识,进而自动帮人类完成解释、预测等任务。北京大学中国教育财政科学研究所赵帅博士后尝试运用机器学习的方法对认知诊断测验试题的认知属性进行自动标记,提升属性标记效率,从而推动认知诊断的广泛应用。

  赵博士的研究首先采用传统机器学习法来对试题属性进行标记,主要分三步:(1)通过混合n-grams模型从试题文本中提取特征,并利用信息增益进行关键特征筛选;(2)基于关键特征利用bag-of-n-grams模型对试题进行量化;(3)分别使用逻辑回归、支持向量机、高斯朴素贝叶斯算法完成属性标记规则的学习及对新题的自动标记。实验结果表明,当使用unigram+bigram+trigram进行特征选取、利用高斯朴素贝叶斯进行试题标记时效果最好,标记准确率为85.2%,F1指标为85.6%。

  赵博士之后还报告了通过深度学习来标记试题属性的方法,主要分两步:首先利用词嵌入向量对试题进行量化,之后分别采用长短时记忆网络、双向长短时记忆网络学习标记规则并完成新题的自动标记。实验结果表明,相比于长短时记忆网络,双向长短时记忆网络的试题标记表现更好,得出的准确率和F1分别为75.8%和78.0%。

  四、情感分析法在测评中的应用

  自然语言处理中的情感分析能够量化文本中表达的情感,因此能为其余领域的分析提供良好基础。北京大学教育学院硕士研究生卢可伦运用情感分析法,对北京市教育均衡化改革是否提高了民众对小学满意度这一问题展开探讨。

  该研究首先爬取了“家长帮”论坛在2010-2017年中家长关于北京市小学的36万条评论数据,接着通过情感分析法计算了评论中的情感得分,之后分析了北京市小学在教育均衡化改革前后的家长态度变化,从而为衡量本次改革是否切实提高了人民群众对小学的满意度提供了依据。结果表明,改革后学校教学水平和生源素质发生进步和退步的比例大体相似,但是发生退步的学校稍多。进一步将学校分为接受帮扶学校以及实施帮扶学校后,研究发现改革在生源层面以及教学水平层面都造成了一定程度上的“削峰填谷”,即改革一方面使优质教育资源发生稀释,实施帮扶的学校存在较高比例的退步,另一方面接受帮扶的学校进步的比例又十分有限。研究的总体结论为:在改革的过程中,公平不是削峰填谷的低位均衡,而是促进实施帮扶学校和接受帮扶的学校共同提升的过程。如果薄弱学校的改进是建立在优势学校被削弱的基础上,那么此次改革就是一个只具备均衡化外形的改革。

  五、人工智能在教育测评中应用的未来方向

  浙江省教育厅教研室张丰副主任、《北京大学教育评论》编辑部范皑皑副主任就上述主题发言进行了点评。张丰副主任认为人工智能的时代已经到来,人工智能与教育测评的融合是为了更好地促进学生学习,但是当前人工智能在教育中的应用是比较低端的,人工智能对教育的意义应该在更有价值的方向起作用。具体来说,人工智能一方面要在促进学生个别化学习中发挥作用,另一方面要在开放题评价、实践能力评价上寻求突破。范皑皑副主任认为使用情感分析法对家长满意度进行测评时应考虑样本偏差问题,同时也应考虑文本情感与实际情感间的差异。范主任还建议,在对教学水平进行评估时应将教师与学生间交流,对学生的关注、鼓励等纳入到模型中进行标记与识别。