北京大学中国教育财政科学研究所

出版物

科研简报

依然在路上：教学人工智能的发展与局限

作者：赵帅黄晓婷发布时间：2020-05-14

摘要：

作为教育人工智能的核心，教学人工智能对于提升教学质量有十分积极的意义。了解教学中人工智能技术的运用现状有助于理解这一领域的潜力及局限，但目前少有分析。本文将教学人工智能归为四类：行为探测、学习模型、预测模型及智能测评。行为探测利用计算机视觉、机器学习等技术预测学生的专注度，但由于准确率、成本等问题，这类研究多在实验阶段。预测模型通过构建机器学习模型预测学习效果，这类研究在MOOC中有少量应用。学习模型综合利用自然语言处理、机器人学等技术引导学生进行自适应学习，主要面临分析模式有限、学科分布不均等问题。智能测评主要涉及机器命题、自动评分，机器命题目前仍依赖命题专家与计算机协作，自动评分则主要局限于英文。本文认为，教学人工智能距离全面、成熟的应用还有不小的距离。因此政府或可成立权威的第三方评估机构，对市场上的智能教学产品去伪存真。

　　一、引言

　　人工智能（Artificial Intelligence，简称AI）的概念诞生于1956年在美国召开的达特茅斯会议，其定义为：让机器的行为看起来像人所表现出的智能行为。迄今为止，人工智能的发展主要经历了三次高峰、两次低谷[1- 2]。

　　1956-1974年间，人工智能迎来了第一个发展高峰，主要成就是解决了一些数学、几何问题，但由于能够处理的问题复杂程度有限，因此经历了1974-1980年间的低谷。专家系统的崛起使人工智能在1980-1987年间迎来第二个发展高峰，然而当时的专家系统通用性较差、维护成本高，受限于此，人工智能又经历了1987-1993年间的发展低谷。1993年至今是人工智能发展的第三个高峰，主要推动力是算力强大的计算机、能够构建深层智能的数学模型及大数据。概括来讲，现代人工智能是计算机基于机器学习从大数据中学来的。例如，翻译人工智能源于中英文对照大数据；围棋人工智能AlphaGo则由围棋对局大数据中得来。

　　教育人工智能（AI in education）是学习科学与人工智能相结合而形成的新兴研究领域[3- 4]，宏观上可以分为教学人工智能、教育管理人工智能两个方向。教学人工智能侧重于利用人工智能技术支持教师设计教学策略、实现精准化教学，帮助学生规划学习路径、推荐学习资源、提升学习效果等。教育管理人工智能主要依赖人工智能技术提供决策支持服务，如合理调配教育资源、建立有效的教育管理制度等。相比于教育管理人工智能，教学人工智能在提升教育质量方面发挥的作用更为直接，也更为核心。

　　教学人工智能研究的现状如何？具体来说，这些研究可分为几类？各类研究使用了哪些人工智能技术，当前进展如何，面临哪些挑战？未来可能有哪些研究热点？回答这些问题能为政府出台教育人工智能相关政策提供依据，推动人工智能更好地服务于教学，但现有研究少有回应。鉴于此，本文将对教学领域的人工智能技术运用进行系统分析。

　　二、现代人工智能研究体系

　　现代人工智能研究体系主要包含计算机视觉、自然语言处理、机器人学、机器学习、认知与推理、博弈与伦理六个活跃的领域[1]。

　　计算机视觉的工作主要是从图像、视频等数据源中提取特征，进而完成物体的检测、识别、描述等任务，具体研究主题包括图像识别[5]、图像语义分割[6]等。

　　自然语言处理关注人类自然语言与计算机之间进行通信的理论与方法，涉及很多具体研究方向，例如，语音识别旨在将人类的语音内容转化成文本，可用于构建机器翻译系统[7]；文本分类的目的是将文档自动归类到与之匹配的一个或几个类别中，广泛应用于情感分析[8]等多种场景。

　　机器人学注重机械工程学、电子工程学、计算机科学等学科的跨学科研究，用于制造取代人力的自动化机器。如今，机器人技术已广泛应用于包括教育[9]、工业[10]、医疗[11]在内的诸多领域。

　　机器学习是专注于方法论的领域，目标是让机器从数据中获得知识，进而自动完成解释、预测等任务。机器学习可分为有监督、无监督、半监督机器学习，三者的关系如图1所示。

　　图1 机器学习的三种类别

　　有监督机器学习的输入为已打好标签的数据，旨在学习数据与标签间的对应规则，典型应用为分类、预测，常用模型包括K近邻、支持向量机等；无监督机器学习的输入为无标记数据，用于分析数据子集间的结构性异同，典型应用为聚类，常用模型包括K-means、层次聚类等；半监督机器学习介于有监督、无监督机器学习之间，输入中既有标记数据，又有无标记数据，典型应用为在标记数据有限的条件下，通过同时分析无标记数据提升任务的学习表现。最近，机器学习中进展迅速的子领域为深度学习，代表模型有卷积神经网络[12]、循环神经网络[13]，它们在计算机视觉[14]、自然语言处理[15]等领域被广为应用。

　　认知与推理指人工智能感知外界及根据前提推出结论的过程，具体研究方向包括认知神经学[16]、环境条件推理[17]等。

　　博弈与伦理主要研究与人工智能技术相关的伦理道德问题，如人工智能的道德责任承担[18]、对人工智能武器的研发及使用监管[19]等。

　　人工智能与教育领域关系密切。有关教育人工智能的研究，国外起步较早，如1970年，卡波纳（J. R. Carbonell）即开发了SCHOLAR系统[20]，该系统能基于存储的地理知识与学生进行问答式对话。在英文文献中，不管讨论人工智能技术在教育领域的主要应用形式与方法[21-23]，还是其现实意义及未来展望[24- 25]，都将重点锁定在教学环节，即利用人工智能支持教师设计教学策略、帮助学生规划学习路径、推荐学习资源等，以提升教学效果。国内的教育人工智能研究起步较晚，典型应用如张景中等设计的“Z+Z智能教育平台”[26]。多数中文文献在论述教育人工智能时，其重点同样是教学人工智能[27-31]，但也有文献提及教育管理人工智能，如吴永和等介绍的“智慧校园”的部分核心功能[32]，焦宝聪等讨论的智能化教育决策支持系统[33]，都是为科学决策教育问题、建立有效教育管理制度等提供服务。由于教学人工智能直接应用于教师授课、学生学习，在提升教学效果层面发挥了更为核心的作用，所以本文聚焦于分析教学人工智能的前沿研究。

　　按照人工智能技术的应用成果，本文将教学人工智能研究分为四类：行为探测、学习模型、预测模型、智能测评，本文对各类研究的目标及重点应用的技术进行了对比（见表1）。

　　表1 各类教学人工智能研究的目的及重点应用的技术

研究类型		行为探测	学习模型	预测模型	智能测评
研究目标 AI技术		提升教师授课质量及学生学习专注度	实现个性化学习	预测学习表现	机器命题、自动评分
计算机视觉		√	√
自然语言处理			√	√	√
机器人学			√
机器学习	有监督	√	√	√	√
	无监督			√
	半监督

　　除去通用的机器学习，四类研究在技术运用上侧重点不同。预测模型、智能测评多倚重自然语言处理，行为探测多应用计算机视觉，学习模型则综合运用多种技术。

　　三、分析师生行为的行为探测

　　行为探测的主要目标是利用计算机视觉、有监督机器学习等技术分析教师和学生的课堂行为与生理数据，以提升教师的授课质量及学生的学习专注度。

　　着眼于教师的研究中，波什（N. Bosch）等识别了课堂视频中教师的姿势变动（如行走），并发现这些姿势变动与学生的注意力关联紧密[34]。巴马基（R. Barmaki）和休斯（C. E. Hughes）利用TeachLivE软件构建了教师与虚拟学生的教学场景，并利用机器学习识别出教师在授课过程中的闭合姿势（closed-form gestures，如双手交叉放在胸前）。研究表明，闭合姿势对授课效果存在负面影响。通过TeachLivE的提醒服务，教师授课时有效减少了闭合姿势，进而提升了授课质量。[35]聚焦于学生的研究分析的数据包括肢体语言[36-37]、面部表情[38-39]、眼动[40]、语音[41]、心率[42]等。例如，斯图尔特（A. Stewart）等用摄像头录制学生观看教学电影的过程，并从中提取学生的头部姿势、面部位置、上肢肢体语言相关特征，之后利用支持向量机等模型预测学生是否走神(mind-wandering）[43]。范蓬（P. Pham）和王京涛（J. Wang）开发了手机端在线学习系统AttentiveLearner。使用该系统时，学生通过手指在手机摄像头上的遮掩操作控制课程视频播放，系统通过监测学生手指端皮肤的透明度推测心率，并利用K近邻模型判断学生是否集中精力于课程学习[44]。

　　尽管已取得一定进展，行为探测研究仍面临以下问题：第一，对专注度的判断过于主观[45]。自动识别学生的注意力状态需要标记数据以供有监督机器学习，现有标记数据的常用方法为学生自我汇报。由于学生很难客观判断自己的注意力集中程度，这种方法标记的数据很可能存在误差，进而给机器学习带来偏差。第二，高成本。很多研究使用的硬件造价不菲，如探测眼动的传感器，这使得这些研究很难大范围开展[46]。第三，样本量有限[47-49]。许多研究仅基于几十名被试者完成，因此存在代表性不足、研究结论通用性难以保证的问题。第四，因为获取行为、生理数据或多或少会触及教师、学生的隐私[50]，所以相关研究成果在实际应用时会遇到很大阻力。

　　四、实现个性化学习的学习模型

　　学习模型旨在利用计算机视觉、自然语言处理、机器人学、有监督机器学习等多种人工智能技术，根据学生兴趣、学习能力、知识掌握情况等因素，引导学生实现个性化学习。此处的引导偏重于实时引导，即人工智能对学生当下的学习状态进行判断并提供即时干预。

　　学习模型研究中，有一类着眼于个性化学习相关的单项功能，本文以题库构建、个性化建模、机器人应用开发三种为例来分析。题库构建主要应用于在线学习平台，是学生实现自适应练习的基础。刘琦（Q. Liu）等基于注意力机制、卷积神经网络、循环神经网络开发了MANN系统，用于从海量在线习题集中寻找相似习题供学生练习[51]。同样利用卷积、循环神经网络，沙普洛特（D. S. Chaplot）等将认知诊断试题对应成特征向量，并据此自动识别题目测试的认知属性[52]。个性化建模主要指通过机器学习评估学生的学习状态时，引入学生的个性化参数以提升评估的准确率。尤德森（M. V. Yudelson）等利用隐式马尔可夫模型评估学生的学业表现时，在传统的仅依赖技能状态的模型中引入了学生的个性化参数，提升了评估效果[53]。机器人应用开发旨在研发学习辅助机器人，通过机器人与学生的互动帮助学生更好地学习知识。Lego Mindstorms是一款针对低龄儿童的编程学习机器人。该机器人虽能执行学习者编写的程序，但无法提供反馈。阿赫麦德（I. Ahmed）等通过错误分析模块与语音识别技术，为Lego Mindstorms添加了实时反馈功能，使其能就程序的对错与学习者进行互动[54]。卢保德（N. Lubold）等开发了用于数学教学的机器人Nico。利用自然语言处理技术，Nico能与学生对话，且能调整自身音调以使其接近学生的音调，借此增进与学生的亲密关系，提升他们的学习表现[55]。

　　另一类学习模型研究综合考虑题库构建、个性化建模等多种功能，目标是为学生提供全面的个性化学习服务，智能导学系统（intelligent tutoring systems，简称ITS）是这一类研究的典型代表[56]。ITS是计算机辅助学习技术的一种，涉及感知科学、学习科学、计算语言学、人工智能等多门科学。有别于功能简单的一般性计算机辅助学习技术，ITS具有较高的适应性、互动性，能够推荐学习内容，评估学生的学习状态，实时提供反馈，让学生以自己的节奏学习知识。现有ITS多与具体学科相关，国际上较为成熟的ITS包括与代数相关的Cognitive Tutors[57]、与基础数学相关的AnimalWatch[58]及与计算机科学相关的ACT Programming Tutor[59]等。近年来，国内也陆续出现了一些商业化的ITS。例如，冯明宇（M. Feng）等介绍的与数学相关的个性化学习系统Yixue[60]。

　　目前，学习模型研究还存在提升空间。专注于个性化学习的单项功能研究中，在题库构建方面，前沿研究尝试利用深度学习进行文本、图片分析，并已取得一定进展。深度学习的一项弊端是可解释性较差，这使得相关研究在应用时会受到一定限制。以认知属性自动识别为例，虽然沙普洛特（D. S. Chaplot）等在无需专家知识与学生作答数据的前提下，自动识别了测试题目的认知属性[61]，但其构建的模型无法对认知属性进行解释，这是明显的硬伤。在个性化建模方面，过多引入个性化参数使模型复杂度显著增加，应用时对计算机的算力要求较高。此外，个性化建模的实际效果往往依赖于模型选择，因此灵活性不足。在机器人应用开发方面，大多数学习辅助机器人的分析模式需人为设定，因此较为有限，为学生提供的反馈也比较基础。

　　专注于个性化学习的综合功能研究中，尽管ITS已被证实能为学习带来积极影响[62-63]，然而多数ITS是基于教师的实践设计的[64]。这意味着，与教师亲身辅导相比，ITS虽有效率方面的优势，但为学生带来的正面影响较小[65-66]。如何更好地融合ITS与教师教学是当前的一个难题。此外，现有ITS多与对错清晰可分的学科相关，如数学、物理、统计学、计算机科学等。在对错界限相对模糊的学科（如历史）中，ITS的应用很少。

　　五、预测学习表现的预测模型

　　预测模型主要是基于学生在学习过程中的行为数据对学习表现进行预测，如是否有高辍学风险、是否能及格等，重点在于利用自然语言处理、机器学习技术实现精准预测。区别于学习模型对当下学习状态的判断，预测模型偏重于预判未来的学习表现，以提前发现学生可能存在的问题，可基于预测结果决定是否进行干预。

　　已有研究主要集中在MOOC领域，可分别按分析数据的类型、机器学习的种类以及是否进行应用开发进行区分。

　　首先，按分析数据的类型分析。现有研究分析的数据有两类：一类是学习平台日志数据，如学生在什么时间点击了课程视频、提交了作业、查看了他人的论坛发帖等；另一类是文本数据，即学生在课程论坛上发布的帖子，包括原创帖及对他人发帖的回复。有的研究围绕着日志数据展开。蒋卓轩等基于视频观看次数、测验提交次数等对学生是否能获得课程证书进行了预测[67]。巴拉（G. Balakrishnan）和库切（D. Coetzee）利用观看视频时长累计占比、论坛发帖数量等对学生是否辍学进行了预测[68]。有的研究基于文本数据进行，如怀斯（A. F. Wise）和崔依（Y. Cui）将论坛发帖按是否与课程相关做了区分，并发现与课程相容相关的发帖数能显著预测学生成绩[69]。此外，他们还利用论坛上学生间的互动进行了社交网络分析，结果表明网络相关变量并不能预测成绩。还有的研究共同分析日志数据与文本数据，如克罗斯利（S. Crossley）等分析了论坛发帖的文本特征，如语义复杂度、内容连贯性等，并结合视频观看时长、作业提交次数等对学生是否能结课进行了预测[70]；赵帅、黄晓婷基于论坛文本为每位发帖学生计算了积极、消极情感指数，并利用情感指数、视频下载次数等对学生的成绩进行了预测[71]。

　　其次，按机器学习的种类分析。从两个维度来看：第一，多数研究利用有监督机器学习。如拉梅什（A. Ramesh）等利用概率软逻辑有监督机器学习框架，基于论坛发帖、投票、查帖量，将学生的投入类型分为积极投入、消极投入、不投入三类，并结合发帖内容的主观程度等预测学生是否能结课[72]。少量研究应用无监督机器学习。作为同样关注学生投入类型的工作，克孜尔塞克（R. F. Kizilcec）等利用k-means聚类算法，基于提交作业、观看视频的情况将学生分为旁听、随机选学、持续投入、中途辍学四类，并对不同类学生的学习表现进行了分析[73]。第二，多数研究利用传统的机器学习算法。例如，蒋卓轩等将线性判别分析、逻辑回归、支持向量机用作预测模型[74]。巴拉和库切通过隐式马尔可夫模型、逻辑回归进行学习表现预测[75]。少量研究利用前沿的深度神经网络。在相关研究中，克里斯多夫（C. V. Le）等[76]将底层日志数据输入长短时记忆循环神经网络，实现了预测特征的自动构建，并有效预测了学生是否能获得证书、是否能通过课程考核及是否会辍学[77]。曹达（D. Cao）等应用生成对抗网络从日志数据中提取出一组低维、可解释特征，并证实这些特征能预测成绩[78-79]。

　　最后，按是否进行应用开发分析。多数研究不涉及应用开发，少量研究基于预测模型开发了应用平台，用以辅助在线教学。例如，克里斯多夫等研发了一个预测信息展示界面，通过该界面，教师可实时观测哪些学生更可能结课、拿到证书或辍学，并与不同的学生群体进行个性化的邮件交流，从而提升授课质量[80]。

　　整体上，预测模型研究的预测结果在不同课程间的波动较大，理想准确度可达90%以上，较差的仅50%左右[81]。目前，此类研究主要面临以下局限：第一，缺少应用开发及对应用的评估。大部分研究仅侧重预测模型的构建，并不开发应用。要想真正服务于教学，研究工作应研发与在线学习平台相匹配、可视化效果良好的应用，使教师能实时关注学生的学习动态，并开展个性化辅导。此外，对应用的评估，即判断应用是否能有效提升教学质量，也同样重要。第二，缺少在传统教学环境下的研究。对学生学习表现的预测，不仅对在线学习重要，对传统教学也很重要，但传统教学模式下缺少学习行为数据的积累，因此较难开展预测。第三，缺少跨学科、跨语言的比较研究。已有研究大多数基于某学科下的一门或多门多课程展开，研究结论是否适用于其他学科、语言的课程，尚需详细的比较研究进行揭示。

　　六、智能测评

　　智能测评目前主要包括机器命题和自动评分两个方面，重点应用的人工智能技术为自然语言处理、有监督机器学习。

　　机器命题有两种模式：强理论模型和弱理论模型。强理论模型是指在比较扎实的认知理论基础上进行命题，该模型下新题可以在“母题”的基础上进行较多的变化，新题的难度在很大程度上可控。但由于教育领域的大部分考试都缺少对应的认知理论支撑，因此，当前机器命题更多使用弱理论模型。其过程大致如下：命题专家首先以性能好的 “母题”为基础，构建成多层次的题目模型（含背景、内容、问题、辅助信息与选项等），并确定可以替换的部分；然后用计算机分析可替换部分的文本难度；最后从语料库中找到合适的内容进行替换，形成新题。这类新题和“母题”的相似度很高，难度也基本保持不变。英语是机器命题应用较多的学科，例如， Item Distiller软件可用于生成以单句为主的语法题[82]， EAQC软件则多用于生成阅读理解题[83]。医学领域也常用机器命题，例如，吉尔（M. J. Gierl）等利用Item GeneratOR工具生成了1000多道用于医学知识测试的选择题[84-85]。

　　自动评分针对的是传统考试中须由评分员进行打分的开放性问题，可大致分为语音评分、作文评分两种。语音评分主要利用语音识别、有监督机器学习进行声波分析，如刘洋（Y. Liu）等抽取了Mel频率倒谱系数等多维声波特征，并利用人工神经网络在普通话水平测试中实现了自动评分[86]。作文评分主要依赖文本分析、有监督机器学习进行评分特征构建与分数评定，目前评分工具多适用于英文，如e-rater[87]、IntelliMetric[88]、Writing Pal[89]、Coh-Metrix[90]、Markit[91]、ReaderBench[92]等。其中，e-rater通过分析文本结构（如各种从句的运用）、组织（如过渡词语的运用）及内容（如具体词汇的运用）实现自动评分；ReaderBench利用潜在语义分析及LDA话题模型构建文本连贯性评价图，据此在句子、段落及全文层面分别进行连贯性评估，同时基于一系列实体（如文本中的人名、地名）密度指标，最终利用支持向量机对作文质量进行评判。基于对ReaderBench的借鉴及转化，达斯卡鲁（M. Dascalu）等[93]在荷兰语语境下分析了学生作文的表层特征（如每段平均字数）、语义特征（如段内语义相似度）及词语复杂度（如音节数），并利用判别分析法实现了作文自动赋分。

　　就智能测评面临的局限而言，在机器命题方面，命题过程离不开命题专家对“母题”的选择和分析，机器只会依据题目模型生成干扰项，而不能按题目特点灵活设计。再者，机器命题十分依赖语料库。英语的语料库发展比较完善，为机器命题奠定了良好的基础，而对其他没有成熟语料库的语言来说，好的机器命题则难以实现。在自动评分方面，机器学习的评分标准来自不同专家，本身就存在一定的不一致性，因此，自动评分的结果与人工评分会有一定差异。类似于机器命题，自动评分同样倚重语料库的建设，对于计算语言学没有深入研究的语种，精准的评分模型难以建立。此外，自动评分工具面临被“欺骗”的风险。例如，鲍尔斯（D. E. Powers）等发现，e-rater在评判测试者故意提交的低质量作文时给出了高分[94]，因此仍有改进空间。

　　七、结论与讨论

　　教学人工智能是教育人工智能的核心组成部分。明晰教学人工智能研究的现状有助于研究者及实践者认清人工智能技术应用于教育领域的优势及挑战，推动人工智能技术在提升教学质量方面做出更大贡献。鉴于此，本文对人工智能技术在教学环节的运用进行了分类，并对每一类进行了系统分析。

　　关于教学人工智能的分类，目前并无统一标准，不同文献往往从不同的视角进行划分，如吴永和等的分类为立体化综合教学场、基于大数据智能的在线学习教育平台、智能教育助理[95]。徐鹏等基于文献综述划分为智能导学系统、智能代理、智能答疑系统[96]。由于教学人工智能近年来发展迅速，已有分类难以涵盖所有相关研究。本文按人工智能技术的应用成果，将相关研究分为较为具体、完整的四类：行为探测、学习模型、预测模型、智能测评。

　　行为探测主要依靠计算机视觉、有监督机器学习技术，分析教师、学生的课堂行为、生理数据，以提升教师的教学质量及学生的学习专注度。由于标记数据过于主观、隐私等问题，此类研究目前多在实验室中开展。学习模型综合利用多种人工智能技术，实现个性化学习相关的单项功能及综合功能，成熟应用多见于智能导学系统。此类研究的主题较为分散，相关工作仍面临可解释性差、分析模式有限、学科分布不均等问题。预测模型利用自然语言处理等技术，根据学习行为数据构建机器学习模型，以预测学生的学习表现。相关研究主要集中于MOOC领域，预测精度在不同课程间波动较大，且相关的应用平台开发较少。智能测评主要应用自然语言处理及有监督机器学习技术实现机器命题、自动评分。机器命题目前需命题专家与计算机共同完成。自动评分多运用于口语及作文评分，且多局限于英文。

　　总结来讲，本文认为教学人工智能研究近年来虽不乏亮点，但距全面、成熟的应用尚有距离。此结论能为相关教育政策的制定提供支持。举例来说，市场上近期出现了一款智能头环，据称，该产品能基于学生的生理数据实时计算他们的课堂专注程度，并将结果反馈给教师。很明显，此产品与行为探测研究关联紧密。如上文所述，行为探测研究目前普遍受限于标记数据掺杂主观因素等问题，理论上还未达到实际应用的水准。此产品是否已解决这些问题是值得客观评估的。为使真正有价值的产品服务于教学，政府或可组织人工智能、教育领域的专家成立权威的第三方评估机构，以对市场上形形色色的教学智能产品去伪存真。

　　关于教学人工智能的未来研究方向，本文得出如下展望：

　　第一，关于数据的伦理问题。现代人工智能的基础是大数据。开发功能完善的教学人工智能离不开教师、学生的行为大数据。如今，虽能通过摄像头、智能手环、局域网等工具进行数据收集，但实际应用时因涉及隐私，同时缺乏明确、统一的数据保护措施，往往招致学生、家长的抵触，难以大范围开展。未来，建立完善的隐私保护、数据应用等机制以保障教学行为大数据的获取，是推动教学人工智能发展的重中之重。

　　第二，关于研究问题的拓展。以预测模型和智能测评为例，在预测模型研究中，除了预测学业表现，还可以结合心理测量学以预测学生的心理状态。例如，可基于行为数据预判学生是否有抑郁、暴力等不良倾向，并据此开展有针对性的干预，维护学生的心理健康。在智能测评研究中，除了机器命题与自动评分，另一个重要问题是机器答题。在题库建设中，所有新题都须经过试测，相较于招募被试人工试题，机器答题可以大大降低试测成本，此外，若新题用于高考一类的高利害考试，机器答题也可降低泄露试题的风险。由于复杂程度较高，目前机器答题还没有成熟应用，未来值得重点关注。

　　第三，关于应用研发的参与方。现阶段教学人工智能的研发由技术人员主导，教师与学生的参与较少。由于技术人员缺乏教学经验，因此开发的应用与实际需求间往往存在脱节，使用效果难以达到预期。未来的教学人工智能研发应增强技术人员与教学实践者间的联系，由教师、学生明确需求，技术人员完成开发，以提升人工智能的应用效果。

　　第四，关于研究方法。现有研究中的机器学习模型存在提升空间。例如，自动评分中将手写文字转换为电子版的识别模型还不能精准识别连笔、错别字等异常情况，从而无法保证评分环节的客观性。此外，现有研究多应用有监督机器学习，需要打好标签的数据作为机器的输入。正确标记数据往往需要教育领域的专业知识（如行为探测研究中什么样的姿势为妨碍教学的姿势），因此标记大量数据时涉及较多的人力、时间成本。为缓解标记数据环节带来的局限，本文介绍以下两种机器学习方法：第一种是多任务学习法（multi-task learning），其基本思想是在统一框架下同时完成多项相关任务的学习。学习过程中，各项任务分享其他任务的数据，因此能实现比单独学习时更优的效果[97- 98]。举例来说，可将题目相似度判断[99]、题目认知属性自动标记[100]、自动评分三项教育相关任务在多任务学习框架中共同完成，在各自的数据量都不充足的条件下，每项任务都有希望获得学习效果的提升。第二种是迁移学习（transfer learning），其基本思想是将完成先前任务时学到的知识应用于解决当前的相关任务[101]。时下自然语言处理领域中的词嵌入模型（如word2vec[102]、GloVe[103]、ELMo[104]等）即为迁移学习的典型代表，该类模型基于海量文本保存词语的语法、语义信息，相比于传统的文本特征构建方法（如n-grams、词包模型），在高效运算、正确识别语义层面优势明显，因此更有助于教育文本的分析。

　　人工智能在提升教学质量方面潜力巨大，但相关学术研究仍在路上，期待这些研究早日取得新的进展，在不远的将来带给教育学研究者更多惊喜。

参考文献

　　[1] 刘毅. 人工智能的历史与未来[J]. 科技管理研究， 2004 (6): 121-124.

　　[2] 谭铁牛. 人工智能的历史、现状和未来[J]. 智慧中国，2019(Z1): 87-91.

　　[3] 闫志明,唐夏夏,秦旋等. 教育人工智能（EAI）的内涵、关键技术与应用趋势——美国《为人工智能的未来做好准备》和《国家人工智能研发战略规划》报告解析[J]. 远程教育杂志，2017 (1): 26-35.

　　[4] Cumming, G. (1998). Artificial intelligence in education: an exploration. Journal of Computer Assisted Learning, 14(4), 251-259.

　　[5] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.

　　[6] Long, J., Shelhamer, E., & Darrell, T. (2014). Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis & Machine Intelligence, 39(4), 640-651.

　　[7] Duarte, T., Prikladnicki, R., Calefato, F., & Lanubile, F. (2014). Speech recognition for voice-based machine translation. IEEE software, 31(1), 26-31.

　　[8] Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis algorithms and applications: A survey. Ain Shams engineering journal, 5(4), 1093-1113.

　　[9][54] Ahmed, I., Lubold, N., & Walker, E. (2018). ROBIN: Using a programmable robot to provide feedback and encouragement on programming tasks. Paper presented at the International Conference on Artificial Intelligence in Education, London, UK.

　　[10] Meike, D., & Ribickis, L. (2011). Energy efficient use of robotics in the automobile industry. Paper presented at the 15th international conference on advanced robotics (ICAR), Tallinn, Estonia.

　　[11] Okamura, A. M., Mataric, M. J., & Christensen, H. I. (2010). Medical and health-care robotics. IEEE Robotics & Automation Magazine, 17(3), 26-37.

　　[12] Lecun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4), 541-551.

　　[13][77] Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.

　　[14] Xu, L., Ren, J. S. J., Liu, C., & Jia, J. (2014). Deep convolutional neural network for image deconvolution. Paper presented at the International Conference on Neural Information Processing Systems, Montreal, Quebec, Canada.

　　[15] Zhou, C., Sun, C., Liu, Z., & Lau, F. C. M. (2015). A C-LSTM neural network for text classification. Computer Science, 1(4), 39-44.

　　[16] Wharton, C. M., & Grafman, J. (1998). Cognitive and AI models of reasoning. Trends in Cognitive Sciences, 2(2), 54-59.

　　[17] Bulfoni, A., Coppola, P., Mea, V. D., Gaspero, L. D., Mischis, D., Mizzaro, S., . . . Vassena, L. (2008). AI on the move: Exploiting AI techniques for context inference on mobile devices. Paper presented at the 18th European Conference on Artificial Intelligence, Patras, Greece.

　　[18] 张正清,黄晓伟. 作为“他者”而承担道德责任的智能机器——一种人工智能成为道德能动者的可能性[J]. 道德与文明，2018 (4): 28-35.

　　[19] 王银春. 人工智能的道德判断及其伦理建议[J]. 南京师大学报（社会科学版）， 2018 (4): 30-37.

　　[20] Carbonell, J. R. (1970). AI in CAI: An artificial-intelligence approach to computer-assisted instruction. IEEE transactions on man-machine systems, 11(4), 190-202.

　　[21] Yazdani, M., & Lawler, R. W. (1986). Artificial intelligence and education: An overview. Instructional Science, 14(3), 197-206.

　　[22] Jones, M. (1985). Applications of artificial intelligence within education. Computers & mathematics with applications, 11(5), 517-526.

　　[23] Baker, M. J. (2000). The roles of models in artificial intelligence and education research: a prospective view. Journal of Artificial Intelligence and Education, 11, 122-143.

　　[24] Wang, B., Liu, H., An, P., Li, Q., Li, K., Chen, L., . . . Gu, S. (2018). Artificial intelligence and education. Reconstructing Our Orders (pp. 129-161): Springer.

　　[25] Roll, I., & Wylie, R. (2016). Evolution and revolution in artificial intelligence in education. International Journal of Artificial Intelligence in Education, 26(2), 582-599.

　　[26] 张景中,李传中. Z+Z智能教育平台新世纪版[M]. 北京: 北京师范大学出版社，2003.

　　[27] 张剑平. 关于人工智能教育的思考[J]. 电化教育研究，2003(1): 24-28.

　　[28][96] 徐鹏,王以宁. 国内人工智能教育应用研究现状与反思[J]. 现代远距离教育， 2009(5): 3-5.

　　[29][32][95] 吴永和,刘博文,马晓玲. 构筑 “人工智能+ 教育” 的生态系统[J]. 远程教育杂志，2017 (5): 27-39.

　　[30] 吴晓如,王政. 人工智能教育应用的发展趋势与实践案例[J]. 现代教育技术，2018 (2): 5-11.

　　[31] 梁迎丽,刘陈. 人工智能教育应用的现状分析、典型特征与发展趋势[J]. 中国电化教育，2018(3): 24-30.

　　[33] 焦宝聪,柳少军,陈兰平. 对建设基础教育信息化投资智能管理与决策支持系统的探讨[J]. 电化教育研究，2004(7): 12-16.

　　[34][36][50] Bosch, N., Mills, C., Wammes, J. D., & Smilek, D. (2018). Quantifying classroom instructor dynamics with computer vision. Paper presented at the International Conference on Artificial Intelligence in Education, London, UK.

　　[35][37] Barmaki, R., & Hughes, C. E. (2015). Providing real-time feedback for student teachers in a virtual rehearsal environment. Paper presented at the ACM on International Conference on Multimodal Interaction, Seattle, USA.

　　[38][43][45][47] Stewart, A., Bosch, N., Chen, H., Donnelly, P., & D’Mello, S. (2017). Face forward: Detecting mind wandering from video during narrative film comprehension. Paper presented at the International Conference on Artificial Intelligence in Education, Wuhan, China.

　　[39][48] Okur, E., Alyuz, N., Aslan, S., Genc, U., Tanriover, C., & Esme, A. A. (2017). Behavioral engagement detection of students in the wild. Paper presented at the International Conference on Artificial Intelligence in Education, Wuhan, China.

　　[40] Bixler, R., & D'Mello, S. D. (2015). Automatic gaze-based detection of mind wandering with metacognitive awareness. Paper presented at the international conference on user modeling, adaptation, and personalization, Dublin, Ireland.

　　[41] Drummond, J., & Litman, D. J. (2010). In the zone: towards detecting student zoning out using supervised machine learning. Paper presented at the intelligent tutoring systems, Pittsburgh, PA, USA.

　　[42][44][46][49] Pham, P., & Wang, J. (2015). AttentiveLearner: improving mobile MOOC learning via implicit heart rate tracking. Paper presented at the International Conference on Artificial Intelligence in Education, Madrid, Spain.

　　[51][99] Liu, Q., Huang, Z., Huang, Z., Liu, C., Chen, E., Su, Y., & Hu, G. (2018). Finding similar exercises in online education systems. Paper presented at the knowledge discovery and data mining, London, UK.

　　[52][61][100] Chaplot, D. S., MacLellan, C., Salakhutdinov, R., & Koedinger, K. (2018). Learning cognitive models using neural networks. Paper presented at the International Conference on Artificial Intelligence in Education, London, UK.

　　[53] Yudelson, M. V., Koedinger, K. R., & Gordon, G. J. (2013). Individualized Bayesian knowledge tracing models. Paper presented at the International Conference on Artificial Intelligence in Education, Heidelberg, Berlin.

　　[55] Lubold, N., Walker, E., Pon-Barry, H., & Ogan, A. (2018). Automated pitch convergence improves learning in a social, teachable robot for middle school mathematics. Paper presented at the International Conference on Artificial Intelligence in Education, London, UK.

　　[56] Beck, J., Stern, M., & Haugsjaa, E. (1996). Applications of AI in education. Crossroads, 3(1), 11-15.

　　[57] Ritter, S., Kulikowich, J., Lei, P.-W., McGuire, C. L., & Morgan, P. (2007). What evidence matters? A randomized field trial of Cognitive Tutor Algebra I. Frontiers in Artificial Intelligence and Applications, 162(1), 13-20.

　　[58] Beal, C. R., Arroyo, I., Cohen, P. R., Woolf, B. P., & Beal, C. R. (2010). Evaluation of AnimalWatch: An intelligent tutoring system for arithmetic and fractions. Journal of Interactive Online Learning, 9(1), 64-77.

　　[59] Corbett, A. (2001). Cognitive computer tutors: Solving the two-sigma problem. Paper presented at the International Conference on User Modeling, Berlin, Heidelberg.

　　[60] Feng, M., Cui, W., & Wang, S. (2018). Adaptive learning goes to China. Paper presented at the International Conference on Artificial Intelligence in Education, London, UK.

　　[62][65] Steenbergenhu, S., & Cooper, H. (2014). A meta-analysis of the effectiveness of intelligent tutoring systems on college students’ academic learning. Journal of Educational Psychology, 106(2), 331-347.

　　[63] Steenbergen-Hu, S., & Cooper, H. (2013). A meta-analysis of the effectiveness of intelligent tutoring systems on K-12 students' mathematical learning. Journal of Educational Psychology, 105(4), 970.

　　[64] Woolf, B. P. (2009). Building intelligent interactive tutors, student-centered strategies for revolutionizing E-Learning. Telearn, 59(5), 337–379.

　　[66] Vanlehn, K. (2011). The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems. Educational Psychologist, 46(4), 197-221.

　　[67][74][81] 蒋卓轩,张岩,李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展，2015(3): 614-628.

　　[68][75] Balakrishnan, G., & Coetzee, D. (2013). Predicting student retention in massive open online courses using hidden markov models. Electrical Engineering and Computer Sciences University of California at Berkeley, 53, 57-58.

　　[69] Wise, A. F., & Cui, Y. (2018). Unpacking the relationship between discussion forum participation and learning in MOOCs: content is key. Paper presented at the International Conference on Learning Analytics and Knowledge, Sydney, New South Wales, Australia.

　　[70] Crossley, S., Paquette, L., Dascalu, M., Mcnamara, D. S., Baker, R. S., Crossley, S., . . . Baker, R. S. (2016). Combining click-stream data with NLP tools to better understand MOOC completion. Paper presented at the Sixth International Conference on Learning Analytics & Knowledge, Edinburgh, United Kingdom.

　　[71] Zhao, S., & Huang, X. (2018). Exploring the relationship between student's emotional factors and achievement in a MOOC Course. Paper presented at the Methodology for Measurement of Learning in Learning Analytics, Workshop of Learning Analytics and Knowledge Conference, Sydney, Australia.

　　[72] Ramesh, A., Goldwasser, D., Huang, B., Daumé III, H., & Getoor, L. (2013). Modeling learner engagement in MOOCs using probabilistic soft logic. Paper presented at the NIPS Workshop on Data Driven Education, Nevada, USA.

　　[73] Kizilcec, R. F., Piech, C., & Schneider, E. (2013). Deconstructing disengagement: analyzing learner subpopulations in massive open online courses. Paper presented at the third international conference on learning analytics and knowledge, Leuven, Belgium.

　　[76][80] Le, C. V., Pardos, Z. A., Meyer, S. D., & Thorp, R. (2018). Communication at scale in a MOOC using predictive engagement analytics. Paper presented at the International Conference on Artificial Intelligence in Education, London, UK.

　　[78] Da, C., Lan, A. S., Chen, W., Brinton, C. G., & Chiang, M. (2018). Learner behavioral feature refinement and augmentation using GANs. Paper presented at the International Conference on Artificial Intelligence in Education, London, UK.

　　[79] Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Bing, X., Warde-Farley, D., Ozair, S., . . . Bengio, Y. (2014). Generative adversarial nets. Paper presented at the International Conference on Neural Information Processing Systems, Montreal, Quebec, Canada.

　　[82] Higgins, D. (2007). Item Distiller: Text retrieval for computer-assisted test item creation.Educational Testing Service Research Memorandum (RM-07-05). Princeton, NJ: Educational Testing Service.

　　[83] Gutl, C., Lankmayr, K., Weinhofer, J., & Hofler, M. (2011). Enhanced automatic question creator--EAQC: Concept, development and evaluation of an automatic test item creation tool to foster modern e-education. Electronic Journal of e-Learning, 9(1), 23-38.

　　[84] Gierl, M. J., Lai, H., & Turner, S. R. (2012). Using automatic item generation to create multiple‐choice test items. Medical education, 46(8), 757-765.

　　[85] Gierl, M. J., Zhou, J., & Alves, C. (2008). Developing a taxonomy of item model types to promote assessment engineering. The Journal of Technology, Learning and Assessment, 7(2), 1540-2525.

　　[86] Liu, Y., Yang, C., & Ma, W. (2009). Automatic pronunciation scoring for Mandarin proficiency test based on speech recognition. Paper presented at the Intelligent Ubiquitous Computing and Education, 2009 International Symposium on, Chengdu, China.

　　[87] Attali, Y., & Burstein, J. (2006). Automated essay scoring with e-rater？ V.2. Journal of Technology Learning & Assessment, 4(2), i–21.

　　[88] Elliott, S. (2003). IntelliMetric: From here to validity. In M. D. Shermis & J. Burstein (Eds.), Automated essay scoring: A cross-disciplinary perspective (pp. 71-86). Mahwah: Lawrence Erlbaum Associates.

　　[89] Mcnamara, D. S., Crossley, S. A., Roscoe, R. D., Allen, L. K., & Dai, J. (2015). A hierarchical classification approach to automated essay scoring. Assessing Writing, 23, 35-59.

　　[90] Mcnamara, D. S., Louwerse, M. M., Mccarthy, P. M., & Graesser, A. C. (2010). Coh-Metrix: Capturing linguistic features of cohesion. Discourse Processes, 47(4), 292-330.

　　[91] Williams, R., & Dreher, H. (2004). Automatically grading essays with Markit. Proceedings of Informing Science, 1(1), 693-700.

　　[92] Dascalu, M., Dessus, P., Bianco, M., Trausan-Matu, S., & Nardy, A. (2014). Mining texts, learner productions and strategies with ReaderBench. In A. Pe？a-Ayala (Ed.), Educational Data Mining (pp. 345-377): Springer.

　　[93] Dascalu, M., Westera, W., Ruseti, S., Trausan-Matu, S., & Kurvers, H. (2017). ReaderBench learns Dutch: Building a comprehensive automated essay scoring system for Dutch language. Paper presented at the International Conference on Artificial Intelligence in Education, Wuhan, China.

　　[94] Powers, D. E., Burstein, J. C., Chodorow, M., Fowles, M. E., & Kukich, K. (2002). Stumping e-rater: Challenging the validity of automated essay scoring. Computers in Human Behavior, 18(2), 103-134.

　　[97] Caruana, R. (1997). Multitask learning. Machine Learning, 28(1), 41-75.

　　[98] Collobert, R., & Weston, J. (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. Paper presented at the Proceedings of the 25th international conference on Machine learning, Helsinki, Finland.

　　[101] Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345-1359.

　　[102] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

　　[103] Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global vectors for word representation. Paper presented at the empirical methods in natural language processing, Doha, Qatar.

　　[104] Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations.arXiv preprint arXiv:1802.05365.

　　[1] 此划分主要参考“视觉求索”公众号上朱松纯教授的文章《浅谈人工智能：现状、任务、构架与统一 | 正本清源》，参见：https://mp.weixin.qq.com/s/-wSYLu-XvOrsST8_KEUa-Q。

相关附件