人工智能教育应用 - 可控可评的对话式教学智能体框架

发布者：上海师范大学分析测试与超算中心发布时间：2026-02-09浏览次数：10分享至：

随着大模型从通用对话工具走向教育智能体，研究重心正由“准确回答”转向“支持学习”。当前研究普遍围绕让智能体在多轮交互中具备可控、可解释、可评估的教学行为，即能够持续诊断学习者状态、提供循序渐进的引导性反馈，并在安全边界内促进学习增益。与此同时，如何用更贴近真实教学过程的评测框架刻画这种能力，并避免模型不稳定话术与越界输出带来的风险，成为教育智能体研究的关键议题。

可控可评的对话式教学智能体框架

教学对话状态空间自动构建框架MWPTutor^[1]：由瑞士苏黎世联邦理工学院团队提出。该研究针对提示词驱动的家教智能体难以稳定执行细粒度教学策略且容易越界（如直接泄露答案）的问题，同时避免了传统家教系统需要专家手工编写庞大对话状态空间的高成本。其核心采用混合范式：先由学习科学专家用有限状态机式的对话策略图定义可控的教学流程，再由大模型生成并填充每个状态下的具体话术与解题步骤。在实现上，系统先将题目拆解为每一步仅进行一次计算的多条解题路径，合并成解题树；再将学生逐步作答与解题树对齐以定位错误点，并通过自动检测机制减少提前泄露最终答案的风险。

多智能体多轮对话教学能力评测框架EducationQ^[2]：华南理工大学团队联合广东省教育创新研究院提出。该框架针对现有教育评测多停留在单轮问答、难反映真实教学中持续追问与诊断性反馈的问题，构建了由教师智能体、学生智能体与评估智能体组成的闭环流程。采用前测建立学生基线、再进行多轮课堂式的形成性评价对话、最后后测量化学习增益的设计，使教学效果与过程策略质量能够同时被评价。作者还基于GPQA与MMLU Pro构建分层题集对14个模型进行对比，发现模型规模与通用推理并不必然带来更高的教学有效性，且其过程评价与教育专家判断具有较好一致性。

大模型驱动的沉浸式教学智能体设计^[3]：由香港科技大学广州团队提出。该团队围绕滕王阁历史学习场景，让同一虚拟导师智能体在对话中能够根据学习者提问自适应切换角色与动作，以缓解传统虚拟导师角色固定与反馈形式单一的问题。系统在虚拟现实环境中引入三类角色叙事视角，包括滕王、王勃与考古专家，并配套一套动作库用于讲解、自然表达与情境化表演。实验表明，角色切换主要提升学习者对导师可信度与专业性的感知，但过于频繁会破坏连贯性；动作切换主要增强社交临场感与拟人感，对学习动机与认知负荷的影响不明显。

大模型驱动的可教型智能体MatlabTutee^[4]：由乔治亚理工学院团队提出。该团队在大学计算机导论课程中设计并评估了该智能体，核心是让智能体长期维持“新手学习者”人设，通过持续提问与适度暴露错误来引导学生用“教别人”的方式学习，从而促使学生主动组织知识、发现理解缺口并形成更真实的自我能力判断。结果总体表明，该智能体在多次对话中能较稳定地模拟可被教学的学习者形象，并在学习行为层面带来更接近人类同伴教学的积极互动模式，但在长期自发使用上仍受到犯错挫败感与课程激励不足等因素影响。

参考文献：

[1]. Chowdhury, S.P., Zouhar, V., & Sachan, M. (2024). AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails. Proceedings of the Eleventh ACM Conference on Learning @ Scale.

[2]. Shi, Y., Liang, R., & Xu, Y. (2025). EducationQ: Evaluating LLMs’ teaching capabilities through multi-agent dialogue framework. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 32799–32828). Association for Computational Linguistics.

[3]. Zhu, Z., Yu, A., Tong, X., & Hui, P. (2025). Exploring LLM-Powered Role and Action-Switching Pedagogical Agents for History Education in Virtual Reality. Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems.

[4]. Rogers, K., Davis, M., Maharana, M., Etheredge, P., & Chernova, S. (2025). Playing Dumb to Get Smart: Creating and Evaluating an LLM-based Teachable Agent within University Computer Science Classes. Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems.

当前位置：首页资讯中心双周简报