近期,合肥大学人工智能与大数据学院大模型与自然语言处理团队在智能教育认知诊断方向取得重要进展。相关研究成果被人工智能领域国际重要会议IJCAI 2026(International Joint Conference on Artificial Intelligence)正式录用。该论文由嵇圣硙副教授担任第一作者,2024级硕士生王文利、解勇强为主要学生作者,合肥大学人工智能与大数据学院为第一完成单位。
研究背景:教育数据中的长尾分布挑战
认知诊断(Cognitive Diagnosis)旨在根据学生的历史答题表现,推断其对知识概念的掌握程度,是个性化教育与智能导学系统的核心技术之一。随着图神经网络的发展,基于图结构建模的认知诊断方法近年来取得了显著进展。
然而,真实教育场景中的交互数据普遍呈现极端的长尾分布:少数“头部”学生和概念拥有大量交互记录,而绝大多数“尾部”学生和概念仅有稀疏的答题数据。这种数据稀疏性严重制约了现有模型的表征学习能力,导致对低频学生的诊断准确率大幅下降、泛化性能受损。尽管已有研究尝试通过度平衡或响应生成来缓解这一问题,但它们仍受限于欧几里得空间的平坦几何结构,难以有效建模教育图中固有的层级化与无标度结构。

图注:HiCD 的整体框架包括教育图分解、双曲表征学习与流形诊断三个核心模块。其中,图分解将教育图拆分为正确答题、错误答题和习题-概念关联三个语义子图,并为其分配适配的曲率空间;双曲诊断函数直接在流形上运算,避免了欧氏近似带来的信息损失。
创新成果:提出基于双曲几何的认知诊断模型HiCD
为应对上述挑战,论文首次将双曲几何引入认知诊断任务,提出了一种名为 HiCD 的双曲认知诊断模型。该方法利用双曲几何的指数级表征容量,天然适配教育数据的幂律长尾分布,有效缓解了稀疏交互带来的表征困难。同时,HiCD 针对教育图中不同关系类型的语义异构性,设计了图分解与曲率自适应机制。
HiCD 的核心设计可以概括为三个环节:
1. 语义子图分解:将教育图分解为正确答题、错误答题和习题-概念关联三个语义子图,分别建模学生的掌握行为、非掌握行为以及概念关联关系。
2. 曲率自适应双曲表征:为每个语义子图分配独立的、适配的双曲曲率空间,并通过曲率感知机制实现几何与语义的对齐。不同子图的表征通过多级融合策略进行整合。
3. 双曲诊断函数:在双曲流形上直接定义诊断函数(双曲减法或双曲距离),避免通过欧氏切空间进行反复映射,保持几何结构的一致性并提升数值稳定性。最终通Fermi--Dirac解码器输出学生答题正确的概率。
实验成效与学术价值
实验部分,论文在 ASSIST-0910 和 Junyi 两个真实教育数据集上对 HiCD 进行了系统评估,覆盖多种训练-测试划分比例,并与 IRT、NeuralCD、KaNCD、RCD、SCD、SVGCD 等主流基线方法进行了对比。结果表明,HiCD 在 AUC、ACC、RMSE 等关键指标上均取得了最优或次优的性能。
具体来看,整体性能领先:在 ASSIST-0910 数据集 8:2 划分下,HiCD-dist 变体的 AUC 达到 0.7972,相比最强基线提升约 2.7 个百分点;长尾场景优势显著:将学生按交互频率分组后,HiCD 在低频(稀疏)学生群体上的性能提升最为突出,验证了其在缓解长尾偏置方面的有效性;消融实验验证:移除双曲几何建模后模型性能下降最为明显;曲率自适应机制、图分解策略和双曲诊断函数均对最终性能有重要贡献。
论文还指出,HiCD 可以灵活地与现有认知诊断框架集成,尤其适合在数据稀疏、交互记录有限的真实教育场景中部署应用。
结语与展望
从研究意义上看,HiCD 重新审视了“长尾教育数据”与“几何表征空间”之间的关系,为智能教育中的认知诊断任务提供了一条融合非欧几何建模的新路径。相比传统依赖欧氏空间或单一曲率的设计方案,这种基于图分解和曲率自适应的双曲建模思路更为灵活,也更容易迁移到其他存在长尾分布问题的应用场景中。
未来,团队将围绕更细粒度的认知结构建模、更大规模教育数据集上的验证以及与在线学习系统的结合,进一步拓展 HiCD 的应用边界。对于需要在数据稀疏条件下进行精准学生建模的智能教育、个性化推荐等场景而言,这项工作提供了具有启发性的技术路线。
论文题目:HiCD: Hyperbolic Insight through Decomposed Educational Graphs for Long-Tailed Cognitive Diagnosis
代码链接:https://github.com/CyberXie/HiCD
(人工智能与大数据学院 撰稿:王文利 初审:嵇圣硙 复审:吴志泽 终审:胡萍)