AI生成答案难辨真伪，学术诚信如何坚守

AI生成答案难辨真伪，学术诚信如何坚守

创作歌曲、生成视频、撰写论文……生成式AI的能力不断拓展，正以颠覆性的速度、广度渗透到工作生活的方方面面。这股技术浪潮不仅带来了前所未有的便捷与创意爆发，为我们的生活平添了无数惊喜与可能，同时也对学术界造成了深刻而复杂的冲击。

面对AI答题

评估标准与方法亟须革新

近日，英国雷丁大学的一项研究发现，在大学考试中，利用AI生成的答案有高达94％的比例没有被老师发现，而且这些答案往往比学生经过思考给出的解答得分更高。也就是说，如果学生在考试中真的用AI作弊，大概率会取得好成绩，而且很难被发现。

彼得·斯卡夫（Peter Scarfe）教授及其团队利用ChatGPT为心理学本科的5个课程模块共计63个评估问题自动生成了答案。测试题型涵盖了简答题和长篇论文。为ChatGPT提供的提示（prompt）明确要求“包含对学术文献的引用，但无需单独列出参考文献的具体部分”，随后直接复制了考试问题。

尽管“当前的AI在更抽象的推理和信息整合方面仍显不足”，但在此次测试中，AI作答超过学生回答得分的占比高达83.4％。斯卡夫教授表示：“平均而言，AI答案的得分高于我们学生提交的答卷，尽管不同模块间存在差异。”

研究人员宣称，他们的研究是同类研究中规模最大、最稳健的。斯卡夫教授强调，尽管研究仅针对雷丁大学心理学专业，但这无疑是整个学术界面临的挑战。“我没有理由认为其他学科领域不会面临同样的问题。”

伦敦帝国理工学院的托马斯·兰开斯特（Thomas Lancaster）教授对此表示：“结果正是我所预料的。我们早已知道，生成式AI能够针对简单、结构化的文本问题给出合理的回答。”他进一步指出，无监督的评估方式，如简答题，历来容易成为作弊的温床。

在有限的阅卷时间里，简答题的评分者很难凭经验判断出哪些答案是由AI辅助完成的。兰开斯特教授说：“我相信这种情况并非个例。”

斯卡夫教授认为，从源头上完全杜绝这一情况几乎是不可能的。因此，他呼吁整个教育行业要重新审视其评估标准和方法。“我认为，我们必须承认AI已成为我们评估学生时不可忽视的一部分。”他强调道。

可以使用AI

但必须诚信使用

当AI能够生成几乎以假乱真的学术作品时，如何界定学术成果的原创性成了一个亟待解决的问题。面对这一挑战，学术界亟须重新审视和完善评价体系，构建更为科学、公正且透明的评审流程，从而保障学术研究的真实性与价值得以准确评估。

“要携手人工智能，借助人工智能弥补自然人类的某些缺憾和不足；要驾驭人工智能，要用全面而多样的思维能力超越知识无限的人工智能；要实现智慧超能，在人类新文明的曙光中获得幸福。”华东师范大学校长钱旭红在2024届毕业典礼上的这段寄语，在网络上引起广泛关注。

近日，华东师范大学传播学院与北京师范大学新闻传播学院联合发布了国内首份《生成式人工智能学生使用指南》（以下简称《指南》）。据悉，《指南》由两校的人工智能团队合作完成，旨在规范和指导学生在学术研究和教育中合理使用人工智能技术，同时遵守学术道德伦理规范。

大学生在查阅资料或者撰写论文时，AI已经成为不可或缺的得力助手，但使用的边界在哪里？《指南》中明确，学生在符合学术诚信的前提下，可根据自身学业需要规范地使用AIGC。学生需要将AIGC直接生成的内容与学生个人的学术贡献分开，并明确标注AIGC在学生学业相关任务中的贡献。对AIGC直接生成内容的部分需标红，直接生成的内容不能超过全文的20％。在个人创作基础上进行润色、辅助编辑等行为不属于AIGC直接生成。

“20％这一比例参考了学术论文查重率，并考虑到实际操作中的审慎性。”华东师范大学传播学院院长王峰教授表示，“目前我们可以依赖的不完全是技术方法，还有教师的经验和人工甄别。我们希望这份《指南》传递一种学术科研的态度：可以使用AI，但必须诚信使用。”

AI生成答案令考官难以辨别真伪，这更需要学生坚守诚信。北京师范大学新闻传播学院院长张洪忠教授表示，判断学生提交的内容是否为AI直接生成并非易事，由此更强调了诚信的重要性，并指出在学生未能遵循诚信原则时，教师需要依靠丰富的经验来识别可能由AI生成的内容，并提出修改建议。