大语言模型技术融入数据库课程的教学探索

 天生赢家 一触即发随着研究和应用的深入,颠覆性技术不断涌现,因此,培养适应快速发展领域的计算机专业人才显得尤为迫切[1]。根据 2017 年教育部发布的《教育部高等教育司关于开展新工科研究与实践的通知》指出,当前工科知识体系已难以满足社会需求,且高端科技人才短缺的问题有待解决[2]。数据库课程是高等院校计算机科学与技术等工科专业的一门重要必修课程,具备深厚的理论性和快速发展的技术特点[3],这

  天生赢家 一触即发随着研究和应用的深入,颠覆性技术不断涌现,因此,培养适应快速发展领域的计算机专业人才显得尤为迫切[1]。根据 2017 年教育部发布的《教育部高等教育司关于开展新工科研究与实践的通知》指出,当前工科知识体系已难以满足社会需求,且高端科技人才短缺的问题有待解决[2]。数据库课程是高等院校计算机科学与技术等工科专业的一门重要必修课程,具备深厚的理论性和快速发展的技术特点[3],这就要求数据库课程的教学内容与设计应当紧跟技术发展的步伐,以适应迅速变化的技术趋势。然而,目前该课程的内容侧重于讲授关系型数据库技术的基本理论知识和方法,缺少前沿技术的跟踪和引入,因此课程知识点相对陈旧。与此同时,该课程的实验重点在于数据库技术基本知识的验证,学生对于新技术的创新探究相对较少[4]。因此,要加速数据库课程的改革步伐,以适应时代的发展

  虽然当前数据库技术与深度学习相结合已经取得了一定的技术优势[5],但是它在智能化方面仍然存在挑战。相比之下,大语言模型技术作为一种生成式语言模型,在智能问答、多模态等领域表现出色,拥有出色的算法性能和广泛的应用前景[6]。这种技术具备亿级网络参数和卓越的自然语言生成和理解能力,在高效信息检索与处理方面具备巨大的潜力。基于此,在数据库课程中引入大语言模型技术具有重要意义,其主要目的在于引入更便捷的学习工具,同时利用大语言模型技术的先进性更新课程教学内容,将前沿技术融入现有教学体系中,使教育内容与时代需求相契合。这不仅能够激发学生的学习兴趣,辅助学生快速掌握数据库基础原理,还有助于学生掌握最新的技术知识,培养其创新思维,为其未来的学术和职业发展提供更广阔的可能性。这种教学探索既符合时代的发展潮流,又为培养具备创新能力和实践能力的工科学生提供有力支持。然而,将大语言模型融入数据库课程的探究目前尚处于起步阶段。

  (1)利用大语言模型工具提高数据库知识学习效率。以 ChatGPT 为代表的大语言模型工具已经展现出强大的问答、检索和生成的能力。对于学生,应该学会合理利用这类工具快速检索与数据库课程相关的内容,在辨别内容合理性的过程中加深对知识点的认知。对于教师,可以利用大语言模型生成更加多样、丰富以及符合教师需求的练习题,如丰富的 SQL 语句、课后习题的改写以及生成错题让学生修正,以真正检验学生对于数据库知识点的掌握程度。

  (2)探索大语言模型技术与数据库任务之间的关系。大语言模型技术与数据库技术的融合目前仍在初步研究阶段,但两者之间存在紧密的关联。这种关联性包括技术的整合和交互,学生通过探究这项技术应用于数据库的配置、优化、设计和诊断 4 类任务中,体现出的模型性能的提升以及可解释性,激发对于两类技术的深入思考。例如,可以考虑使用结合外部知识训练专属于数据库的大语言模型,替代传统数据库中的基数/代价估计组件,从而更好地实现数据库的优化,同时可以使用特定指令生成解释优化过程的文本内容。此外,大语言模型技术也可以用于改进数据库技术中的 Text2SQL 任务,提高自然语言与 SQL 查询语言的转换性能,从而提升数据库的查询速度。

  (3)培养跟踪前沿技术的能力和批判性思维。积极引导学生主动关注大语言模型技术与数据库技术结合的最新进展。在这个过程中,希望学生通过探索新技术、新观念来增强对技术发展趋势的敏感性。大语言模型技术具有其独特的优势和局限性,在学习过程中,学生要深入思考并进行客观评估,以更好地理解这两类技术的特点。

  (4)拓展学生的创新思维。大语言模型技术与数据库技术的结合是一个全新的领域,要不断探索和创新。在数据库课程中引入大语言模型技术,可以培养学生解决新问题的能力,引导他们提出创新性的解决方案。

  (5)增加实践经验。提供丰富的实践机会,让学生亲身体验将大语言模型技术应用于解决数据库问题的过程。通过实际项目,增加学生的实践经验,帮助其熟练运用所学知识解决实际问题。

  在数据库课程中完成以上教学目标是具挑战性的,教学挑战来源于如下 4 个方面:①学生可能会过度依赖大语言模型生成的内容,同时大语言模型生成的题目也不一定是合理的,这会增加教师监管和审查作业的难度;②大语言模型技术发展较为迅速,教材和课程内容要不断更新,这将对教师提出较高的要求;③大语言模型技术依赖于计算资源和数据集,而这些资源和数据集相对有限,这会增大实验实施的难度;④课时紧张,需要额外占用课时在数据库课程中引入大语言模型技术的相关内容,如何调整课程体系、在有限教学时间达到以上目标也具有挑战性。

  大语言模型技术与数据库技术的结合还处在初步的发展阶段,要求学生掌握的知识范围较广,技术更新的速度较快。面对工科专业的大学生,根据学生背景设计的教学框架如图1所示,让学生以一种易于接受的方式,学习和探索如何将前沿大语言模型技术应用在数据库的任务中,从而提升他们解决实际问题的能力。

  (1)大语言模型工具的合理使用。首先向学生简单介绍大语言模型工具的使用,以及基于大语言模型进行微调的途径和方式,同时为了避免学生过于依赖大语言模型生成的内容,在设置课后作业时设置与大语言模型工具相关的习题。例如,围绕课堂核心的知识点设置一道题,要求让 ChatGPT 等工具回答,学生要分析工具生成的内容中正确与错误的部分,并给出相应的参考来源。通过这种批判性方式,学生加深对知识点的认识,同时也避免过度信任 ChatGPT 给出的内容。教师可以通过设计符合知识点、课程要求的指令,让大语言模型生成或者改写课后习题,并检查生成题目和答案的合理性。此外,教师还可以让大语言模型生成错题或者错误的内容,让学生改正。通过上述方式可以得到更加丰富和多样的课后习题,保证每个学生的题目组成不同,并且在网络中很难查找到相同的题目和答案,这会更加真实地反映学生对知识点的掌握程度。

  (2)引入前沿技术案例,关联数据库任务与大语言模型技术。在数据库体系结构中,数据库配置、优化、设计和诊断 4 个部分均可以通过引入人工智能技术实现进一步优化,涵盖数据库配置中的视图推荐等任务,查询优化中的基数估计、代价估计和 text2SQL 任务,数据库设计中的索引、事务管理等任务以及数据库诊断中的进程控制、活动监控等任务,因此在上述数据库相关概念和理论的课时中,后一半课时可以介绍基于AI实现的前沿技术案例,通过分析这些案例中AI技术优化了数据库的哪些组件和实现范式,引导学生思考并提出如何使用大语言模型技术进一步优化这些任务模型性能、可解释性等特性,从而培养其创新思维。

  (3)讨论大语言模型技术融合到数据库实际应用中的优缺点。通过对大语言模型技术应用到数据库实际问题中优缺点的讨论,可以同时加深学生对于两类技术的理解。大语言模型技术在伦理、隐私和安全方面目前还存在一定的差距,同时大语言模型技术固有的“幻觉”问题[7]也是目前难以解决的挑战,应用到数据库的任务中可能会发生无法避免的数据泄露、性能坍塌和法律的风险,因此针对以上的问题设定主题讨论,让学生更深入地理解大语言模型技术和数据库相关技术的原理和特性,同时引导学生思考技术应用的社会责任。

  (4)增加学生对于前沿技术的分享。目前,存在大量与数据库相关的前沿技术,如 AI4DB 和 DB4AI 的相关技术、目前引入大语言模型的数据库技术如 ChatDB[8]。在有限的课时中,教师无法涵盖全部的技术讲解,也不利于学生深入学习相关的前沿技术,因此教师可以仅讲解与前沿技术主题相关的经典案例,使学生对该主题有一个基本的了解,避免陷入教学细节中,偏离教学的方向。为进一步培养学生自主学习和口头表达的能力,可以让学生选择感兴趣的前沿技术主题进行随堂汇报,进而深入了解特定的技术领域。教师可以提供指导意见,帮助学生选择适当的主题,同时对汇报内容制订评价标准并进行相应的评估。

  (5)产学合作实验项目。在实践课中,采用案例教学和企业项目结合的方式。在实验室环境中,设计数据库和大语言模型技术的实验让学生进行基础技术的操作,加深对原理的理解。为培养学生解决实际问题的能力,可以通过与相关企业或研究机构合作,设计符合实际数据库应用场景的实验项目,让学生可以根据自身兴趣和实际情况对相关项目进行选择,参与项目实际解决目前数据库应用中的难题。

  (6)小组合作,培养团队意识。在教学过程中,应结合个人学习和小组合作学习的方式,将学生分成小组,每个小组负责一个主题前沿技术的分享和实际的项目。小组一般设置 5~7 人一组,小组成员在团队中担任不同的角色,通过 PPT 演示的方式分享前沿技术;同时在后 8 个实验课时中组织项目进度分享会,交流各个项目的进展情况和遇到的困难,从而培养学生沟通交流和团队协作的能力。

  (7)建立多维度评估方式,激发学生自主研究的兴趣。在平时成绩中加入奖励机制,鼓励学生自主进行与大语言模型技术和数据库领域相关的技术研究,并在课堂开始前 10 分钟邀请学生分享,主动分享的学生可以额外加分,从而激发学生自主研究的兴趣。在进行技术分享和项目汇报时,应强调各个组员的分工和角色,教师根据学生在团队合作中应用大语言模型技术解决实际数据库问题的能力以及参与度进行评估。在学期末要求学生撰写关于大语言模型技术与数据库技术结合的个人技术报告,包括技术原理、前沿技术总结、批判性思考和项目实现中得到的启发性思考,多维度评估学生掌握理论知识的情况和解决实际问题的能力。对于优秀的个人技术报告,可以推荐学生发表论文、参加科研竞赛等,以激发学生的学术兴趣和创新动力。

  (8)跟踪技术发展,关注学生反馈。由于大语言模型技术的发展非常迅速,而与数据库技术的结合范式也日新月异,因此教师要定期跟踪大语言模型技术和数据库领域的最新发展,尤其关注两者的融合范式,将最新的案例和研究成果引入课堂,保持教学内容的前沿性;同时,鼓励学生提供课程的反馈,包括教学方式、教学内容、教学方法等。通过学生的反馈,教师可以及时调整教学方案,使课程更贴近学生需求和时代发展。

  (9)提供有效资源和平台。大语言模型技术和数据库技术的更新十分迅速,并且内容繁多复杂,学生理解和学习相关的内容具有一定的挑战性,仅依靠几个课时的讲解不足以让学生全面了解相关的技术,因此教师应该提供相关的学习资源,包括相关的学术会议和期刊、在线课程、技术交流平台等,让学生快速找到高质量的相关技术进行学习和研究。另外,大语言模型技术依靠大量的计算资源和数据集,因此教师需要提供给学生一些公开的数据集以及相应的计算资源,保证学生项目实践的顺利进行。

  数据库课程一般针对大三学生授课,时间在 9—12 月底,其中理论课程为 54 课时,连上 3 课时;实践课程为 36 课时,连上 2 课时,并配有 2 名助教。每一年均设置 QQ、微信群、超星学习平台用于学习交流,让学生在线上进行学习交流和问题咨询。融入大语言模型技术后,在第 3 个课时(即第一周的授课)讲解大语言模型工具的使用,介绍相关接口的调用,让学生同时对大语言模型技术的使用以及数据库技术有一个初步的了解。在每个相关数据库任务的理论课程中,使用1个课时讲解相关前沿技术案例,在课后习题中补充大语言模型工具生成的题目,在最后 4 个课时让学生按组分享前沿技术并提出拟应用大语言模型技术提升该任务解决方案。在实践课中,使用最后的 6 个课时对企业合作的项目实验进行项目发布、项目进度讨论,在此之前,大三学生已经至少掌握了一门编程语言(如 Python)和数据库以及大语言模型技术的基本原理和操作。在最后 2 个课时进行项目汇报和展示。期末考试后一个月内提交个人的技术报告。

  通过将大语言模型技术融合到数据库课程中,学生同时掌握这两类技术的核心原理和方法并实现一定的创新,培养解决实际问题的能力。在课堂学习和大语言模型工具的使用中,不仅对数据库的基本知识有一个全面的了解,还快速掌握大语言模型技术的基础理论、特性和前沿发展趋势。在课堂中引入适当主题的探讨,有利于学生碰撞出不同的火花,激发他们进一步自主研究相关领域的兴趣;同时通过技术的分享,学生深入掌握在数据库任务下的前沿技术,并对大语言模型技术进一步解决该任务有更加深入的思考,从而培养创新思维。在实践课中,实验环境下的项目使得学生对于数据库基础理论和原理掌握得更加透彻。通过实际项目的实现,学生提前适应使用前沿技术解决实际问题的过程,从而为之后的职业生涯奠定良好的实践基础;其次,通过小组合作的方式,学生通过协作配合来调动积极性,同时提高合作意识和沟通能力。除此之外,在教学过程中引入一些独特的教学设计,如多维度评估方式和奖励机制,教师不断跟踪技术发展,关注学生的反馈以及提供有效资源和平台,也使得教学内容更加与时俱进,包含更多前沿且符合学生期望的教学内容和资源。

  总之,学生通过该课程的学习,同时掌握了关于数据库和大语言模型技术的基础原理、方法和前沿技术,并对两者的融合产生了创新性的思考和研究,这有助于培养学生创新思维和解决实际问题的能力,无论是对日后的学术研究还是企业求职都有极大的帮助。

  目前数据库相关的前沿技术发展迅速,数据库课程的内容要与时俱进,然而目前的数据库课程设计难以满足培养解决实际问题的专业人才的需求。大语言模型目前已经在多个任务和领域内展示出了卓越的性能,并且和数据库的任务具有强相关性,因此教育者要将最新的大语言模型技术引入数据库课程中,培养符合时代发展要求的计算机等工科专业的人才。将大语言模型融入数据库课程中无疑是具有挑战性的,要依据学生学习的背景设计学生易于接受和启发性强的教学方式,通过让学生对数据库技术和大语言模型技术的融合产生更加深入的思考和见解,全面并且深入地理解两者的基础原理和前沿技术,培养其创新思维以及解决实际问题的能力。通过实施教学技术,期望可以实现相应的教学目标,达到预期的课程教学效果。

  [1] 陈智勇. 计算机科学与技术专业学生系统能力培养的改革与实践[J]. 计算机教育, 2019(3): 58-61.

  [3] 康长青, 吴中博, 胡春阳, 等. 游戏化学习在数据库系统实验教学中的应用探索[J]. 计算机教育, 2022(8): 43-47.

  [4] 李月军. 新工科背景下数据库系统课程实验教学的改革与探索[J]. 计算机教育, 2019(6): 58-61.

  第一作者简介:王晓玲,女,华东师范大学教授,研究方向为数据管理技术、可信AI技术,

  引用格式:王晓玲,岳文静,王昊奋,等.大语言模型技术融入数据库课程的教学探索[J].计算机教育,2024(9):28-32.

  校长专访|扎根边疆民族地区 聚焦师范教育主业培养高素质应用型人才——丽江师范高等专科学校陈本辉校长专访

  校长专访|推动学科交叉融合 培养新时代创新型人才——香港科技大学(广州)创校校长倪明选教授专访

  北大李晓明教授:从趣味数学到趣味算法到趣味编程——非专业学习者体会计算思维的一条途径?