桑标:大数据驱动教育决策 助力教育强国建设

 2023年5月29日,习在中央政治局第五次集体学习时就加快建设教育强国发表重要讲话,强调我们要建设的教育强国“以教育理念、体系、制度、内容、方法、治理现代化为基本路径”,并指出“教育数字化是我国开辟教育发展新赛道和塑造教育发展新优势的重要突破口”。建设教育强国,是以中国式现代化全面推进中华民族伟大复兴的基础工程,要加快推进教育数字化转型,以大数据赋能教育治理现代化,助力教育强国建设。  201

  2023年5月29日,习在中央政治局第五次集体学习时就加快建设教育强国发表重要讲话,强调我们要建设的教育强国“以教育理念、体系、制度、内容、方法、治理现代化为基本路径”,并指出“教育数字化是我国开辟教育发展新赛道和塑造教育发展新优势的重要突破口”。建设教育强国,是以中国式现代化全面推进中华民族伟大复兴的基础工程,要加快推进教育数字化转型,以大数据赋能教育治理现代化,助力教育强国建设。

  2015年,习在致国际教育信息化大会的贺信中指出,当今凯发在线世界,科技进步日新月异,互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。

  全球大数据规模增长快速,根据国际权威机构Statista的统计和预测,2020 年全球数据产生量达到 64.2ZB,而到2025年,这一数字将达到181ZB,全球数据量呈现指数级增长。[1]数据已经演变成为一种不可或缺的生产要素,其开发利用可以促进创新驱动、提高效率、优化结构、增强竞争力,成为促进经济、科技和社会发展的关键驱动力。

  与先前的数据信息有所不同,大数据基本特点可以用3V或4V来概括:Volume(数据规模庞大),大数据的体积远远超过常规数据,通常以TB、PB甚至EB为单位;Variety(数据类型多样),大数据不仅包含传统的结构化数据,还包括各种形式的非结构化和半结构化数据;Value(数据价值巨大),大数据中蕴含着对决策和创新有重要意义的信息和价值;Velocity(数据更新频繁),大数据以高速率生成、流动和积累。[2]

  大数据正日益成为提升政府治理能力的重要手段。早在2015年国务院印发《促进大数据发展行动纲要》,确定了未来5—10年我国大数据发展的国家顶层设计和总体部署,并将“打造精准治理、多方协作的社会治理新模式”作为第一条总体目标,强调将大数据作为提升政府治理能力的重要手段,通过高效采集、有效整合、深化应用政府数据和社会数据,提升政府决策和风险防范水平。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》也专章提出要提高数字政府建设水平,将数字技术广泛应用于政府管理服务,推动政府治理流程再造和模式优化,不断提高决策科学性和服务效率。

  世界教育发达国家纷纷将大数据运用于教育决策确立为提升教育核心竞争力的重大战略,一方面通过制定教育数字化战略,明确大数据在支撑教育治理方面的发展目标、任务和措施,加强顶层设计和协调推进;另一方面通过建设教育大数据平台,整合教育数据资源,实现数据的采集、存储、处理、分析、展示、共享、应用等全流程管理,为教育决策提供数据支撑和数据服务。例如美国国家教育统计中心、英国高等教育统计局和日本国立教育政策研究所等机构平台,在规范管理与开放共享国家教育数据、辅助科学教育决策等方面发挥了重要作用。[3]

  大数据环境下,整体现象的理解和把握需要通过对数据内部相互关系和非线性效应的深入研究,而非仅仅关注单个数据元素的行为。凯文·凯利在其著作《失控》中多次强调复杂系统理论的“涌现(emergence)”概念,用于描述在大量个体集聚时,个体之间的相互作用引发了整体新属性或模式的现象。典型的例子包括蚁群和蜂群等,其中整体行为和性质不仅仅是个体行为的简单叠加,而是由系统内部相互作用和非线性效应所塑造,与单个组成部分的行为迥然不同。[4]不过,当数据规模达到一定程度时,自发产生的模式和规律并非直观可见,需要通过大数据分析和挖掘技术,这些模式和规律方得以揭示。例如,“涌现”的教育治理趋势、教师教学模式、学习者行为模式等现象,均可在大数据的深入挖掘中得以发现。

  一是循数决策:数据驱动决策的范式已经取代了传统的反应式处理方式,使教育决策者能够以数据为基础进行决策、管理和创新。海量的教育数据将治理变量转变为可统计、可度量、可计算的对象,促使教育决策者主动挖掘数据价值,深入理解教育系统的运行情况,从而制定更为科学和有效的教育政策和措施。

  二是智能决策:将大数据与人工智能技术相结合,可协助教育决策者更有效地处理和分析庞大的数据集,超越个体处理数据的极限。借助数学模型、仿真技术和数据融合等方法,能揭示出原本难以察觉的非线性关联,帮助决策者发现教育治理中潜在的变量和相关关系,消除因个人知识储备的局限性和数据信息的滞后而造成的决策研究与教育实践不匹配,[5]从而超越传统的凭经验进行决策的范式,提高决策的科学性和准确性。

  三是简化决策:大数据处理的核心目标在于超越错综复杂的教育过程和现象,通过有效处理大规模的教育数据,挖掘数据背后的潜在内涵,并将其转化为可解释的信息,从而将庞大而复杂的数据集简化为直观易懂的规律模式,使决策者更全面地理解教育系统的运行情况,并迅速把握关键趋势和问题。

  四是协同治理:在大数据时代,教育决策已不再是单极化的过程,而是演变为一个涉及多方利益相关者的协同治理过程。在教育决策领域,需要构建多元主体协同合作的制度体系,以明确各方的权利和义务范围,形成权责一致的合作局面。[6]大数据的流动和共享使得家长、社会组织以及公众能够积极参与到教育决策过程中,形成开放和协同的治理模式。

  党的二十大首次将“推进教育数字化”写进党代会报告,作为国家教育数字化战略行动的重要组成部分,教育部加快推进大数据支撑教育治理转型升级,连续多年将提升数据支撑服务教育决策能力写入教育部年度工作要点,2021年提出形成教育系统数据资源目录和数据溯源图谱,制定教育基础数据标准规范,实现有序共享。[7]2022年强调要提升数据治理、政务服务和协同监管能力,并强化数据挖掘和分析,构建基于数据的教育治理新模式。[8]教育部部长怀进鹏在世界数字教育大会上提出,要推动教育治理高效化、精准化,通过人工智能、大数据等技术应用,实现业务协同、流程优化、结构重塑、精准管理,从而更好提升教育管理效率和教育决策科学化水平。

  目前,教育大数据正逐步赋能政府决策全要素、全过程、全领域,使其从单一决策向综合决策转化,从孤立数据源向多元数据源转化,从静态数据分析向动态数据分析转化,从封闭数据管理向开放数据共享转化,其运用于教育决策的集中体现之一是构建各类教育决策服务系统。通过整合数据挖掘、机器学习等先进技术,教育决策服务系统能够从大规模数据中识别模式、趋势,为决策者提供科学、客观的支持,从而推动教育治理水平的提升。

  教育决策服务系统已有一些实践探索。在教育部领导和支持下,“双一流”建设动态监测系统以及长三角教育现代化监测评估系统等在一流大学建设、区域教育现代化推进等方面发挥了积极作用。“双一流”建设动态监测系统为国家“双一流”建设提供了政策制定依据。长三角教育现代化监测评估系统依据长三角三省一市统一的教育现代化指标体系,整合包括教育统计数据、教育行政填报数据、超过百万份问卷调查数据和第三方权威数据等多源数据,建立数字化、智能化的监测评估系统,实现对大数据的挖掘和分析,服务长三角一市三省科学决策、精准施策,引导各级各类学校高质量发展。

  一是教育数据的开放性存在一系列困难。由于教育系统的复杂性,决策制定过程对大量数据的需求迫切。然而,数据安全与开放之间存在矛盾,开放数据存在信息不完整或缺失的问题,所公开的数据往往呈现出模糊和粗糙的特征,从而影响了大数据在教育决策中的应用效果。此外,数据滞后或更新不及时使得研究者难以及时获取到最新的教育数据,直接影响并制约了大数据在教育决策中运用的准确性和有效性。

  二是“数据孤岛”问题在教育系统中较为明显。各部门独立开发数据系统导致数据分散存储在各自独立的数据库中,部门间数据有效流动存在障碍,无法实现数据的集中管理和共享,呈现分散性、格式标准不一致以及权限和安全等问题,难以发挥其多维度的价值。

  三是大数据高效处理面临着巨大的挑战。随着数据规模的爆炸式增长、数据来源和类型的复杂多样以及数据生成更新的高速性,已超过传统数据处理软硬件架构的承载能力。因此,满足规模庞大、格式多样、高速生成的大数据高效处理要求,成为大数据应用于教育决策的重要挑战。

  思维模式的变革是大数据应用于教育决策的前提,为更全面、更灵活地理解和利用大数据奠定基础。大数据研究专家舍恩伯格指出,在大数据时代,人们对待数据的思维方式将经历三个关键变化:数据处理对象从样本数据扩展到全部数据;由于涉及全部数据,人们不得不接受数据的混杂性,从而放弃对精确性的过度追求;逐渐放弃对因果关系的追求,而更关注相关关系的识别。[9]

  提升教育治理现代化水平,应使决策过程从依靠经验向基于证据的循证思维转变,强化政策研究和决策的多主体协同意识、证据意识与大数据思维方式。传统思维与大数据思维在多个方面存在显著差异,包括数据来源和范围、数据处理方式、决策速度和实时性,以及面向未知和创新的适应性等方面。

  在数据来源和范围方面,传统思维主要依赖于有限的内外部数据,基于已有的经验和知识;而大数据思维则注重整合和利用多源、多类型、多领域的数据,包括结构化和非结构化数据。

  在数据处理方式方面,传统思维使用有限、已知的数据样本进行分析和决策,注重确定性和精确性,采用统计学和规则推理方法;而大数据思维关注海量、多样化、高速产生的数据,强调从中提取有价值的信息和模式,借助数据挖掘、机器学习等技术进行分析和决策。

  在决策速度和实时性方面,传统思维主要基于历史数据和固定模型进行分析,需要较长时间来收集、整理和分析数据;而大数据思维则通过对实时数据的快速处理和分析,使决策能够更及时地基于当前情况和趋势进行调整和优化。

  在面向未知和创新方面,传统思维通过已有的模型和规则解决已知问题,对未知情况和新挑战的适应性可能不足;而大数据思维注重从数据中发现新的模式、趋势和关联,能够更好地适应未知情况和创新需求,提供新的解决方案。

  在大数据及人工智能时代,教育数据的收集和整合呈现出显著演变,体现在以下几个方面。

  一是多源数据。教育数据的采集范围不再受限于传统的学生信息系统和学校管理系统,而涵盖了学习管理系统、在线教育平台、社交媒体数据、传感器数据等多源数据。

  二是实时数据采集。随着传感器技术的不断发展和普及,教育数据的采集变得更加实时和准确,通过智能设备和传感器,能够实时获取学生的学习行为、心理状态、生理指标等数据。

  三是自动化数据收集。人工智能技术的应用使教育数据的收集过程更加自动化和高效,自动化工具还能够对大规模的学习数据进行快速处理和分析。

  四是数据云存储。云计算技术的兴起为教育数据的存储和管理提供了更加灵活和可扩展的解决方案。

  五是跨系统数据整合。教育数据的整合不再受限于单一的数据系统,而是实现了跨系统的整合,通过提升数据标准化和互操作性,不同系统中的数据能够进行无缝集成和流动,实现多维度数据的整合分析。

  大数据的兴起正引领科学研究的范式演变。有研究者认为,人类科学研究经历了实验科学、理论科学和计算科学三个范式的演变,目前正逐步进入“数据密集型科学”的第四研究范式。[10]

  实验科学阶段以控制变量和观察结果验证假设为主,典型如钻木取火和伽利略的实验。理论科学阶段侧重于通过构建模型和推理解释现象,代表性例子有牛顿的三大定律和麦克斯韦的电磁学。计算科学阶段则以计算来模拟系统行为,包括电子计算机的发展、核试验模拟和天气预报等。

  当前的“数据密集型科学”范式依赖于大数据技术和分析方法,旨在挖掘数据中的模式、关联和趋势。这一范式特别适用于那些基本原理不完备、缺乏原始先验知识,但可以大量获取真实数据的问题领域,通过对丰富的实际数据进行深入挖掘,为解决复杂问题提供了一种全新的、更贴近应用场景的研究途径。在大数据的背景下,计算教育学、算法教育学等基于数据密集型研究范式的学科应运而生,传统的教育管理与决策正在从以管理流程为主的线性范式逐渐向以数据为中心的扁平化范式转变,教育管理与决策中各参与方的角色和相关信息流向更趋于多元与交互,为推动教育管理由“粗放式”向“精准化”转变提供了机遇,也为实现我国教育治理现代化提供了重要契机。[11]

  应当注意的是,大数据本身还存在多方面局限,包括不完整性、难以获取性、不具代表性、飘移、算法干扰、脏数据以及敏感性等特性。[12]

  大数据的不完整性表现为数据集中可能存在缺失、遗漏或不完备的信息,导致数据的整体性和完整性受到一定程度的影响。教育作为一门“人”的学科,数据永远只能触及教育的部分层面。在教育领域,通过局部信息难以实现整体认知,如无意识中发生的、顿悟的、休闲的、隐性的学习和教育活动都难以被记录和保存。[13]

  此外,大数据的难以获取性涉及某些数据无法轻松获取或收集,可能由于技术、法规或其他限制而造成数据采集的困难。大数据的不具代表性意味着数据集中的样本可能无法充分反映整体群体的特征,存在一定的偏差。飘移问题指的是数据分布在时间或空间上的变化,使得在不同时期或不同地点采集的数据难以直接比较和推广。算法干扰指由于复杂的算法运算导致数据结果的扭曲,使得分析者可能误读或误解数据。脏数据表明数据集中存在错误、异常或不一致的数据,可能源于录入错误、传感器故障等因素。敏感性问题强调了大数据可能包含个人隐私和敏感信息,需要在使用和共享时严格考虑数据隐私和安全问题。

  联合国教科文组织《一起重新构想我们的未来:为教育打造新的社会契约》中提到,数字工具的广泛应用为研究人员提供了前所未有的能力,使其能够有效组织、综合和处理比以往任何时候都更为庞大的教育数据集。然而,这种发展带来了两方面的影响,一是人们可能形成一种假设,即如果没有大量的数据,就无法识别任何模式,没有模式则没有价值;二是人们更倾向于将数据,尤其是适合数字技术的可量化数据,视为最重要的知识形式。[14]

  因此,正如使用任何工具一样,研究人员有责任明确数字研究工具的潜在能力及其局限性,要在大数据运用于决策研究中形成重塑目的导向,从而超越数据的局限与假定。获取更多的数据并不总是意味着更好或更精确的研究结果,其效果取决于研究的目的。特别是将大数据运用于教育决策,要以研究目的为中心,而非以工具为中心。研究人员应该对数字分析软件所呈现的客观性假设保持审慎,避免沉迷于其表面的客观性而忽视了背后的潜在局限性。

  在大数据时代,迫切需要发挥“社会学的想象力”。仅仅依赖数据并不能自动导致教育决策的生成,连通大数据与教育决策之间关键的中介环节是“想象力”,即在专业经验和思考的支持下形成的假设。

  米尔斯强调,在抽象经验主义的实践中,对数据进行标准化的统计分析,仅仅是对已知数据的简单操控,无法产生“具有历史穿透力的社会科学”,真正需要的是一种特殊的心智品质,这种品质可以帮助人们运用信息,清晰地概括周边世界的发展和自身可能面临的挑战,通过运用这种想象力,原本心智活动范围狭隘的个体往往会感到仿佛在一座原本熟悉的房子里幡然醒悟。[15]因此,正如教育部提出的“方法重于技术、组织制度创新重于技术创新”的工作理念,数字化管理要避免“技术论”主导数字化。[16]大数据支撑教育决策的功能发挥,亟待理论的先行引领。

  新时代新征程,要深入贯彻落实党的二十大对教育、科技、人才工作的统筹部署,全面把握建设教育强国的要求,发挥我国制度优势,有效整合教育内外相关数据信息,充分利用先进技术和智能化手段,以教育数字化转型加速推进大国教育治理的智能化,支撑服务教育强国建设。

  一是加强教育大数据标准化建设。建立覆盖教育管理信息化工作各要素的工作制度,明确信息系统、教育数据、管理服务等方面的管理要求,规范数据采集、存储传输、使用处理等全生命周期的数据活动,建立完备的数据标准体系,进一步完善技术、服务和质量标准。

  二是聚焦决策应用场景,提升服务应用能级。充分利用深度学习、预训练内容生成式AI等前沿技术和解决方案拓展动态监测、统计分析、趋势研判、效果评估、预警预报、风险防控等应用场景,为政府部门提供更全面、更精准、更实时的决策支撑。

  三是建立教育大数据共享融合机制。坚持以共享为原则、不共享为例外,推动教育数据广泛共享,建立数据共享审核制度,明确各类数据共享属性和范围,规范数据共享工作流程,依托国家智慧教育公共服务平台,建设教育数据共享开放模块功能,实现数据动态汇聚和实时更新,稳步推进跨部门数据共享及社会公开,促进数据的开发利用。

  四是提升教育决策主体的数据素养。通过加强教育管理者、教师和学生的数据教育和培训,提升其数据意识、数据能力、数据责任、隐私和保密意识,使其能够有效获取、分析、利用和保护数据。

  五是加强大数据在教育决策中的应用。将大数据支撑教育决策作为强国建设的一项战略性举措,健全大数据支撑、辅助教育决策的相关机制。教育行政部门和各级教育决策机构要借助于各种应用场景,善于科学运用大数据进行研判,从而全面提升教育决策科学化水平。

  [3]刘博文,吴永和,肖玉敏,等.构筑大数据时代教育数据的新生态——国内外国家级教育数据机构的现状与反思[J].开放教育研究,2019,25(03):103-112.

  [5]王加祥.基于大数据的教育宏观决策信息化智库构建研究[J].智库理论与实践,2021,6(05):86-94.

  [6]梁鹏,李大卫.大数据推动教育治理的愿景、技术风险与应对[J].教育科学探索,2023,41(02):74-80.

  [9]迈耶-舍恩伯格.大数据时代[M].杭州:浙江人民出版社. 2012.

  [11]刘三女牙,杨宗凯,李卿.计算教育学:内涵与进路[J].教育研究,2020,41(03):152-159.

  [12]萨尔加尼克.计算社会学:数据时代的社会研究[M].北京:中信出版集团. 2019.

  [13]谭维智.计算社会科学时代需要什么教育学——兼与《计算教育学:内涵与进路》作者商榷[J].教育研究,2020,41(11):46-60.

  [14]联合国教科文组织.一起重新构想我们的未来[M].北京:教育科学出版社. 2022.

  [15] C.赖特·米尔斯.社会学的想象力[M].北京:北京师范大学出版社. 2017.

  [16]许韬,李宇航,代东旭.高等教育数字化的理论检视、现实挑战与进阶路径[J].中国高等教育,2023(23).

  (桑标作者系上海市教育科学研究院院长、教授,教育部“教育大数据与教育决策”实验室主任)